電網郊外散歩道

本と音楽を片手に、電網郊外を散歩する風情で身辺の出来事を記録。退職後は果樹園農業と野菜作りにも取り組んでいます。

表記の揺れと検索

2018年01月09日 06時05分43秒 | コンピュータ
テキストファイル備忘録や当ブログを検索するとき、検索語に迷う場合があります。検索したい内容は決まっているのですが、検索語の表記に揺れがあり、複数の表現を使ってしまっている場合です。

例えば「コンピュータ」と「コンピューター」の場合は、「コンピュータ」で検索すれば部分一致で両方を抽出できます。「フロッピー」も「フロッピィ」も、「フロッピ」で検索すればOKです。

しかし、例えば「プレッピー」と「プレピー」ではそうはいきません。「プレ」だけで部分一致で探そうとすると、「プレゼント」や「プレゼンテーション」「プレコンサート」「プレーヤー」「プレートテクトニクス」なども検索されてしまいます。

コンピュータ上でテキストファイル備忘録を検索するときは、単純に grep などのツールを用いて、

$ grep -e '検索語1' -e '検索語2' 対象ファイル名

で検索することができますし、awk では正規表現が使えます。

$ awk '/正規表現/{print}' 対象ファイル名

例えば、

awk '/プレ(ッ)*ピー/{print}' memo-utf.txt

とすれば、memo-utf.txtから「プレ」と「ピー」の間に()内の文字の0個以上の繰り返しを持つ文字列、つまり「プレピー」や「プレッピー」を探しだして出力します。

しかし、gooブログの検索ボックスでは、単純に2語を並べると結果は出なくなりますし、正規表現も使えません。しかたがないので、Googleで

site:blog.goo.ne.jp/narkejp/ プレ ピー

とすれば、「プレ」と「ピー」の両方を含む記事が検索できますので、「プレピー」や「プレッピー」のように表記に揺れがあっても大丈夫です。

長年の蓄積で、ちょっとしたことを調べるのにもテキストファイル備忘録やブログ記事が有効になっています。記憶の片隅に埋もれていたことが目の前に再現されるのは、なかなか良いものです。その意味では、表現にゆらぎがある語を用いる場合には、一件の記事の中にできるだけ両方を入れておくという配慮があると、後に検索する際に役立つようです。



ところで、データ検索の精度としては、テキストファイル備忘録のほうが上のようです。goo ブログの場合、記事の検索結果には「人気記事」だとか「最新記事」だとかが一覧されますが、このタイトル中に該当の語(例えばプレッピー)が含まれてしまう場合があるからです。読者には「便利そう」な機能がデータ検索の精度を下げる結果になるようで、なんだかなあ…と思ってしまいます(^o^;)>poripori

コメント (2)