一通り電車の中で読みました。
2章で、言語処理の基礎的部分を説明。
検索語の重み付け(内積や情報エントロピーなど)と、スパムフィルタリングなどで使われるベイズの方法などは、丁寧に説明してあると思う。
まあ、ここらへんは理論的にはそれほど難しくはないが、計算の手続きは複雑なので、実際計算機を動かして、感触をつかみたい個所である。
3章の評価の部分で、理解をしたがっている人は、一番わかりやすい文章がひとつ見つかれば後は不要だが、特許を取りたがっている人は、関連の特許を網羅的にチェックしたいという、ユーザ心理についての説明が面白かった。具体的には、再現率と制度になるのだが、再現率はユーザが関係のある文章と認知する文章の比率。全部の文章をみればあたりの文章を100%みることができる。
しかし、検索エンジンで検索してもわかるが、上の方の結果は、関係のある文章が多くても、下にいくほど、関係のない文章が増えてくる。ようするに読んだ文章の中で外れの文章の割合が増えてくる。これが精度という尺度。
でも、特許や風評を気にする人は全部みなくなるのも人情。風評なんて興味ないひとは、検索結果の上5件ぐらいしか見てなかったとしてもね。
第4章は、言語処理技術。いわゆる文節わけなどして、文章を分解して、単語ごとの関係をツリーなどで構築していくところ。
形態素解析、統語解析、意味解析は、よくでる単語なので、しっかり押さえておきたい。意味解析の単語の文法的じゃなくて文脈的的な位置を確認するための辞書が意外にたくさんあることにびっくり。これならもっと人工知能が賢くなってもよさそうなきがするが、なぜなんだろう。今後の課題。
第5章ではユーザとの対話的な部分の話。
医学生物系の論文検索システムはすごい。
キーワードをいれると、関連キーワードが20個ぐらいでてきて、これから不要な単語を番号で入力して検索するようなシステム。
Googleで一単語入力して、たくさんでてくるからわかんないといっている、ライトユーザと違って、医学生物系の論文って探すの大変なんだなあとおもった。
物理の論文をプレプリントサーバで探したときは、単独キーワードとすでにもっている論文から人名をいれるぐらいで結構探せたけどなあ。
第6章は、関連技術として、要約や自動分類の話。
2章から4章までをしっかり理解すれば、少しはこの分野の専門家と話ができるようになるような気がする本です。数式や結果の羅列ではなく、この方法の良いところ悪いところ、むいてるユーザ、そうでないユーザについてのしっかり説明してあると思うので、ちょっと調べてくれとかいわれたときに、隣に置いとくと便利な本ではあると思った。
まあ、大学の微積と線形代数をちゃんと勉強してれば、大学2年生ぐらいからチャレンジしていい本だとおもう。
(今日の名言)
「文法についての旧式の考え方では言語の基本的な要素のすべてをとらえることができなかったので、機械翻訳の初期の試みは失敗した」
ファインマン計算機科学序文