読書の記録

評論・小説・ビジネス書・教養・コミックなどなんでも。書評、感想、分析、ただの思い出話など。ネタバレありもネタバレなしも。

統計学が最強の学問である

2013年04月21日 | サイエンス

統計学が最強の学問である

西内啓

 

 売れているようだ。そんなに統計がはやっているのだろうか。例のビックデータというやつのせいか。

 僕は、ここでも書いたけど、いぜん統計解析を仕事にしたこともあって、ここに出てくるようなロジスチック回帰とか、重回帰分析とか、カイ二乗検定とか、いちおうは通過している。
 いちおう、というのは決して何かの資格を持っているとかいうことはなく、単に現場で無理やり覚えさせられたに過ぎない。だから、正確に理解していたとか、計算のアルゴリズムをしっかり勉強したとかあ、S言語を習得したかというとまったくそんなことはない。

 当時はまだビックデータはもちろん、データマイニングなんていうコトバも流通していなかった。
 ただExcelで使える統計解析ソフトはあった。顧客からPOSデータとか通行量データとか、お客さんのアンケート結果なんかもらってはせっせと入力してぐるぐると解析ソフトをまわしていた。

 統計というのは実に地味な仕事である。そもそも統計というのはリスクヘッジの権化なのであって「今までこうでした。だから次もこうでしょう」ということをやる分野である。だから実に夢がなかった。

 で、この仕事からおさらばしてしまったわけだが、その後、グーグルのベイズ理論に基づいたページランクというアルゴリズムが着目されたり、データマイニングが話題になり、そしていまやビックデータである。

 本書でも指摘されているが、ビッグデータだろうと、サンプリングデータだろうとあまり違いはない。少なくとも違いがないことのほうが多い。
 ビッグデータの本質は、何万人のデータベースができたということではなくて、ライフログというところにある。購入履歴とか閲覧履歴のような、本人が気づかないうちにあちこちで残した痕跡からある種のパターンを見抜くのである。だから、ライフログされあれば、サンプリングで構わない。
 重要なのは、これまでアンケートとかせいぜいレジでのPOS管理システムくらいでしかとれなかったデータが、ライフログとしてかなり細かいところまでとれるようになったからだ。最近はさらに、携帯電話やスマホに仕込まれているGPSデータを使って、移動パターンまで採取しているようで、大きなお世話もいいところである。

 というわけで、トムクルーズ主演の映画「マイノリティレポート」みたいなことがほんとうに現実化しつつある昨今で、個人的には辟易気味なのだが、統計というビジネス分野がトレンドなのは間違いないだろう。とはいいながら、統計そのものは完全競争産業に近いところもあって、だから小さなプロダクションみたいな会社にどんどん外注されていくわけで、コールセンター業務みたいに、そのうち中国やインドの企業とかに丸投げされてしまいそうな予感もある(もうされている?)。

 そんなわけで僕は統計というものは実に野暮で無粋なイメージ(トラウマともいう)があるのだけれど、ゆいいつ面白いなと思ったのは、本書でも紹介されているテキストマイニングである。
 これは、文章の書かれ方や頻出する単語の特徴をつかまえて、なんらかの傾向を読みとるもので、自由回答記入のアンケートとか、コールセンターの問い合わせ内容とかを分析する際に用いるのだけれど、計量文献学的な世界では急にミステリー小説の謎解きみたいなカタルシスが出てくる。
 本書では、シェークスピアとベーコンの文章の書かれ方の相違をみてこの2人が別人であることを示すエピソードが出ているが(この2人は同一人物という説がある)、僕が見聞きしたのは、源氏物語の五十四帖をしらべてみると、いくつかのグループができあがり、別人か、あるいは相当の年月の隔離があって書かれ、それが必ずしも五十四帖通りの時系列にならない、という話だったり、宮沢賢治の小説に出てくる色彩語の頻出パターンから、彼の色彩空間感覚を再現してみると意外にも白色系統が多いという試みだったりする。こういうのは“知の探究”のようで楽しい。

 ようするに僕は統計がキライなのではなく、統計で武装してビジネスをやりぬいていこうという気概が無い、つまりそもそも仕事が好きでないというだらしのない結論になってしまった。

 


この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 唯幻論大全 | トップ | ぼくらの文章教室 »