Mizuno on Marketing

あるマーケティング研究者の思考と行動

万人のためのテキスト・マイニング

2008-07-22 23:28:55 | Weblog

いまや学術的な研究はもちろん,企業の実務でもさかんに使われているテキスト・マイニング。しかし,高価なソフトウェアは,大企業はともかく,中小企業や研究者にはなかなか手が出ない。そうした状況を一変させる革命的な出来事が起きた。それが

TTM: TinyTextMining

である。実は TTM には昨年度わが研究室の M2 がお世話になり,無事修士号を取得することができた。その時点ですでに,コンピュータにさほど強くなくとも,テキスト・マイニングができる便利なツール(しかもフリーウェア)であった。しかし今回,係り受け解析機能が加わるとともにインタフェースが改善され,さらにパワーアップした。

暑い夏の日,卒論・修論の方向性が定まらず悩んでいるマーケティング分野の学生諸君,それを見てイライラしている指導教員諸氏,ぜひ TTM の門を叩いてみたらどうでしょう? テキスト・マイニングがありがたいのは,データがウェブ上にいくらでも存在し,無償で手に入ること。数値データは,政府統計や財務諸表を除き,そう簡単に手に入らない。

もちろん TTM がやってくれるのは,テキストデータの前処理までである(といっても辞書をどう作るかに個人の工夫が生きる)。あとはそれをいかにデータとして解析するかという世界に入るので,何らかデータ解析の経験がある教員にとって,指導の生産性が向上する(はず)。データの前処理に多大な時間をとられて,分析のほうは時間切れという,ありがちな惨事を避けることができる。

いいことずくめの TTM だが,もし残された問題があるとしたら,それはテキスト・データをどうやって集めてくるか,ということだろう。確かにウェブ上には無限の「公開」データがあるが,だからこそ,それを網羅的かつ効率的に集めることがだんだん難しくなっている。そこでぜひ,どなたかが Tiny Web Crawler を開発していただけないか・・・。もちろん,データのクリーニングはユーザが責任を持って行うということで。

お願いばかりで恐縮ですが・・・