Mizuno on Marketing

あるマーケティング研究者の思考と行動

広告

※このエリアは、60日間投稿が無い場合に表示されます。記事を投稿すると、表示されなくなります。

万人のためのテキスト・マイニング

2008-07-22 23:28:55 | Weblog

いまや学術的な研究はもちろん,企業の実務でもさかんに使われているテキスト・マイニング。しかし,高価なソフトウェアは,大企業はともかく,中小企業や研究者にはなかなか手が出ない。そうした状況を一変させる革命的な出来事が起きた。それが

TTM: TinyTextMining

である。実は TTM には昨年度わが研究室の M2 がお世話になり,無事修士号を取得することができた。その時点ですでに,コンピュータにさほど強くなくとも,テキスト・マイニングができる便利なツール(しかもフリーウェア)であった。しかし今回,係り受け解析機能が加わるとともにインタフェースが改善され,さらにパワーアップした。

暑い夏の日,卒論・修論の方向性が定まらず悩んでいるマーケティング分野の学生諸君,それを見てイライラしている指導教員諸氏,ぜひ TTM の門を叩いてみたらどうでしょう? テキスト・マイニングがありがたいのは,データがウェブ上にいくらでも存在し,無償で手に入ること。数値データは,政府統計や財務諸表を除き,そう簡単に手に入らない。

もちろん TTM がやってくれるのは,テキストデータの前処理までである(といっても辞書をどう作るかに個人の工夫が生きる)。あとはそれをいかにデータとして解析するかという世界に入るので,何らかデータ解析の経験がある教員にとって,指導の生産性が向上する(はず)。データの前処理に多大な時間をとられて,分析のほうは時間切れという,ありがちな惨事を避けることができる。

いいことずくめの TTM だが,もし残された問題があるとしたら,それはテキスト・データをどうやって集めてくるか,ということだろう。確かにウェブ上には無限の「公開」データがあるが,だからこそ,それを網羅的かつ効率的に集めることがだんだん難しくなっている。そこでぜひ,どなたかが Tiny Web Crawler を開発していただけないか・・・。もちろん,データのクリーニングはユーザが責任を持って行うということで。

お願いばかりで恐縮ですが・・・

コメント (2)   この記事についてブログを書く
« 夜は夏休みモード | トップ | 統計学の「よい」入門書 »
最新の画像もっと見る

2 コメント

コメント日が  古い順  |   新しい順
Unknown (matumura)
2008-07-23 10:21:05
TTMの宣伝をしていただきありがとうございます!
Tiny Web Crawlerも面白そうですね.
TSUBAKIを使えば簡単にできそうなので,
夏休み中に作ってみます.

やった! (mizuno)
2008-07-23 18:42:23
期待しています!!

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

Weblog」カテゴリの最新記事