ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

ビッグデータ=統計の専門家まかせという考え方で、大丈夫か?

2012-03-10 23:34:39 | Weblog
ビッグデータとBIの関係について、もう一言二言・・・

 ビッグデータを扱えるようになって、統計の専門家が必要だという声は大きい。
 たとえば、こんな記事もある。


人材不足で“取り合い”は必至
データサイエンティストなる職種
http://diamond.jp/articles/-/16193?page=2


には、こんなことが書いてある(以下太字は上記サイトより)

ビッグデータ関連で必要とされる人材は4種類あるという。

(1)データベースに強いIT技術者。多様な非構造化データをデータベースに格納するための前処理など、データベースの整備ができる技術者だ。次に
(2)定性調査、定量調査に関する専門家。アンケートやインタビューなどの設計ができる人である。そして
(3)データアナリスト。つまり統計や人工知能の知識のある専門家だ。そして最後に
(4)プロジェクトマネジャー。コンサルティングも企画提案もでき、人の管理もできる管理者は、(1)~(3)のメンバーをまとめ上げる存在として欠かせないという。


確かに記述統計的なことや、推論が入ってくるにしても、回帰、重回帰、多変量回帰などの分野では、そうだと思う。
しかし、データマイニングでクラスタリングを扱ってきたり、
テキストマイニングをしたり、
因果関係でも、ベイジアンネットワークはまだいいけど、因子分析、共分散構造分析をするとなると、この人たちでは、無理が出てくる。




BIの時代の延長と違った能力が、最近の社会では求められている。
BIは、基本的には蓄積された過去のデータを下に、現在、将来を予測していく。
そのため、表面的な動きが中心になる。
この場合、データ解釈は、統計の知識があればよい。
しかし、過去が現在と連続性を持たないほど激変している場合、これらのデータは役に立たない。
現状は、そういう時代だ。



そういった時代には、「なぜ、この人は、こういう動きをするのだろうか?」と考える必要がある
このような因果関係を扱うには、ベイジアンネットワークもあるけど、
人間の潜在的な要素を、因子(因子分析の場合)や潜在変数(共分散構造分析の場合)として扱い、
因子分析の場合は、因子を考え、共分散構造分析の場合は、潜在変数と、その他の変数との関係なども考えて、
統計を行うことになる。
この場合、その因子や潜在変数+構造は、自分で考えることになる。
なので、深い業務・業界知識(表面的でなく、構造的な)が必要になってくる。
これは、ドメインエキスパートが持っている知識であって、統計の人というか、上記(1)から(4)の人にはない知識である。
そもそも、これらの分析がしたいのなら、ビッグデータである必要は・・・??





実は、データマイニングやテキストマイニングでも、むしろ、業務知識のほうが必要になってくる。
統計知識は勉強すれば、Wekaぐらいの内容でよければ、動かせる。
動かせるが、それだと、ごみが出てくることがある。
それらのデータクレンジングやデータのまとめ方には、業務知識が要る。
また、テキストマイニングは、類義語辞書が欠かせないが、
このような辞書をつくるにも、業務知識が要る。




つまり、統計とは、ユーザー側と、統計者側で、アジャイル的に行っていく
必要があるのであって、統計やさんをあつめて、それで、まわるんかい?
といった、考えをもってしまっています。


この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« プログラミングパラダイムが... | トップ | イマドキの新人教育の課題と... »
最新の画像もっと見る

Weblog」カテゴリの最新記事