唐突ですが、ビッグデータには、3段階あるとおもうんです。
(
前に2種類と書いたが、後者のほうがさらに2段階に別れる)
レベル低いほうから
第一段階(BIによる予想)
BIツールを使って、データを可視化、BIキューブによるスライシング・ダイシング・ドリル(ドリルダウン・アップ)を行う。データはETLツールを使う。現場でのデータ活用としては直感的で有効、将来データについては、直感的に予想することになる。
第二段階(統計と機械学習による予測)
ビッグデータを統計的に解析し、重回帰、機械学習(SVM等)によって予測していく。
基本的に、相関を求めるのであって、
潜在因子については、せいぜい因子分析程度の一つ奥の潜在因子を調べる程度
表面的な現象を中心に予測する。
そのため、現在の環境が変化した場合、使えないリスクもある。
第三段階(SEM,ベイズ・シミュレーションを利用した未来の創造)
データから、潜在的因子を見つけ出し、その心の奥に潜んだ心理的構造に迫る。
この心理的構造を解明し、潜在的な心のニーズ、満たされない欲望に対し、
「あなたの気持ちをわしづかみ!」にする商品、サービスを出していく。
そしてシミュレーション(マルチエージェントなど)によって、
それらのサービス、商品の有効性を確認していく。
未来の創造のためにビッグデータを使う
注意したいのは、この3段階は、使っている理論の難しさ、複雑さであって、
儲かるかどうかという話ではない。
第一段階は、現場に直結する。なので、すぐに効果が(でるものなら)でる。
第二段階は、データサイエンティストか、マーケティング部が中心となる。
現場直結ではないので、利益の出るタイミングは遅れる
第三段階は、マーケティング部が新製品開発を行うのに有効となる
新製品が出る前、効果が現れないこともあるが、
新製品が当たれば、利益はでかい!
SIerの人たちが、今扱っているのは、
第一段階は、BI・OLAPツールとして
第二段階が、いわゆるビッグデータとして最近売り出している。
ただ、「ビッグデータ解析」といえばRということからわかるように、
第三段階には、いたっていない。
その根拠だが、第三段階のSEM(共分散構造分析)をRで行うのは、
めんどうくさすぎる。
つまり、SEMなど、潜在因子を扱うには、
パス図を書いたりすることが必要になってくるのだが、
この図が、Rでは、異様に書きにくいのだ
ってか、コマンドラインで図のデータは入れにくいだろ、JK
で、たとえば、共分散構造分析だと、この図が書きやすいのが、SPSSのAMOS
そうSPSS
そう、IBMが買収した会社(^^)v
・・・日本は・・・ここまで、行ってないってことだね、
Rで話が付くということは・・・
今、大学等で研究が進んでいるのが、第三段階の、潜在因子の構造分析とシミュレーション、
観測されないデータを説明する結晶化などなのだが、ここまでは、日本のSIerは、行っていない
可能性がある。IBMが、共分散構造分析を意識してSPSSを買収したとすれば、IBMは、
第三段階を意識しているのかもしれない。
そして、第一段階、第二段階だけでは、市場全体としてはパイが大きくならないので、
ゼロサムであり、ビッグデータ市場にも限界があることは、
「インフラエンジニア」は最強の職種である-データサイエンティストではなく
http://blog.goo.ne.jp/xmldtp/e/68fb22cd16168f0f335ef01154324f4f
で示したとおり。
第三段階まで行かないと、ビジネスとしては限界が来るのだが、
日本のSierはその段階にいたっていないのだ・・