ビッグデータ分析を超えた先にある、数理と経験を融合するベイズモデル（１）－１

2013-05-24 12:02:14 | AI・BigData

この前のマーケティングの講義が
興味深かったのでメモメモ。

主に

ビッグデータには、３段階あると思う。日本のSIerは、一番儲かる部分をやってないよね！
http://blog.goo.ne.jp/xmldtp/e/70268386f94206ebfc407251346385aa

で書いた、第三段階を実現するためのベイズの話なんだけど、
今日は主に、

なぜ第二段階の、現在SIerが行おうとしている
「相関に基づくビッグデータ分析」が、だめなのか

その限界を述べるところで終わっている。
そこまでのメモメモ

（上記サイトを先に見たほうがいいかも。じゃないと、この講義の意味通じないかも？？）

■この講義の内容
　マーケティングの研究分野で何を考えているか
　→統計モデルのうち、時系列、状態空間モデルを扱う
　　線形ガウス（性質いい）　→　非線形非ガウス

■参考書は？
・ベイズモデルの参考書

データ解析のための統計モデリング入門
―― 一般化線形モデル・階層ベイズモデル・MCMC ――

http://www.iwanami.co.jp/.BOOKS/00/X/0069730.html

・時系列解析

　時系列解析入門
　北川　源四郎　岩波書店　２００５

　特に状態空間の時系列なら、コレ！！

　予測に生かす統計モデリングの基礎
　樋口知之　講談社　２０１１

・網羅的には・・・

　パターン認識と機械学習上　下
　ビショップ
　http://www.amazon.co.jp/dp/4621061224

なんだけど、わかりにくいかも・・・特に下巻

■ベイズは・・
　　・１９８５年ごろに出て、
　　・３０年ぐらいたった今、日本語のベイズ本もいっぱい
　　・モデリング、推定の世界では普通の話（もはやコモンセンス）
　　・論文誌に採録させるには、ベイズの香りをさせないとね・・

■マーケティング研究
　　トランザクションデータを
　　　　・マイニングする
　　　　・統計処理→本講義では、コレ（統計モデル、しかもベイズ）
　　　　・機械学習

　　身近なところに潜んでいる構造の解析

　　マーケティング：買い手中心、短・中期

■課題解決の戦略
　経験、勘だけで妥当な評価ができるか
　　→それだけではだめ。属人性が入るから
　　→データと統計モデルがいる

　経験や勘がいけないといっているのではない。
　経験や勘を積極的にマーケティングのモデルに採用
　　→経験・勘と、データの融合：ベイズモデル

■アナリシスとモデリングの違い
　アナリシス（分析）：データを食わせて何か得る
　モデリング　通常引っ張り出せない情報を得る
　　→まったく違う

　　　　｜　　　　　　　　
　　　　｜有　　　　誤差じゃない
　　誤　｜益　　　　当たり前の情報←分析ではここが出てきてしまう
　　　　｜情
　　差　｜報←ここの情報を狙って取ってくるには
　　　　｜　　精緻なモデリングで引っ張ってくる必要

＜＜フロアからの質問＞＞
Ｑ：具体的にどんなときに、単純な分析だけでは出てこない状況が考えられるか
　　そして、その話と、経験と勘と、いったい、どう結び付くのか？

Ａ：例えば、Ｗｅｂでの広告の効果測定を考えよう。
　　広告と、売上データ、訪問履歴データは取れる。
　　しかしそれだけでは、どういう人が、広告をどう受け取り、何を考えて・・・
　　とか、さっぱり判らない（広告と売上、訪問履歴の相関しか出ないから）

　ここで、広告の受け取り方や、商品購入のアンケート結果があったとしたら、
　これとデータフュージョンさせることにより、その辺がわかる。

　つまり、これからやろうとしているベイズの話は、
　経験や勘をデータフュージョンさせようという話。
　経験や勘も情報、つまり別ソースのデータなんだよね！

　データが正規分布してたとする。ここに情報を加えると、不確実性は減る（分散減る）
　その情報として、経験や勘を使う

■マーケティングによる科学的なものの捉え方
　１．具体性・現実性
　２．操作性→数字で表現
　３．変動性→つねに変動
　４．傾向性→だけど、傾向はある

■片平「マーケティングサイエンス入門」
　データ
　論理　　　　　　→ジャーナルで重要
　市場　　　　　　→ここまでがデータ解析
　マネジリアル　　→ジャーナルではあまり求められない

（以下、論文の書き方なので、これを見ている人には
　関係ない話だろうから省略。博士課程の講義なので、
　ここが重要なんだけど　＾＾；）

■ＩＤつきＰＯＳデータ
　（商品、消費者、時間）の３次元→Massiveだけど、Sparse

■異質性
　　消費者異質性
　　　：消費者毎のパラメータいる
　　　　同じものを買っても違う理由
　　動的異質性
　　　：時間によって、同じ人でも変わる

（以下、論文の傾向と査読通過の話なので省略）

■消費者を知る　　
　　現代：需要が供給を決める
　　供給者：需要側の構造把握
　　　→今とれるのは、結果データ
　　　　　→理由となるデータは直接取れない

　　結果にいたるメカニズムの理解が必要
　　　→表層的な結果データの関連性は、「理解」ではない

あ～なげ～・・・一旦ここできる。

ここまでをまとめると（ちょっと付け足している）、

・データを分析しても、それだけでは、当たり前な結果しか出てこない
　さらに、みんな同じようなデータ、同じような解析方法をしてしまったら
　同じような結果が得られ、競争優位性はない。

・ＰＯＳデータ等、結果データを元に、
　相関とか求めても（ここまでが今のSIerさんのビッグデータ分析）、
　表層的な結果データの関連性が出てくるだけで、
　顧客を理解できない

・そこで、他社よりも有益な情報を得るには、
　属人性が必要になってくる。
　この属人性である勘や経験を加味して、
　より有益な情報を取れるようにするのが、
　ベイズである。

次からは、「顧客の理解」とは、どういうことかを議論する。
真の理解は可能なのか、必要なのか・・・
とかいう話。

ランキングに参加中。クリックして応援お願いします！

日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

アクセス
閲覧	1,875	PV
訪問者	946	IP
トータル
閲覧	34,495,231	PV
訪問者	8,511,523	IP
ランキング
日別	398	位
週別	487	位

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！
	goo blogは20周年を迎えました！

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）