ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

ビッグデータ分析を超えた先にある、数理と経験を融合するベイズモデル(1)-1

2013-05-24 12:02:14 | AI・BigData
この前のマーケティングの講義が
興味深かったのでメモメモ。

主に

ビッグデータには、3段階あると思う。日本のSIerは、一番儲かる部分をやってないよね!
http://blog.goo.ne.jp/xmldtp/e/70268386f94206ebfc407251346385aa

で書いた、第三段階を実現するためのベイズの話なんだけど、
今日は主に、

なぜ第二段階の、現在SIerが行おうとしている
「相関に基づくビッグデータ分析」が、だめなのか

その限界を述べるところで終わっている。
そこまでのメモメモ

(上記サイトを先に見たほうがいいかも。じゃないと、この講義の意味通じないかも??)




■この講義の内容
 マーケティングの研究分野で何を考えているか
 →統計モデルのうち、時系列、状態空間モデルを扱う
  線形ガウス(性質いい) → 非線形非ガウス

■参考書は?
・ベイズモデルの参考書

データ解析のための統計モデリング入門
―― 一般化線形モデル・階層ベイズモデル・MCMC ――

http://www.iwanami.co.jp/.BOOKS/00/X/0069730.html



・時系列解析

 時系列解析入門
 北川 源四郎 岩波書店 2005

 特に状態空間の時系列なら、コレ!!


 予測に生かす統計モデリングの基礎
 樋口知之 講談社 2011

・網羅的には・・・

 パターン認識と機械学習 上 下
 ビショップ
 http://www.amazon.co.jp/dp/4621061224

なんだけど、わかりにくいかも・・・特に下巻

■ベイズは・・
  ・1985年ごろに出て、
  ・30年ぐらいたった今、日本語のベイズ本もいっぱい
  ・モデリング、推定の世界では普通の話(もはやコモンセンス)
  ・論文誌に採録させるには、ベイズの香りをさせないとね・・


■マーケティング研究
  トランザクションデータを
    ・マイニングする
    ・統計処理→本講義では、コレ(統計モデル、しかもベイズ)
    ・機械学習

  身近なところに潜んでいる構造の解析

  マーケティング:買い手中心、短・中期

■課題解決の戦略
 経験、勘だけで妥当な評価ができるか
  →それだけではだめ。属人性が入るから
  →データと統計モデルがいる

 経験や勘がいけないといっているのではない。
 経験や勘を積極的にマーケティングのモデルに採用
  →経験・勘と、データの融合:ベイズモデル

■アナリシスとモデリングの違い
 アナリシス(分析):データを食わせて何か得る
 モデリング 通常引っ張り出せない情報を得る
  →まったく違う

    |        
    |有    誤差じゃない
  誤 |益    当たり前の情報←分析ではここが出てきてしまう
    |情
  差 |報←ここの情報を狙って取ってくるには
    |  精緻なモデリングで引っ張ってくる必要



<<フロアからの質問>>
Q:具体的にどんなときに、単純な分析だけでは出てこない状況が考えられるか
  そして、その話と、経験と勘と、いったい、どう結び付くのか?

A:例えば、Webでの広告の効果測定を考えよう。
  広告と、売上データ、訪問履歴データは取れる。
  しかしそれだけでは、どういう人が、広告をどう受け取り、何を考えて・・・
  とか、さっぱり判らない(広告と売上、訪問履歴の相関しか出ないから)

 ここで、広告の受け取り方や、商品購入のアンケート結果があったとしたら、
 これとデータフュージョンさせることにより、その辺がわかる。

 つまり、これからやろうとしているベイズの話は、
 経験や勘をデータフュージョンさせようという話。
 経験や勘も情報、つまり別ソースのデータなんだよね!

 データが正規分布してたとする。ここに情報を加えると、不確実性は減る(分散減る)
 その情報として、経験や勘を使う




■マーケティングによる科学的なものの捉え方
 1.具体性・現実性
 2.操作性→数字で表現
 3.変動性→つねに変動
 4.傾向性→だけど、傾向はある

片平「マーケティングサイエンス入門」
 データ
 論理      →ジャーナルで重要
 市場      →ここまでがデータ解析
 マネジリアル  →ジャーナルではあまり求められない

(以下、論文の書き方なので、これを見ている人には
 関係ない話だろうから省略。博士課程の講義なので、
 ここが重要なんだけど ^^;)

■IDつきPOSデータ
 (商品、消費者、時間)の3次元→Massiveだけど、Sparse

■異質性
  消費者異質性
   :消費者毎のパラメータいる
    同じものを買っても違う理由
  動的異質性
   :時間によって、同じ人でも変わる

(以下、論文の傾向と査読通過の話なので省略)

■消費者を知る  
  現代:需要が供給を決める
  供給者:需要側の構造把握
   →今とれるのは、結果データ
     →理由となるデータは直接取れない

  結果にいたるメカニズムの理解が必要
   →表層的な結果データの関連性は、「理解」ではない




あ~なげ~・・・一旦ここできる。

ここまでをまとめると(ちょっと付け足している)、

・データを分析しても、それだけでは、当たり前な結果しか出てこない
 さらに、みんな同じようなデータ、同じような解析方法をしてしまったら
 同じような結果が得られ、競争優位性はない。

・POSデータ等、結果データを元に、
 相関とか求めても(ここまでが今のSIerさんのビッグデータ分析)、
 表層的な結果データの関連性が出てくるだけで、
 顧客を理解できない

・そこで、他社よりも有益な情報を得るには、
 属人性が必要になってくる。
 この属人性である勘や経験を加味して、
 より有益な情報を取れるようにするのが、
 ベイズである。

次からは、「顧客の理解」とは、どういうことかを議論する。
真の理解は可能なのか、必要なのか・・・
とかいう話。
この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 質的データ、テキストを扱う... | トップ | ライフログなどの行動のビッ... »
最新の画像もっと見る

AI・BigData」カテゴリの最新記事