マーケティングの授業、前回の続き
ベイズモデルから
ベイズモデル:いろいろあるが、考えていることは
・いろんな情報
・パラメータも含めて
・統計量・推計量:
点でものを捉える(従来)→分布で考える(ベイズ)
→通常のアプローチより柔軟
ベイズモデルの原則:ベイズの定理
3つの分布を考える
事前分布:パラメータの信念、情報
尤度:データの確率
事後分布:データ獲得後
Y:データ(given) 尤度 事前分布
P(θ|Y)= P(Y|θ)・P(θ)
---------------------
P(Y) →コンスタント*
∝P(Y|θ)・P(θ)=P(Y,θ) →同時分布
*コンスタント
P(Y) = ∫P(Y|θ)P(θ)dθ →コンスタント
通常の回帰で予測:予測と学習は別プロセス
ベイズで予測:学習と予測が同じフレーム
ベイズモデルの構造
・nが人を表現する場合
θnは、人毎の推定
→1000人なら、1000個の値・・それを扱うのは無理。
→分布で考える
ただし、分布にシバリはある。
周りにぱらつくというのがP(θn|a)の意味
・nが時点なら
θnは時点パラメータ
時点:時間の関係性
→スタティックとの違い:順序が入れ替わったらX
フルベイズ VS エンピリカルベイズ
a:パラメータのパラメータ(ハイパーパラメータ)の推定の仕方
フルベイズ:aもベイズ推定する
エンピリカルベイズ:aを最尤法で決める
ベイズがなぜ解けるか
n<<pなのに、解ける理由 確率分布で考えるから
凝ったことをやらない:推定できる
(推定できるのと、使っていいのは違うけど)
ベイズモデル
ディターミティスティック:変分ベイズ (モデルによっては近似性能高い)
ストキャスティクス(確率):MCMC法
MCMC法(マルコフチェーン・モンテカルロ)
実時間でOKかは、nの量による→nが大きいとスケールしない
スケール:並列計算=前と従属しないとき
ところが
MCMC:マルコフチェーン=前データに従属→スケールしない
データ数が少ないとき、MCMC強力
事前分布の決め方
(1)主観で決める
統計の流派は、こんなかんじ
・ベイズ
・頻度論的アプローチ(ネイマン・ピアソン)
・フィッシャー流
・尤度原理
頻度論がひはんしてきたのが、この主観で決めるところ
(2)別の情報源
異種情報統合
メタ分析
(3)自然共役事前分布
ベイズは、
事前分布、尤度、事後分布
と3つの分布があるが、
このうち、事後分布と事前分布を同じ分類系を用いるもの
例えば;回帰モデルのベイズにおいて、
回帰係数:正規分布
誤差:逆ガンマ
とするなど
階層ベイズに多い
(4)平滑化事前分布
時系列:状態空間モデル
ランダムウォーク
Zn=Zn-1+Vn Vnはノイズ
滑らかに動く、階層ベイズと違う
階層ベイズ
回帰モデルを考える P(Yn|θn)
パラメータ P(θn|a)
つまり、
Yn=Cn+θnXn+εn
θn=α(age)n+β(sex)n
このとき、α、βは集団共通化する
計算は、尤度の複雑さになる
<<フロアからの質問>>
そのときaは、?
回答:
a=(α、β、vi) ここでviは分散
つまり、aはベクトル
■こらむ
・Rはループ計算が遅い
→バイトコンパイラー使うと早くなる
・計量的アプローチを行うには3つの知識が必要
分野の知識
統計の知識
プログラム
Rで、ためしてみることはできる
つぎはいよいよ、POS分析へのベイズ応用のはなし。
ベイズモデルから
ベイズモデル:いろいろあるが、考えていることは
・いろんな情報
・パラメータも含めて
・統計量・推計量:
点でものを捉える(従来)→分布で考える(ベイズ)
→通常のアプローチより柔軟
ベイズモデルの原則:ベイズの定理
3つの分布を考える
事前分布:パラメータの信念、情報
尤度:データの確率
事後分布:データ獲得後
Y:データ(given) 尤度 事前分布
P(θ|Y)= P(Y|θ)・P(θ)
---------------------
P(Y) →コンスタント*
∝P(Y|θ)・P(θ)=P(Y,θ) →同時分布
*コンスタント
P(Y) = ∫P(Y|θ)P(θ)dθ →コンスタント
通常の回帰で予測:予測と学習は別プロセス
ベイズで予測:学習と予測が同じフレーム
ベイズモデルの構造
・nが人を表現する場合
θnは、人毎の推定
→1000人なら、1000個の値・・それを扱うのは無理。
→分布で考える
ただし、分布にシバリはある。
周りにぱらつくというのがP(θn|a)の意味
・nが時点なら
θnは時点パラメータ
時点:時間の関係性
→スタティックとの違い:順序が入れ替わったらX
フルベイズ VS エンピリカルベイズ
a:パラメータのパラメータ(ハイパーパラメータ)の推定の仕方
フルベイズ:aもベイズ推定する
エンピリカルベイズ:aを最尤法で決める
ベイズがなぜ解けるか
n<<pなのに、解ける理由 確率分布で考えるから
凝ったことをやらない:推定できる
(推定できるのと、使っていいのは違うけど)
ベイズモデル
ディターミティスティック:変分ベイズ (モデルによっては近似性能高い)
ストキャスティクス(確率):MCMC法
MCMC法(マルコフチェーン・モンテカルロ)
実時間でOKかは、nの量による→nが大きいとスケールしない
スケール:並列計算=前と従属しないとき
ところが
MCMC:マルコフチェーン=前データに従属→スケールしない
データ数が少ないとき、MCMC強力
事前分布の決め方
(1)主観で決める
統計の流派は、こんなかんじ
・ベイズ
・頻度論的アプローチ(ネイマン・ピアソン)
・フィッシャー流
・尤度原理
頻度論がひはんしてきたのが、この主観で決めるところ
(2)別の情報源
異種情報統合
メタ分析
(3)自然共役事前分布
ベイズは、
事前分布、尤度、事後分布
と3つの分布があるが、
このうち、事後分布と事前分布を同じ分類系を用いるもの
例えば;回帰モデルのベイズにおいて、
回帰係数:正規分布
誤差:逆ガンマ
とするなど
階層ベイズに多い
(4)平滑化事前分布
時系列:状態空間モデル
ランダムウォーク
Zn=Zn-1+Vn Vnはノイズ
滑らかに動く、階層ベイズと違う
階層ベイズ
回帰モデルを考える P(Yn|θn)
パラメータ P(θn|a)
つまり、
Yn=Cn+θnXn+εn
θn=α(age)n+β(sex)n
このとき、α、βは集団共通化する
計算は、尤度の複雑さになる
<<フロアからの質問>>
そのときaは、?
回答:
a=(α、β、vi) ここでviは分散
つまり、aはベクトル
■こらむ
・Rはループ計算が遅い
→バイトコンパイラー使うと早くなる
・計量的アプローチを行うには3つの知識が必要
分野の知識
統計の知識
プログラム
Rで、ためしてみることはできる
つぎはいよいよ、POS分析へのベイズ応用のはなし。