知識は永遠の輝き

学問全般について語ります

ベイズ統計

2022-05-16 06:56:13 | 数学/数理科学
 この回は私の疑問を挙げているだけなので混乱して読みにくいかも知れませんが御容赦ください。

 ベイズ統計・ベイズ確率というものが広がり様々な解説も出回っています。18世紀にトーマス・ベイズ(Thomas Bayes)が最初に考え付き、ラプラスの悪魔で有名なピエール=シモン・ラプラス(Pierre-Simon Laplace)が基礎を整えたが、集団遺伝学の創始者の一人でもあるロナルド・フィッシャー(Sir Ronald Aylmer Fisher)等の「客観的であるべき科学で主観的確率は認められない」との批判で下火になった。それが20世紀後半に復活し、フィッシャー等の頻度主義統計では対応できない問題にも対応できるために様々な分野での応用が広がっている、と聞きます。どうもこの頻度主義とベイズ主義の違いがよくわかりません。

 1. 頻度主義とベイズ主義との違いは何か? 単に見方や解釈の違いではないのか?
 2. 同じ設定の問題で、頻度主義による方法とベイズ主義による方法とで答えが違うことがあるのか?

 私が高校数学+αで学んだ確率論や統計学はたぶん頻度主義に基づいているのでしょうが、ベイズ主義で解けるとして紹介されている色々な問題事例を見たところ、別に違和感もなく理解できます。で、解答の考え方のどこが頻度ではないのか、どこで主観確率なるものを使ったのかが疑問になってきます。そもそも、上記2.なんてことがもしあるならば、事実と合わない方が間違った方法であるはずです。

 Diamond Online『「頻度論」の学者と「ベイズ論」の学者が対談したら』(2015/03/03)を読むと、今は「必要に応じ両者の考え方を使い分ける」ということのようです。そりゃあ、それが順当な科学の方法というものです。だとするとこれは、方法自体にも違いはあって、両者それぞれに得意な問題というものがあると言っているようです。

 ベイズ統計の基本としては、事前確率を想定し、新たに得た知識や情報から事後確率を導く、言い換えると事前確率を修正する、とされています。この計算式となるベイズの定理自体は単純な式で、ベン図などによる場合分けを考えれば容易に理解できるものです。事後確率条件付き確率とも呼ばれますが、私の語感ではこれが頻度確率と何が違うのかがわかりません。単に時間軸による意味付けを加えると事後確率と呼べるというだけではないのでしょうか?

 頻度主義からの批判は「事前確率として主観確率でもよいと認めた」点にあるということですが、だとすればこれは的外れな批判です。なぜなら事前確率とは不明な真の確率に対して立てた仮説と言えるからです。仮説というものは既知の知識に反しさえしなければ出所はなんでもいいのです。根拠のないひらめきだろうが、夢のお告げだろうが、サイコロを振った結果だろうが、検証さえできればかまわないのです。ポパー流に言えば反証できればかまわないということになるでしょう。そういえば帰無仮説の考え方はまさに反証をしているのですね。

 ここで頻度と確率の違いですが、私の語感的には次のようなものです。
 まず、どちらも数学的には次の式で表せます。
   p(A)=[Aである要素の数量]/[母集団の数量]

  要素とは母集団の要素なので、0≦分子≦分母、であり、0≦p(A)≦1
  数と書くと整数のみと誤解されそうなので実数値を取りうるという意味で数量とした

 ここで、頻度と確率との違いとは次のようなものと考えられます。
   頻度:分子も分母も観測可能な実在の数量である
   確率:分子や分母が、場合の数、可能性の数、のような必ずしも観測可能でない数量である

 ある時点での日本人の中の医師の割合、ある時点での日本国内の硬貨の中の10円玉の割合(金額と個数では異なるが)、などは頻度です。対して、街で出会ったある人が医師である可能性となると確率です。
 東京の住人のうち現時点でコロナに感染している人の割合、は頻度です。原理的には全数検査で真の値が求められますが、技術的には極めて困難です。東京の住人のうち特定のAさんがコロナに感染している可能性、は確率です。体温とか体の具合を知っていけば、この確率は変化します。しかし単に東京の住人ということしか知らなければ、東京での感染頻度で代替するのが妥当な方法になります

 「同じ条件での試行を無限回行ったときの頻度の極限値を確率とする」というおなじみの定義が、頻度主義による確率の定義だと言われています。例えば同じサイコロを同じ条件で振るという試行の無限個の集合を上記式の母集団と考え、この母集団から1つの試行を取り出すことが1回の試行だと考えるわけです。

 この1回のサイコロ試行の無限集合である母集団S0の目の数値の平均値は10.5となりますが、有限のn回試行した場合に出た目の数値の平均値は母集団S0の平均値10.5とは誤差があります。そして、この標本平均値が真の平均値、つまり母集団Θの平均値と一致する確率は正規分布をなすとみなします。この場合、標本平均値の確率を定義するための母集団は、n回試行を要素とする集合S1であり1回試行の集合であるS0とは異なります。

 ではベイズ主義による定義は上記の頻度主義による定義とはどう違うのか、または違わないのか、というとはっきりしません。ひとまず以上の点を押さえておいて、頻度主義とベイズ主義との違いについて調べてみました。回を改めて書いてみましょう。

 なお集めてみた文献を以下に示しました。私の見るところ、渡辺澄夫の「数理科学に主義なんて不要」という趣旨の言葉がすごく適切に思えます[Ref-4b]。また実際的な方法の違いについてはAvilenの「初心者向けのやさしい解説」が読みやすそうに思えます[Ref-3c,3d]。私の迷走話など読まずに手っ取り早く違いを知りたい人は、これらを読むのが良いかも知れません。私自身はまだ明確にはポイントを掴んではいないのですが。


----------------------
Ref-1) ベイズ統計概説
 Ref-1a) ニュートン別冊「ゼロからわかる統計と確率 ベイズ統計編」
 Ref-1b) 松原望「ベイジアンの源流--トーマス・ベイズをめぐって」オベレーションズ・リサーチ(1983/09) p432-438

Ref-2) ベイズ論 vs 頻度論
 Ref-2a) Diamond Online『「頻度論」の学者と「ベイズ論」の学者が対談したら』(2015/03/03)
 Ref-2b) hidekatsu-izuno 日々の記録「ベイズ統計学に関する議論を整理する」(2020/12/12)
 Ref-2c) 。「統計学はなぜ哲学の問題になるのか」 大塚 (2021),『哲學研究』606:1-24. プレプリント版大塚淳『統計学を哲学する』名古屋大学出版会(2020/10/26) ISBN-13:978-4815810030、リンク先に詳しい目次あり。
 Ref-2d) ダレル・P.ロウボトム;佐竹佑介(訳)『現代哲学のキーコンセプト 確率』岩波書店(2019/06/19) ISBN=9-784-00061346-0、リンク先に詳しい目次あり
 Ref-2e) 赤池弘次「統計的推論のパラダイムの変遷について」統計数理研究所集報(1980) Vol.27,No.1,p5-12

Ref-3) Avilen「ベイズ統計の記事一覧」。初心者向け解説のベイズ統計学の解説。
 Ref-3a) ベイズ統計学とは?初心者向けのやさしい解説
 Ref-3b) ベイズ統計学の考え方〜ベイズ論と頻度論の違い〜
 Ref-3c) ベイズ推定と最尤推定の違いを例題を用いて解説
 Ref-3d) ベイズ推定量の導出!例題と解説(最尤推定量と比較)

Ref-4) 渡辺澄夫(東京工業大学)『ベイズ統計の理論と方法』コロナ社(2012/04/12) ISBN=978-4-339-02462-3、リンク先に詳しい目次あり。最新の良さそうな教科書。
 Ref-4a) 著者自身による解説
 Ref-4b) 統計学入門「主義」を心配するみなさまに。数理科学に主義なんて不要だよ、という解説。

Ref-5) モンティ・ホール問題・三囚人問題・ベルトランの箱
 Ref-5a) モンティ・ホール問題好きのホームページより「Web上のわかりやすい説明」。深すぎて迷いそうです。
 Ref-5b) 生きてる感想「モンティ・ホール問題・三囚人問題・ベルトランの箱のパラドクス」(2016/02/16)。必要なことが一番まとまってると、私は思う。
 Ref-5c) 菊池耕士「モンティ・ホール問題における最尤法」 目白大学 総合科学研究 06号 (2010/03) p149-158。頻度主義でも解けるよ、という見解のひとつを表明。


コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« なろう(小説投稿サイト)での... | トップ | ベイズ統計(2) 稀な病気の検... »
最新の画像もっと見る

コメントを投稿

数学/数理科学」カテゴリの最新記事