goo blog サービス終了のお知らせ 

象が転んだ

たかがブロク、されどブロク

数学は偶然の上に卵を生む(その6)〜ベイズ理論と事後確率と”訴追者の誤謬”

2025年05月25日 04時07分00秒 | 数学のお話

 前回「その5」では、ベルヌーイの「大数の法則」に加え、「小数の法則」を紹介しました。
 前者はよく知られる現象でサイコロを無限数回振れば、各々の目が出る確率は1/6というもので、後者は”ある出来事の見込み率はその出来事の最近の発生率によリ上下する”という、ランダムさにも偏りがある事を示す。
 特に後者は”ギャンブラーの誤謬”と呼ばれ、運が尽きた時に大当りしたり、不運続きの時に千載一遇の幸運に恵まれたりと、大衆にとって救い難い幻想をもたらす。つまり、偶然も我らが思ってる程に単純ではないという事だ。

 そこで今日はギャンブラーではなく陰謀論者の誤謬を生む”ベイズ理論”についてのお話です。


ベイズ理論と事後確率(条件付き確率)

 我々が巷でよく耳にする「ベイズ理論」とは、”条件付き確率”を主題にした理論である。
 因みに、”条件付き確率”とは”事後確率”とも呼ばれ、ある出来事が起きた時、それ以降に別の事が起きる確率にどの様に影響するかを説明してくてる。
 普段の生活でも我々は”ベイズ的判断”を無意識に行っているが、例えば、仕事でなくとも夫の帰りが度々遅くなると、妻は夫の浮気を疑う。この時、夫が浮気してる時に帰りが遅くなる確率と、帰りが遅くなる時に夫が浮気してる確率を妻は混同してるのだ。勿論、前者の方が確率が高いのは言うまでもない。
 同様に、多くの陰謀論者がこのベイズ的判断の誤りによるもので、一連の出来事が陰謀論の産物である時に起きる確率と、一連の出来事が起きる時に陰謀論が存在する確率とを混同する。つまり、別の出来事が起きる場合、それがある出来事が起きる確率にどの様に影響するかを説くのがベイズ理論である。
 因みに、こうした”ベイズ的判断”を今では”ベイズ推定”と呼ぶ。

 これを簡単な例で説明する。
 子供が2人いる家庭で”2人の子のうち1人が女児である場合”2人とも女児である確率はいくらか?
 この時、”場合”を含む文節が”条件付き確率”(事後確率)に問題を変える。もし、その文節がなければ、2人とも女児である確率は、(男,男)(男,女)(女,男)(女,女)の4組が考えられ、1/4となる。だが、”1人が女児である場合”との付加情報が加わると、(男,女)(女,男)(女,女)の3組となり、確率は1/3となる。
 直感で見れば簡単な様に思えるが、ベイズ理論はそんなに単純じゃない。
 そこで、上の問題を”子供うち1人がフロリダと言う名の女児である場合”と付加条件を弄ってみる。答えから言えば1/2となるが、”フロリダ”という名前の出現確率が大きく影響する事になる。

 そこで、フロリダという名の女児を”女F”、そうでない女児を”女NF”と記すと、条件なしの最初の標本空間は{(男-男),(男-女F),(男-女NF),(女F-男),(女NF-男),(女NF-女F),(女F-女NF),(女NF-女NF),(女F-女F)}と9個の標本空間となる。
 更に標本を削っていくが、条件後の標本空間は”1人がフロリダと言う名の女児である”事が判ってるから、{(男-女F),(女F-男),(女NF-女F),(女F-女NF),(女F-女F)}と5個に絞れる。が、ここで問題なのは、女児の名がフロリダであるかないかで蓋然性(確からしさ)が異なるので、標本空間の全ての要素が同じ蓋然性を有してない事になる。
 事実、今日の全米保険庁の統計では、女児がフロリダと名付けられる確率は1/100万とされるから、2人の娘がフロリダと名付けられる確率はほぼゼロとしても構わない。故に、標本空間は更に{(男-女F),(女F-男),(女NF-女F),(女F-女NF)}と4個に絞れ、蓋然性はおよそ等しいと言える。
 従って、このうち2人が女児である確率は1/3ではなく、2/4=1/2となる。これは、付加された情報(女児の名前)が差を生んだと言える。 

 考える程に悩ましくもある問題だが、今日ではこうした”ベイズ的分析”は保険の掛金を決定するのによく使われる。
 例えば、保険会社はドライバーのデータを集め、ローリスクとハイリスクに分ける事で掛け金を決定する。だた、新米ドライバーである場合はデータがないから、新規の一般母集団を元に、1/3をハイ、2/3をローとみなし、その比率で掛け金を決め、契約をスタートする。
 1年後、保険会社は1年間のデータを元に再評価を行い、掛け金を再計算する。無事故ならなロープライスに偏り、その正確な調整量はベイズ理論によリ与えられる。つまり、無事故によリドライバーがローリスクに属す事後確率が上がるという仕組みである。但し、事後確率に関しては、よく知られる「モンティホール問題」の方が理解し易いかもしれない。


ベイズとベルヌーイ

  因みに、長老派教会の教役者であったトーマス・ベイズ(1701-61、英)は、晩年には確率論に深い関心を持ち、それに関する著作や発見は彼の死後に原稿という形で、友人のリチャード・プライスに渡され、「確率論への問題の解の小論」と題され、1764年に搭載された。
 一方、保険数理科学の創始者でもあるプライスは、ベイズの研究を引き継ぎ、「年金支払いに関する諸定理」を出版するも、19世紀まで保険数理のバイブルになっていた。が、彼はデータの乏しさと評価法故に、平均余命を過小評価し、生命保険会社は膨れ上がった保険料で頓を増やした。一方、英国政府は彼の表を元に年金を支払ったものの、年金受給者が予測された割合で死ななかったので大損する。

 ベルヌーイとベイズの異なる所は、前者は試行を多数回繰り返す投げる事で”客観確率(潜在確率)”に近づく事を数学的に実証し、後者は条件によって異なる”主観確率”をテーマに研究したが、主観確率は事前確率と事後確率(条件付き確率)に分けられる。
 その後、推計統計学論者のフィッシャーらに”主観確率(特に事後確率)を扱うのは科学的でない”とされ、ベイズ理論は一時は葬り去られたが、ベイズ理論は現実に役に立つ統計学である事が徐々に認められ、1950年代に入り再び注目を浴びる様になる。
 因みに、現在では迷惑メール判定にもベイズ統計が使われ、メールフィルターとして採用されている。これは、事前に迷惑メールの定義を作り、迷惑メールに分別されたメールから法則を見つけ、その法則を元に迷惑メール判定を行う。

 以上の様に、ベイズとベルヌーイは非常に対照的であった。神学に逆らい、論文を沢山出版し、自らの名声を広めたベルヌーイと、神を信仰し、論文は1つも出さなかったベイズ。
 ベイズはベルヌーイを駆り立てた問題に答えようとして”条件付き確率”というものを編み出した。つまり、どうすれば観察結果から潜在的な確率を推測できるのか?
 例えば、ある薬が臨床実験で60人中45人の患者に効いた場合、次の患者に対しその薬が効く確率に関し、その臨床結果は何を教えてくれるのか?
 ある薬が100万の患者のうち60万の患者に効いた場合、薬が効く確率を約60%とするのは妥当であるが、臨床例がそれより少ない時に、そこからどんな結論が引き出せるのか?
 更にベイズは、臨床実験の前にその薬が僅か50%しかないとされる場合、将来の評価にどう影響するのか?という問題をも考えた。

 事実、日常経験の大半はそういうもので、我々は少量のサンプル結果を観察し、そこから情報を推測し、その結果がもたらす特性にて様々に判断する。


2つのボールと事前・事後確率

 では、そうした推論はどの様になされるべきか?
 ベイズはまず、正方形のテーブルに2個のボールを用意し、第1のボールを投げて転がし、テーブルの右か左か向かう確率を第2のボールの転がり方で判断した。つまり、第1のボールは未知の情報を表し、第2のボールは既に手にした証拠を表す。
 もし、第2のボールが常に第1のボールの右で止まれば、第1のボールはテーブルの左端に止まってると高い確率で推測できる。そうでない場合は、その確率は下がるだろう。
 そこでベイズは、第2のボールのデータに基づき、第1のボールの右に止まるか左に止まるかの正確な確率を決定する方法を示した。
 また、付加なデータがある時、初期の評価をどの様に改めるべきかを示したが、初期の評価は事前確率と、新しい推測は事後確率と呼ぶ。つまり、第2のボールの位置が事前確率で、第1のボールが事後確率となる。

 ベイズがこの様なゲームを考案したのは、我々の意思決定の多くが雛形になってるからだ。臨床実験で言えば、第1のボールの位置は薬の真の有効性を、第2のボールの記録は患者のデータを表す。つまり、前者は映画の魅力や製品の質、才能や能力を表し、後者は我々の観測結果や集めたデータを表す。従って、ベイズの理論とは評価の方法と新しいデータを考慮した評価の修正方法を示す理論と言える。
 勿論、ベイズ理論はかなり複雑である。2人の娘の例でも述べた様に、ベイズ手法の鍵は新しい情報を使って標本空間を切り詰め、つまり不適切な物を取り除き、確率を調整する。
 先の説明でも悩ましければ、子供が2人、そのうち少なくとも1人は女児である様な7500万組の家族に巨大な部屋に泊まってもらう。
 すると、この部屋には女児2人の約2500万の家族と女児1人の約5000万の家族(うち2500万の家族ではその女児が年上で、残りの2500万の家族ではその女児が年下である)がいる筈だ。
 ここから標本空間の切り詰めに入るが、フロリダという名の女児が1人いる家庭にその部屋に泊まってもらう。フロリダは1/100万の確率の名前だから、女児1人の約5000万の家族のうち50家族が泊まり、女児2人の約2500万の家族のうち50(=25+25)家族が泊まるだろう。但し、そのうち25家族では年上の女児がフロリダであり、残りの25家族は年下がフロリダである。
 これは、フロリダという名の女児が1人いる家庭の確率では、女児が宝くじ券でフロリダという名の女児が当り券となるようなもので、女児1人の家族には50枚のくじ券があり、女児2人の家族には2人×25家族=50枚のくじ券があるから、確率は五分五分となる。

 こうして文脈を単純にして考えると、複雑なベイズ推論も明快に思えてくる。
 そこで、こうした問題を幾つか取り上げる。


担当医による死刑宣告と確率論的ミス

 1989年、著者のムロディナウ氏は”10年以内に貴方が死ぬ確率は999/1000である”と、担当医から宣告された。
 確かに統計上では、血液がエイズに感染してない時にHIV検査陽性(偽陽性)と出るのは1/1000の確率だから、著者が健康である確率を1/1000と担当医が勘違いしていた事を後から知った。
 つまり担当医は、実際にはHIV感染ではない人が検査で陽性になる確率(偽陽性率)と、検査で陽性になった人が実際にはHIV感染ではない確率とを混同していたのだ。但し、後者は偽陰性ではない事に注意する。
 そこで、担当医の勘違いを説明する為に、ヘイズ理論を使ってみる。
 最初に標本空間を定義するが、HIV検査を受けた全員を含める事も出来るが、異性愛者で静脈麻薬の常習者ではない白人アメリカ人男性という条件を加えればもっと正確な結果を得られるだろう。
 次に、標本空間を検査陽性で実際にHIV感染の人(真陽性者)、検査陽性だがHIV感染でない人(偽陽性者)、検査陰性でHIV未感染の人(真陰性者)、検査陰性だがHIV未感染の人(偽陰性者)の4つに分類する。
 最後に、これら分類の其々に何人いるかを求める。そこでまず、1万人の集団を考える。
 全米疾病管理センター(CDC)のデータによれば、1989年は検査を受けた異性愛者で静脈麻薬の常習者ではない白人アメリカ人男性の1万人に約1人がHIVに感染していた。これは偽陽性者率を0と仮定すれば、1/10000の確率でHIV検査陽性になる事を示す。
 一方、担当医が言った様に、偽陽性率は1/1000だから、HIV未感染でも検査陽性になる人が別に10人出るだろう。故に、標本空間中の1万人のうちの残りの9989人は検査陰性になる筈だ。

 ここから、検査陽性者だけを含む様に標本空間を絞り込むと、偽陽性の10人と真陽性の1人となる。言い換えると、検査陽性の11人のうち僅かに1人だけが真にHIVに感染してる事になる。 
 後で担当医は”検査が間違いである”と言い、”HIV陽性の確率は1/1000です”と改めた。だが、彼は”感染していない確率は(上の例で言えば)10/11以上です”と言うべきだった。事実、血液中に存在してたある種のマーカーによりテストが欺かれたのだ。
 一方で、偽陽性を知ってるだけでは検査の有効性を決定するに十分ではなく、偽陽性率とその病の罹患率を知る必要がある。つまり、稀な病気なら偽陽性率が低くても検査陽性が当てにならない事はありうるし、一般的な病気なら検査陽性は重要な意味を持つ。

 そこで、真の罹患率が陽性検査でどんな意味を持つかのか?
 例えば、1989年に検査を受けたゲイ・コミュニティの感染の確率が1%だったとする。これは、1万人の検査結果では真陽性者が100人いて、それに加えて10人の偽陽性者がいた事を意味する。この時、私が感染してる事を検査陽性が意味する確率は10/11になった筈だ。
 故に、我らが検査結果を評価する時は、ハイリスク集団に入ってるかを知る事が非常に重要になる。


潔白な選手でもドーピングに・・

 ベイズ理論は、Bが起きた時にAが起きる確率と、Aが起きた時にBが起きる確率とは異なる事を示してる。が、医者の多くはこの2つを混同する。
 例えば米独の研究者らは、マンモグラフ(乳房X線撮影)の7%が実際に何もないのにガンであると診断した(偽陽性)場合、自覚症状はないもののマンモグラフで陽性になった40代~50代の女性が実際に乳がんを有する確率を評価するよう医師らに求めた。
 因みに、その年代の女性乳がん発生率は0.8%で、偽陰性率は約10%とされるが、これら条件でベイズ理論を使うと、乳がんによりマンモグラフが陽性になる確率は約9%である。
 これは、仮に10000人がマンモグラフを受けたとして、10000×0.8%=80人が乳がんに罹ってると推定。だが、偽陰性率は約10%だから8人(=80×0.1)が検査陰性になり、実際に検査陽性になるのは80−8=72人。一方、偽陽性率は7%で乳がんに罹ってないのに700人が検査陽性となる。従って、合計772人が検査陽性となるが、実際に乳がんに罹ってるのは72人で、これが9%(=72/772)に相当する。
 しかしドイツの研究チームでは、医師の1/3がその確率を90%とし、評価の中央値は70%だった。またアメリカの研究チームでは、100人中95人がその確率を75%だと評価した。

 これと同様の問題はドーピング検査でも起こりうるが、偽陽性率の数字が選手がクロである確率を歪めてしまう。
 例えば、陸上の中長距離界の世界王者だったメアリ・デッカーは1996年のアトランタ五輪時にドーピング違反で告発され、裁判の結果、彼女を薬物違反だと裁定し、実質上の選手生活を奪った。
 証言によれば、尿検査の偽陽性率は僅か1%だから、陪審員らは”彼女がクロなるのは99%確実”と判断したらしい。
 しかし(先程で見た様に)これは真実ではない。例えば、1000人の選手が検査され、その10%はクロだが、検査により薬物違反が暴かれる確率を50%とすると、検査された選手1000人のうち実際のクロは100人だが、検査ではそのうちの50人がクロとされる筈だ。
 一方、偽陽性率は1%だから実際に潔白な900人のうち9人がクロとされる。従って、この陽性検査では彼女がクロである確率は、検査でクロとされた50人に偽陽性者の9人を加えて計算すると、99%ではなく84.7%(=50/59)となる。
 つまり、我々は”84.7%の確率で彼女はクロだ”と確信するだろうが、この確率は彼女がサイコロを振った時に”多分1は出ないだろう”との確信の程度(=5/6)でしかない。 
 確かに、この数字は合理的な疑いを催させはするが、この様な(ベイズ理論を無視した)やり方で判断し続ければ、毎年多数の潔白な選手が糾弾されるという悲運と矛盾を孕む。


訴追者の誤謬

 法律の世界では、以上の様な矛盾を”訴追者の誤謬”とかと呼ばれる。故に、訴追者がしばしこういった誤った議論を持ち出し、陪審員らはその乏しい証拠に基づき、容疑者に有罪の判決を下す。

 例えば、英国で起きた”サリー・クラーク事件”があるが、クラークの第1子は産まれて11週間で死んだ。その死因は乳幼児突然死症候群(SIDS)とされた。
 この診断は予期されない乳幼児の死で、その死因が検死により明らかにされない時になされる。クラークは再び子供を生んだが、今度は8週間で死に、再びSIDSによるものとされた。
 だが、その子が死んだ時に彼女は逮捕され、2人の子を窒息させた疑いで告訴される。裁判で検察側は小児専門医を呼び、2人の乳幼児がSIDSで死ぬ確率は1/7300万である事を立証した。検察側の証拠はほぼそれだけで、陪審員側は有罪するに十分と考え、クラーク夫人は刑務所へ送られた。

 検察側の専門医は1人の乳幼児がSIDSで死ぬ確率が1/8543と評価し、単純にその数を掛け合わせ、1/7300万との確率を弾き出したのだ。
 だが、この計算は2つの死が独立してる事を仮定する。つまり、第1子がSIDSで死んでも、第2子のリスクを高める様な環境的または遺伝的影響を無視している。
 実際、その数週間後、某ジャーナル誌の論説では、2人の兄弟がSIDSで死ぬ確率は1/275万と見積もられたが、それでも小さすぎる。
 つまり、求めるべき確率は、2人の乳幼児がSIDSで死ぬ確率ではなく、”死んだその2人の乳幼児がSIDSで死ぬ”確率である。
 その2年後、英国統計学会は、この問題を比較検討し、”深刻な論理の誤りがある。陪審員団は、乳幼児の死に関する2つの競合する説明を比較し評価する必要がある。つまり、SIDSによる2度の死であれ、2度の殺人であれ、重要なのはその死の相対的な蓋然性の比較と評価である”と断じた。
 更に、ある数学者が、母親がSIDS又は殺人により2人の乳幼児を失う相対的蓋然性を比較・評価し、”殺人よりもSIDSの犠牲者である方が9倍蓋然性が高い”と結論づけた。

 その後、クラーク家は複数の統計学者を立てて上訴し、第2子が死ぬ時に細菌感染に罹ってた事実を検察側が隠してた事を暴き、無罪を勝ち取ったのだ。


最後に〜O・J・シンプソンはなぜ無罪に? 

 NFLのスーパースターだったシンプソンの裁判は1994~95年の最大のミステリー事件となる。弁護士A・ダーシュビッツは”訴追者の誤謬”を巧く使い、シンプソンが彼の妻ニコールとその男友達を殺したとする裁判で、無罪を勝ち取ったのだ。
 警察はシンプソン被告に対する十分な証拠を揃えていた。被告側にできる事はロス市警の黒人差別を非難し、警察の証拠の信憑性を批判する事だけだった。
 検察側は、被告の妻への虐待の過去を長々と陳述し、それだけでも”妻殺害容疑に十分に値する”と主張。検事側も”平手打ちは殺人への前奏である”と論じた。
 それに対し被告側は、”妻への暴力は何も意味しない”と反論し、ダーシュビッツは”暴力を振るわれた妻や恋人が死に至るのは僅かに1/2500の確率だ”と、FBI犯罪報告書を提示して論じた。
 確かに、数字は本当で説得力もある。だが、妻に暴力を振るう男が妻を殺す確率(1/2500)ではなく、問題にすべきは、虐待されてた妻がその虐待者により殺された確率である。
 つまり、ダーシュビッツは、”93年に米国で殺害され虐待された全女性のうち、約90%はその虐待者により殺された”事を取り上げるべきだった。勿論、この統計データ(全米統一犯罪統計報告書)が裁判で用いられる事はなかった。
 多分、ダーシュビッツは陪審員団を騙す事は、以下の理由で正当だと考えていた。
 事実、法廷での宣誓文”真実を、全ての真実を、真実のみを述べる”事は証言者だけに適用される。つまり、被告弁護人や裁判官や検事はこの宣誓をしない。故に、(公平にみて)”アメリカの法律は全ての真実を述べる訳ではない”という基本の上に成り立ってるからだ。

 前述した様に、ベイズ理論の中核である”条件付き確率”は、ランダムネスの概念における1つの革命になるが、トーマス・ベイズ自身は少しも革命的ではなかったし、(前述の様に)彼の研究は死後に友人により出版されたものの、そのアイデアは注目される事もなく色あせてしまう。
 現実世界に潜む(偶然が持つ)ランダムな確率をどうすれば観察結果から推測(=ベイズ推定)できるか?という目標は、ピエール・シモン・ラプラス(仏)という数学者に委ねられた。
 過去を遡れば、ベルヌーイの黄金定理(=大数の法則)は(コイン投げでいえば)どの程度の確かさで我々にある特定の結果を観測できるかを教えてはくれるが、その適正さの確率は教えてくれない。

 例えば、仮にフォード社が自社の車の100台に1台が不良トランスミッション(TM)を搭載してる事を知ってれば、大数の法則により1000台に10個のTMが不良品であろう事を予測できる。が逆に、1000台の検査で10個のTM不良を発見しても、大数の法則により不良TMの平均個数が100個に1個という確率を知る事は出来ない。  
 これは、事前にオッズが与えられる様なギャンブルを除き、我々は通常は確率を与えられず、一連の観察をした後、確率を評価する必要があるが、これは確率と統計の基本的な違いとも言える。
 つまり、前者は固定された確率によるもので、後者は観測されたデータに基づく、それら確率の推測と関わるものである。

 因みに、ラプラスが取り組んだのは後者の問題だが、彼はベイズ理論を知らなかったから、ベイズ理論を再発見し、拡張する必要があった。それこそが、一連の観測結果が与えられた場合の最高の推測(ベイズ推定)が成しうる”ベイズ確率”である。
 気がつけば、9000字を超えてしまったので今日はここまでです。
 この”ベイズ確率”に関しては、次回で述べる事にします。

 


4 コメント(10/1 コメント投稿終了予定)

コメント日が  古い順  |   新しい順
条件付き推定 (腹打て)
2025-05-25 14:15:10
ベイズ推定とは
追加された条件を使って標本空間を切り詰める事にあるけど
潜在確率という科学的問題に条件付き確率という主観を持ち込むなと反発を食った。
元々ベイズは確率の精度を高める為に、2つのボールを使って実験的に事前確率と事後確率とに分けて考えた。
ベイズ”推定”とはそういう意味なのだろう。
しかし事後確率が条件付き確率なら事前確率は潜在確率になるので、条件を加える事で推定の精度を高めることが出来る。
結果的には美味しい所をラプラスに持っていかれた形になったけど、牧師上がりのヘイズは純朴すぎて世渡りが下手なんだろうね。 
返信する
O・J・シンプソン事件って (HooRoo)
2025-05-25 17:20:07
ロス警官による黒人への暴力と虐待の記録テープが
引き金になったと思ってたけど
そんなことがあったんだ

殺害者特定の絶対的なデータではなく
それとは関係のない相対的な統計を持ち出して検察側や陪審員側をだましちゃった
もちろん数字はウソをつかないけど
数字を持ち出した人がウソをついた

ここまで来ると
立派すぎるほどのトリックですだわね 
返信する
腹打てサン (象が転んだ)
2025-05-25 21:02:50
逆を言えば
ラプラスは数学者ですが、世渡りがうまい。
腹黒いと言えばそれまでですが
それでも条件付き確率論は今でも”ベイズ”という冠がついてます。
正直、ベイズ理論がここまで現代社会に広く深く浸透するとは、本人も思いもしなかった事でしょうね。

つまり、神様はラプラスじゃなくベイズにサイコロを振ったんですよ。
いつもコメント有り難うです。
返信する
Hooさん (象が転んだ)
2025-05-25 22:07:27
お見事な推理です。
言われる通り
”妻に暴力を振るう男が妻を殺す”確率=1/2500は相対的と思える確率であり
”妻を虐待していた男が妻を殺した”確率は90%と絶対にも近い確率です。
まるで、検察側の”訴追者の誤謬”の裏をついた被告弁護団側の巧みなイカサマまたはトリックと言えますよね。

つまり、統計の数字は嘘をつかないが、人はその数字を使って嘘をつくの典型で、少しでも確率論に詳しい人が検察側にいれば、見抜けたトリックでした。
返信する

コメントを投稿

サービス終了に伴い、10月1日にコメント投稿機能を終了させていただく予定です。