goo

迷惑メールフィルターとベイズの定理

 yahooメールに山のような迷惑メールが届く。

 それでも、メールソフトの迷惑フィルターを有効にしておくと、ほとんどの迷惑メールをそのままゴミ箱に捨てることが出来るからあまり問題はない。どういうアルゴリズムになっているか良く分からないが、有効に機能していると言える。最近のフィルターはベイズの定理を利用していて、自分で学習していくらしい。

 このベイズの定理、朝日新聞に掲載された勝間氏の「後付けの条件で確率は変わる――ベイズの定理」で話題を呼んでいる。勝間氏の記事は数学的に間違いであるというコメントが相次いで、勝間氏はしてやったりとほくそ笑んでいるに違いない。

 問題とはこうである。

 「区別のつかない三つの袋の中に、それぞれ「赤・赤」「赤・白」「白・白」の二つの球が入っているとします。袋を一つ選んで、その中から球を一つ取りだしたところ、赤球であった場合、残りのもう一つの球が白球である確率はどのくらいでしょうか?」

 直感では、最初に赤球を取り出したのだから、選んだ袋は「赤・赤」か「赤・白」のどちらか。従って、次に白が出るか赤が出るかの確率は同じと感じてしまう。

 ところが、赤が出る確率のほうが2倍であると言うの勝間氏の主張。

 本当かとperlを使ったシミュレーションをやったら、驚くことに白が出る確率は1/3に過ぎない。box==0は「赤・赤」の袋を選んだとき。ball==0は第2ボールが白。

perlによるシミュレーション


 勝間氏の言う

 「ポイントは、最初に赤をとった時点で、「白・白」が母集団から除かれるということで、、、、、、、」

 はその通りなのだが、さらに言うと「赤・白」の袋を選択したのに最初に白を引いてしまった場合も母集団から除かれることだろう。

 「赤・白」の袋を選んだとしても最初の玉が白だと、試行から捨てられる。つまり「赤・赤」の袋を選んだ確率のほうが倍になるということだと思う。

 なるほどね、とても面白い。それでもSPAMメールを開けてしまったりと、直感の方を信じたい自分がいるから、よく騙されたりするのだろう、、、、、


日記blogランキングに参加しています。
クリックをよろしくお願いします。
日記@BlogRanking

こちらのクリックもよろしくお願いします。
blogram投票ボタン 
コメント ( 0 ) | Trackback ( 0 )
« ライトアップ... 映画、エクス... »
 
コメント
 
コメントはありません。
コメントを投稿する
ブログ作成者から承認されるまでコメントは反映されません
 
名前
タイトル
URL
コメント
コメント利用規約に同意の上コメント投稿を行ってください。

数字4桁を入力し、投稿ボタンを押してください。