韓国の黄禹錫ファン・ウソク ソウル大学教授の論文捏造事件の後を追うように、日本でも東大教授のグループが英科学誌ネイチャーなどに発表した論文について捏造の疑いが出ている。再実験で論文の結果が再現できなかったとして、東大では教員懲戒委員会に審査を依頼するかどうか判断するという。
そして今日もまた論文捏造のニュース。「ノルウェー・ラジウム病院(オスロ)は15日、同病院の医師(44)が昨年10月、英医学誌ランセットに発表した口腔(こうくう)がんに関する論文が架空のデータに基づいていたことを明らかにした。」(ロイター共同1月16日)というが、バレた理由が何ともお粗末で、「論文でサンプルとされた908人のうち、250人の誕生日が同じ日だった」というから、完全な手抜きだ。
◆「この中に同じ誕生日の人が必ずいる」
この記事を読んで思い出したのが、確率の入門書などには必ず出てくる「誕生日の問題」だ。今、あなたが参加者30人のこぢんまりしたパーティに出席しているとしよう。そしてそれぞれお互いのことをよく知らない。「皆さん、ここで賭をやりましょう。この中に同じ誕生日の人がいるかいないか。私はいる方に賭ける」。「いる」確率をpとすると、この場合p=0.706・・程度なので賭に勝つ確率は7割と高い。(どの日も均等に生まれると仮定した。実際はそうでない。この点は記事末の【付録】参照)
計算方法は、なぜかWebにはやたらとこの「誕生日のパラドックス」問題を解説したページが多いのでそちらを参照されたい(たとえばここ)。高校で習う確率論の、「積事象」と「余事象」の概念を知っていれば計算方法の理解も容易だ。計算も100円電卓で(関数電卓があればもっと便利だが)可能だ。
なぜこの問題が「パラドックス」と呼ばれるのかというと、たぶん直感的に予想されるよりも「いる」確率が高いからだ。その場の人数をnとして、n=23でp=0.507..なのでこの人数ですでに「いる」確率の方が高くなり、40人学級だとp=0.891..だから10クラスに9クラスは「同じ誕生日の人がいる」ことになる。
なぜこの確率が高く感じられるかというと、この問題を「この場に自分と同じ誕生日の人がいるか」という問題と混同するからだ。後者の場合は、「いる」確率が五割を超えるのは、n=>253だから、相当の人を集めないとダメだ(計算方法は上記URLで)。直感的には180人程度かと思う(n=180ではp=0.39に過ぎない)ので、これもまた誕生日のパラドックスと言えるかもしれない。(実際365人集めるとほとんど確実思えるが、この場合でもp=0.633に過ぎないからあまり自信を持って断言できない)。
◆新「誕生日のパラドックス」
ちなみに「908人のうち、250人の誕生日が同じ日」という確率はどれほどになるのか?こういう問題も考えておかないと、数学に弱い人は偽装家に「こうなることは確率論的に0ではない」と言われると黙ってしまうかもしれないからだ。
この計算は「二項分布」の計算だが、nが大きいので、「ポワソン分布」で計算。これらについてはWebでは例えばここを見ていただきたいが、統計学の入門書が必要かもしれない。計算も関数電卓か表計算ソフトが必要なので、何でも自分で計算しないと納得しない方以外は、以下の結果だけを信じてください。
「250人の誕生日が同じ日」というのは「250人以上の誕生日が同じ日」として考えるのが妥当。それでもこれはあまりにも大きい数字(小さな確率)なので、その無意味さを理解してもらうためにもっと小さい数字で計算してみた。
「908人のうち、ある特定の日に5人以上の誕生日が重なる確率p」 p=0.041
「10人以上」p=0.000059 「30人以上」p=6.8e-12
最後の数字は小さすぎて分かりにくい。だいたい1470億分の一という確率だ。30人にしてこの数字。250人なら pはもう「無限小」、完全に起こり得ないと断言してよい。
まさしくこの医師の偽装は「誕生日のパラドックス」だった。あまりにもあり得ない数字を持ち出して馬脚を現した。データーを偽造するなら、少しは汗をかけ。誕生日欄を単にコピペで作っているからこういうことになる。姉歯の爪の垢でも煎じて飲めばいい。彼は「専門家が見れば一目瞭然」と”謙遜”しているが、「専門検査機関」が「複雑すぎて見抜けない」ほどの数値の偽装を何十件(何百件?)もやってのけたのである。
【付録】 誕生日の分布
うるう年を考えないとしても実際の誕生日は1/365の確率で均一に分布していない。厚生省がそのデーターを持っているはずだと思い、Webを検索したが見当たらない。直接問い合わせると、かなり時間がかかっての返答は、「厚生労働省に直接来れば資料を見せてやる。」
別に担当者が意地悪なのではない。これがお役所発想というものです。つまりコスト概念が全くないのです。一般の人も自分たちと同じく情報を得るためにコストを払わなくていいと思ってしまう。
しょうがないので、ここでは西日本新聞が厚生労働省「人口動態統計」をもとに作成した1998年の資料を使わせてもらう。
この年、一番出生者が多かったのは9月22日(4236人)だ。最下位の1月1日(2201人)とは倍近くの差がある。しかしこれは届け出上の数字であることに注意。元日生まれの子供は「お目出たいヤツ」と学校でいじめられるかも知れぬ、元旦と誕生日の祝いが重なるのは面倒だ、などの理由でこの日を誕生日と届けるのを避ける傾向があるのだろう。実際例えば12月24日が26位と上位に来ているのは、誕生日とクリスマスパーティが一緒にできてケーキ代が節約できるという親の配慮があるに違いない。
厚生省が秘密にしている?この資料を別の方法で集計すれば、日本人の「繁殖期」が突き止められると思うのだが、その様な研究をご存じの方はぜひご教示ください。
そして今日もまた論文捏造のニュース。「ノルウェー・ラジウム病院(オスロ)は15日、同病院の医師(44)が昨年10月、英医学誌ランセットに発表した口腔(こうくう)がんに関する論文が架空のデータに基づいていたことを明らかにした。」(ロイター共同1月16日)というが、バレた理由が何ともお粗末で、「論文でサンプルとされた908人のうち、250人の誕生日が同じ日だった」というから、完全な手抜きだ。
◆「この中に同じ誕生日の人が必ずいる」
この記事を読んで思い出したのが、確率の入門書などには必ず出てくる「誕生日の問題」だ。今、あなたが参加者30人のこぢんまりしたパーティに出席しているとしよう。そしてそれぞれお互いのことをよく知らない。「皆さん、ここで賭をやりましょう。この中に同じ誕生日の人がいるかいないか。私はいる方に賭ける」。「いる」確率をpとすると、この場合p=0.706・・程度なので賭に勝つ確率は7割と高い。(どの日も均等に生まれると仮定した。実際はそうでない。この点は記事末の【付録】参照)
計算方法は、なぜかWebにはやたらとこの「誕生日のパラドックス」問題を解説したページが多いのでそちらを参照されたい(たとえばここ)。高校で習う確率論の、「積事象」と「余事象」の概念を知っていれば計算方法の理解も容易だ。計算も100円電卓で(関数電卓があればもっと便利だが)可能だ。
なぜこの問題が「パラドックス」と呼ばれるのかというと、たぶん直感的に予想されるよりも「いる」確率が高いからだ。その場の人数をnとして、n=23でp=0.507..なのでこの人数ですでに「いる」確率の方が高くなり、40人学級だとp=0.891..だから10クラスに9クラスは「同じ誕生日の人がいる」ことになる。
なぜこの確率が高く感じられるかというと、この問題を「この場に自分と同じ誕生日の人がいるか」という問題と混同するからだ。後者の場合は、「いる」確率が五割を超えるのは、n=>253だから、相当の人を集めないとダメだ(計算方法は上記URLで)。直感的には180人程度かと思う(n=180ではp=0.39に過ぎない)ので、これもまた誕生日のパラドックスと言えるかもしれない。(実際365人集めるとほとんど確実思えるが、この場合でもp=0.633に過ぎないからあまり自信を持って断言できない)。
◆新「誕生日のパラドックス」
ちなみに「908人のうち、250人の誕生日が同じ日」という確率はどれほどになるのか?こういう問題も考えておかないと、数学に弱い人は偽装家に「こうなることは確率論的に0ではない」と言われると黙ってしまうかもしれないからだ。
この計算は「二項分布」の計算だが、nが大きいので、「ポワソン分布」で計算。これらについてはWebでは例えばここを見ていただきたいが、統計学の入門書が必要かもしれない。計算も関数電卓か表計算ソフトが必要なので、何でも自分で計算しないと納得しない方以外は、以下の結果だけを信じてください。
「250人の誕生日が同じ日」というのは「250人以上の誕生日が同じ日」として考えるのが妥当。それでもこれはあまりにも大きい数字(小さな確率)なので、その無意味さを理解してもらうためにもっと小さい数字で計算してみた。
「908人のうち、ある特定の日に5人以上の誕生日が重なる確率p」 p=0.041
「10人以上」p=0.000059 「30人以上」p=6.8e-12
最後の数字は小さすぎて分かりにくい。だいたい1470億分の一という確率だ。30人にしてこの数字。250人なら pはもう「無限小」、完全に起こり得ないと断言してよい。
まさしくこの医師の偽装は「誕生日のパラドックス」だった。あまりにもあり得ない数字を持ち出して馬脚を現した。データーを偽造するなら、少しは汗をかけ。誕生日欄を単にコピペで作っているからこういうことになる。姉歯の爪の垢でも煎じて飲めばいい。彼は「専門家が見れば一目瞭然」と”謙遜”しているが、「専門検査機関」が「複雑すぎて見抜けない」ほどの数値の偽装を何十件(何百件?)もやってのけたのである。
【付録】 誕生日の分布
うるう年を考えないとしても実際の誕生日は1/365の確率で均一に分布していない。厚生省がそのデーターを持っているはずだと思い、Webを検索したが見当たらない。直接問い合わせると、かなり時間がかかっての返答は、「厚生労働省に直接来れば資料を見せてやる。」
別に担当者が意地悪なのではない。これがお役所発想というものです。つまりコスト概念が全くないのです。一般の人も自分たちと同じく情報を得るためにコストを払わなくていいと思ってしまう。
しょうがないので、ここでは西日本新聞が厚生労働省「人口動態統計」をもとに作成した1998年の資料を使わせてもらう。
この年、一番出生者が多かったのは9月22日(4236人)だ。最下位の1月1日(2201人)とは倍近くの差がある。しかしこれは届け出上の数字であることに注意。元日生まれの子供は「お目出たいヤツ」と学校でいじめられるかも知れぬ、元旦と誕生日の祝いが重なるのは面倒だ、などの理由でこの日を誕生日と届けるのを避ける傾向があるのだろう。実際例えば12月24日が26位と上位に来ているのは、誕生日とクリスマスパーティが一緒にできてケーキ代が節約できるという親の配慮があるに違いない。
厚生省が秘密にしている?この資料を別の方法で集計すれば、日本人の「繁殖期」が突き止められると思うのだが、その様な研究をご存じの方はぜひご教示ください。