酒のさかな

平凡な笑市民が日ごろの暮らしの中で出会ったこと
【縦横無尽探険隊別館】

カイ2乗検定の怪【なんちゃって統計学】

2007-01-16 23:40:11 | 技術系
疫学統計の講義を受けた。
失礼ながら、私は統計というものが全くわかっていない。
それでも場を賑わすために講師にこじつけた質問を浴びせる。^^;
過去の経験上、統計学の講義なるものが、かなり身勝手な条件のもとに自分の都合のいい結論を【正解】として進んでいくものだと感じていたので、自然とイヂワルな質問になるのは仕方あるまい。

病気の発生原因を解明する場合、年齢や性別で何か特徴がないかなど、共通項目を探し出すことが大切だそうな・・・そりゃそうだ。
講「この病気の発生する割合は女性が若干ですが多いようですね」
私『疫学統計の勉強ですから、多いかどうか有意差検定しましょうよ』
講「あれ・・・差がないという仮説は棄却できませんねぇ」
私『ということは男女に差があるとはいえない。』
講「そうですね。有意差が認められない程度に女性が若干多い・・・」
私『はぁ、何のための検定ですか?(怒)』
低レベルな論文で良くありがちな言い回しである。

カイ2乗検定というものを疫学調査では良く使う。
例えば、次のような表(適当な数字だからね^^;)でカイ2乗検定が行われ、"喫煙と肺がんの間には関係がない"という帰無仮説が棄却され"喫煙者は肺がんになりやすい"という結論が導き出されるのである。(タダの例示だからね^^;)

     肺がん  健康
喫煙者  270  50
非煙者   30  90

では、食中毒などの基質特異型の現象ではどうなんだろう。
何の疑いもなくカイ2乗検定に乗せられて議論されているが・・・・

         症状あり  無症状
ウニ丼食べた   27     25
食べていない    0     40

良く考えてみよう。
肺がんの場合と異なり、食中毒は自然発生は【理論的に】あり得ない。
そう考えることが食中毒調査の疫学的考え方の根本である。
一方、疫学統計ではカイ2乗検定を平気で使ってウニ丼が原因食であるとか断定するのがセオリーである。
しかし理論的に考えてみると、「食べていない者」が「症状あり」の場合は絶対0なのであって、そもそも自由度1の分割表で表現される上記表について、一マスが決定されれば残りのマスは全部自動的に決定されることになり、データ発現のゆらぎが全くないことになってしまう。
(各タテヨコ計は調査のデータ母数で決まっているため自由度は1)
そんなにガチガチに【確かな】事象に対してカイ2乗検定などという【不確か】なものをあてがうこと自体が『なんとなく変』な気がするのは私だけなんだろうな。

【本当の答えを誰か教えてください。】