散日拾遺

日々の雑感、読書記録、自由連想その他いろいろ。
コメント歓迎、ただし仕事関連のお問い合わせには対応していません。

過剰診断と過少診断 ~ アタマの整理

2013-10-01 09:29:26 | 日記
2013年10月1日(火)

冤罪は一種の過剰診断、と書いた。
この機会に整理しておく。

① 統計学
たとえば検定で「有意水準5%で両者の間に差があった」という場合、差があるとの判断には5%の危うさがあり、平均してそのような判断の20回に1回はマチガイであるという注釈がつくことになる。統計学的な判断とはそういうものなのである。

この場合のマチガイは、「実際には差がないのに、差がある」と判断するマチガイで、これが過剰診断 overdiagnosis にあたる。
この反対のマチガイ、つまり「実際には差があるのに、差がない(差があるとはいえない)」と判断するマチガイ、これは過少診断 underdiagnosis である。

前者をα型の過誤、後者をβ型の過誤などと言ったりもするようだが、これをうまく洒落たのが大村平さんという統計学者で、α型は「アワテモノのマチガイ」、β型は「ボンヤリモノのマチガイ」だと書いた。Aと「ア」、Bと「ボ」をひっかけたのである。
(『統計の話』日科技連)

大方の統計学的判断は5%水準で行われ、1%水準ならば「強く有意」ぐらいに考えるが、実は5%とか1%とかの数字に神秘的な意味があるわけではなく、まったく任意の(人為的な)ものである。ということは、有意水準は目的に応じて設定を変えることができるし、変えるべきものだ。

たとえば、非常に危険な薬物副作用について検証しようとする場合、従来の薬と比べてリスクが高いかどうかの判定は、有意水準を落として行うべきである。どこまで落とすか、10%で良いのか、20%か、いっそ50%でも良いのではないか、その結論は統計学的手法そのものからは導き出せず、「社会の判断」に委ねられることになる。

有意水準50%では、判断の2回に1回は誤りであることになるが、たとえそうであっても実在する危険を見逃すよりはマシだと考えるならばこういう選択も「あり」なのだ。有意水準をもっと下げたっていいけれど、そんなことならその選択肢は初めから捨てた方が良いということになる。

α型の過誤が過剰診断、β型の過誤が過少診断に相当する。


② 検査と診断

たとえば、ある病気に罹っているかどうかを、ある検査によって判断する場合を考える。
大勢についてデータを取り、下記のように整理できたとする。(a ~ dは人数)

   検査陽性  検査陰性
疾患あり  a   b
疾患なし  c   d

aは真の陽性、cは偽陽性(=α型の過誤)
dは真の陰性、bは偽陰性(=β型の過誤)

ここで、
感度 sensitivity = a/a+b
特異性 specificity = d/c+d

・・・ほんとかな、いつもここで混乱する。
感度はこれで良いとして、特異性をしょっちゅう間違える。でも、いいんだよな、たぶん。

理想の検査は感度・特異性ともに100%というもので、上の表ではbとcがゼロの場合に成立するが、そのような幸せはなかなか期待しがたい。
一般に、感度を高めようとすれば特異性が低くなり(偽陽性が増える)、特異性を高めようとすれば感度が低くなる(偽陰性つまり見逃しが増える)というトレード・オフが両者の間に存在する。
だから実際には既存の検査方法の特性を知って、これを使い分けることになる。

非常に危険な病気を発見するためのスクリーニング検査では、特異性を少々犠牲にしても感度を優先すべきである。仮の陽性者(a+b)に対して精密検査を行い、真の陽性者(a)を絞り込めばよい。
結核に対するツベルクリン検査は良い例で、比較的簡便で害が少ないこととあわせ、十分に歴史的役割を果たした。

逆の例の方は、例えばガンに対する特異的マーカーを考えたら良いだろうか。
特異性が高くなると感度とともに汎用性が下がり、ひとつの検査がカバーできる対象範囲が限定される(=多くの検査を併用せねばならない)ということもあるように思うが、専門外のことをあげつらうと馬脚をあらわしそうでおっかない。

「検査方法」から話を「診断基準」に広げれば、紹介できる話が少なくともひとつある。
統合失調症の診断に関してK.シュナイダーが考案した「一級症状/二級症状」は、まさにこのことに関わっている。
一級症状は統合失調症に特異的な徴候、二級症状は非特異的な徴候であるというが眼目で、「統合失調症ではないものを統合失調症あつかいすることの危険」を最少化しようというのがシュナイダーの狙いだった。現にそのような「過剰診断」が相当数起きていたのであろう。

一級症状は僕の面接授業『精神医学・基礎編』のひとつのヤマだが、説明でしどろもどろになることが結構ある。昨年だったか、例によって立ち往生していたら、受講生のひとりが、
「それは、必要条件と十分条件ということではないですか?」
と質問した。
これだから授業は面白いので、彼の言う通りなのである。

一級症状は統合失調症診断の十分条件であるが、必要条件ではない。(以上)

こうして統計学の問題が論理学とも重なってくることになる。


③ 司法その他

「病気の診断」を「犯罪者の摘発」と読み替えれば、以上の議論はそのまま司法過程に援用できる。
あとは省略していいだろう。

最後に、ひとつの問が残る。

「犯罪者の摘発」という作業に関しても、理想は感度と特異性の双方を100%にまで高めることにある。しかしそれは、病気の診断と比べて格段に難しいことのようだ。
いっぽうでそのような努力を続けるのは当然としつつ、理想とは遠い現状においてトレード・オフの妥協点をどこに求めたらいいか?

冤罪には目をつぶって摘発率を高めるか(感度優先)?

摘発率を犠牲にしてでも冤罪を極力減らすか(特異性優先)?

僕らの成熟度が問われるテーマでもあるようだ。







最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。