AI関連のRCTはそこそこじっくり読むようにしています。
Goh E, Gallo R, Hom J, et al.
Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial.
JAMA Netw Open. 2024 Oct 1;7(10):e2440969. PMID: 39466245.
50名の家庭医、内科医、救急医を2群に分け、実際の症例をベースにした診断問題に答えてもらった。介入群ではLLM(本文には書いてないがサプリでChatGPTであることを確認)の使用が許された。その結果、介入群で診断精度は向上せず、LLMだけの診断精度は医師に比べて有意に高かった。
診断問題について。
”adapted from a landmark study"と書いてあって、へーと思った。これが元文献。ほお、僕が医者二年目の時(週5で病院に泊まっていた頃、もちろんNEJMを定期的に読むなんてしていない)にすでにこんな研究があったとは、と驚いた。でも、この文章をLLMが知ってたら精度が高いのは当然だと思ったのだけど、Methodsの最初の方に、”The cases have never been publicly released to protect the validity of the test materials for future use, and therefore are excluded from training data of the LLM."としっかり書いてあった。
介入群に改善がなかったことについて。
「LLMなんかより俺の方が正しいぜ」と考える人が多かったからかと思ったのだけど、discussionでは、プロンプトの書き方に問題があったのでは、と推測している。確かに、普段LLMを使っているかどうかでサブグループ解析が行われていて、有意ではないけど、よく使う人の方が診断精度が高く、診断までに要する時間が短い。
でも、全文コピペして”診断は?”と聞くだけでも、ちゃんと答えてくれそうだけどね。少し不思議。
LLMの診断精度が人間よりも高かったことについて。
NEJMのimage challengeを毎週LLMに解かせて遊んでいる身としては、当然の結果と思える。でも残念ながら、臨床では使えないんだよね、まだ。理由は、ここに書いたことが一つ。そして、診断問題は知識が十分にあれば正しい診断に至れるように書いてあるけど、カルテなどの実際の臨床情報はそうではないから。
例えば。
ある日の朝、ICUに行ったら夜間に新患が入っていた。当直医のプレゼンを聞くと、
救急外来に〇〇の症状のある患者さんが来た。救急医は〇〇系の疾患を疑い〇〇科医を呼んだ。〇〇科医は〇〇病の可能性が高いと考えた。バイタルが不安定なためICU入室を依頼した。ICU医は申し送りを受け、〇〇科医の診断に基づいて対応した。
とのこと。カンファで誰かが「診断が違うんじゃないか?」と言い、日中の〇〇科専門医とディスカッションし、検査の結果も踏まえ、当初の診断は間違っていたことが後日確定した。
何度も見たことがあるパターン。でも、少なくとも入室時のカルテを読んで誤診を指摘することは難しい。なぜならその診断に至れるような記載の仕方をしているから。これをLLMが読んでも同じ診断になるはず。家族の発言、ナースの記録、ICU入室後の経過、画像などの検査所見、これらを統合して診断し、かつリアルタイムに更新する仕組みが作られない限り、実際の臨床では役立つ場面は少なそう。
とか言っても、数年でそのレベルに達しちゃうだろうけど。まだそうじゃないだけで。
Goh E, Gallo R, Hom J, et al.
Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial.
JAMA Netw Open. 2024 Oct 1;7(10):e2440969. PMID: 39466245.
50名の家庭医、内科医、救急医を2群に分け、実際の症例をベースにした診断問題に答えてもらった。介入群ではLLM(本文には書いてないがサプリでChatGPTであることを確認)の使用が許された。その結果、介入群で診断精度は向上せず、LLMだけの診断精度は医師に比べて有意に高かった。
診断問題について。
”adapted from a landmark study"と書いてあって、へーと思った。これが元文献。ほお、僕が医者二年目の時(週5で病院に泊まっていた頃、もちろんNEJMを定期的に読むなんてしていない)にすでにこんな研究があったとは、と驚いた。でも、この文章をLLMが知ってたら精度が高いのは当然だと思ったのだけど、Methodsの最初の方に、”The cases have never been publicly released to protect the validity of the test materials for future use, and therefore are excluded from training data of the LLM."としっかり書いてあった。
介入群に改善がなかったことについて。
「LLMなんかより俺の方が正しいぜ」と考える人が多かったからかと思ったのだけど、discussionでは、プロンプトの書き方に問題があったのでは、と推測している。確かに、普段LLMを使っているかどうかでサブグループ解析が行われていて、有意ではないけど、よく使う人の方が診断精度が高く、診断までに要する時間が短い。
でも、全文コピペして”診断は?”と聞くだけでも、ちゃんと答えてくれそうだけどね。少し不思議。
LLMの診断精度が人間よりも高かったことについて。
NEJMのimage challengeを毎週LLMに解かせて遊んでいる身としては、当然の結果と思える。でも残念ながら、臨床では使えないんだよね、まだ。理由は、ここに書いたことが一つ。そして、診断問題は知識が十分にあれば正しい診断に至れるように書いてあるけど、カルテなどの実際の臨床情報はそうではないから。
例えば。
ある日の朝、ICUに行ったら夜間に新患が入っていた。当直医のプレゼンを聞くと、
救急外来に〇〇の症状のある患者さんが来た。救急医は〇〇系の疾患を疑い〇〇科医を呼んだ。〇〇科医は〇〇病の可能性が高いと考えた。バイタルが不安定なためICU入室を依頼した。ICU医は申し送りを受け、〇〇科医の診断に基づいて対応した。
とのこと。カンファで誰かが「診断が違うんじゃないか?」と言い、日中の〇〇科専門医とディスカッションし、検査の結果も踏まえ、当初の診断は間違っていたことが後日確定した。
何度も見たことがあるパターン。でも、少なくとも入室時のカルテを読んで誤診を指摘することは難しい。なぜならその診断に至れるような記載の仕方をしているから。これをLLMが読んでも同じ診断になるはず。家族の発言、ナースの記録、ICU入室後の経過、画像などの検査所見、これらを統合して診断し、かつリアルタイムに更新する仕組みが作られない限り、実際の臨床では役立つ場面は少なそう。
とか言っても、数年でそのレベルに達しちゃうだろうけど。まだそうじゃないだけで。






※コメント投稿者のブログIDはブログ作成者のみに通知されます