ChatGPTの医療知識レベルについて論文3本をもとに考えてみた

※当ブログではアフィリエイト広告を利用しています
医学
dr-infoblog

30代の消化器内科医。普段は某大学病院で消化器がんの診療・研究をしています。妻と1歳の子供との3人暮らし。地元の公立小中学を卒業し、私立大学医学部を奨学金利用し卒業。20年間のauユーザー、趣味は旅行と最近はブログ。そんな医師の日常を記事にします。不定期更新。

dr-infoblogをフォローする

以前の記事で、ChatGPTを使った海外学会発表の準備についてお伝えしました。
その中で、ChatGPTの情報は必ずしも正しくない、ということについても少し触れたのですが、よくよく考えてみたところ、なぜそうなのか?そして、どの程度の情報を提供しているのか?という疑問が沸いたので、今回の記事を書くことにしました。

独断と偏見で選んだ3本の論文から、現在のChatGPTの医療知識レベルについて考察してみました。

Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models 

2023年のPLOS Digital Health誌に掲載された、ChatGPTを医療教育に活用する可能性について研究した論文。

本研究では、ChatGPT3.0に米国の医師国家試験であるUSMLEの問題を解かせ、その正確性を検証しています。なお、この問題のうち、画像診断系のものは除外されているので、あくまで医療知識に焦点を当てた内容となっています。

USMLEはstep1,2,3の段階からなる米国の医師国家試験。stepを合格し、ECFMGの認証を受けたのち、医師免許を取得することができるもの。

結果は全ての試験で概ね50%以上の成績をおさめており、60%を超えるものもありました。USMLEの合格率が60%程度とされているので、ギリギリ合格できるかどうか。
つまり、知識的には研修医が身につけているものとほぼ同等か、やや平均より劣る水準だということです。

また、基礎医学では正確性が高い一方で、臨床医学においてはやや得点が低下する傾向にある、という傾向がありました。つまり、知識を統合してさらに説明まで求められるレベルまでは、まだ十分なレベルには到達していないようです。

Performance of Generative Pretrained Transformer on the National Medical Licensing Examination in Japan

2024年に金沢大学の研究チームが日本の医師国家試験においてもChatGPTが合格できるかを調査し、その研究結果が同じPLOS Dig Health誌に掲載されました。

この研究ではGPT-4を使用し、かつ適切なプロンプトを打つことで必修問題(82.7%/合格:80%以上)、基礎・臨床問題(77.2%/合格:74.6%以上)いずれも合格点に届いた、というものでした。

先ほどご紹介したものではGPT-3でしたから、英語だけではなく日本の試験においても対応しつつある、という点が非常に興味深い結果でした。

この結果から少し踏み込んで、専門医レベルの知識としてはどうか調べてみました。

Accuracy of Information Provided by ChatGPT Regarding Liver Cancer Surveillance andDiagnosis.

2023年にAmerican Journal of Roentgenology誌に掲載された、 ChatGPTが肝臓治療専門医のレベルに到達できているのかを研究した露文では「肝臓がんのリスクに応じた検査や治療方針を立てる上では有用ではない」という結果が報告されています。

結果的に、ChatGPTが専門医の代わりになりうるか?という問いに対して、答えは‘NO’となります。

今回のPLOS Dig Healthの論文でもAJRの研究でも、「ChatGPTの学習過程に改善の余地があった」としています。

つまり、ChatGPTを適切に学習させることができるようになれば、より医学教育や実臨床のサポートとして、より有用な存在になっていく可能性がある、と考察しています。

ただこれが最も難しいところです。医学の専門は近年では細分化されており、それぞれの研究は日進月歩です。

国が変わればガイドラインも変わりますし、同じ国内であっても、人種による遺伝学的な違いもあります。
また、医療業界は慢性的な人出不足にもかかわらず高度な知識が求められる今、AIにその知識を学習させるということ自体、非常に困難な課題かもしれません。
しかし、より良い医療のために今後の研究や改善に期待したいところですね。

今回の3本の論文から、個人的には以下のように結論づけました。

✅ ChatGPTは研修医レベルの知識はついてきている(バージョンやプロンプトによって結果が変わるが)
✅ 専門医レベルにはまだまだ達していない
✅ ChatGPTの医療情報はいまだ疑ってかかる必要がある

責任の所在や法律も問題もあり、医師の仕事をAIが全て代替することは現実的ではありません。

しかしAIに頼るようになった結果、医師の知識や技能レベルが低下する自体は避けないといけません。これからも私たち医療従事者はこれからも自ら学び続ける必要があるなと、考えさせられる3本の論文でした。

コメント

タイトルとURLをコピーしました