ChatGPTの医療知識レベルについて論文３本をもとに考えてみた

以前の記事で、ChatGPTを使った海外学会発表の準備についてお伝えしました。
その中で、ChatGPTの情報は必ずしも正しくない、ということについても少し触れたのですが、よくよく考えてみたところ、なぜそうなのか？そして、どの程度の情報を提供しているのか？という疑問が沸いたので、今回の記事を書くことにしました。

独断と偏見で選んだ3本の論文から、現在のChatGPTの医療知識レベルについて考察してみました。

ChatGPTは医師国家試験に合格できるのか？
日本国内からも同様の結果
専門医レベルではどうか？
いずれの論文でも触れていた考察
結論

ChatGPTは医師国家試験に合格できるのか？

Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models　

2023年のPLOS Digital Health誌に掲載された、ChatGPTを医療教育に活用する可能性について研究した論文。

本研究では、ChatGPT3.0に米国の医師国家試験であるUSMLEの問題を解かせ、その正確性を検証しています。なお、この問題のうち、画像診断系のものは除外されているので、あくまで医療知識に焦点を当てた内容となっています。

USMLEはstep1,2,３の段階からなる米国の医師国家試験。stepを合格し、ECFMGの認証を受けたのち、医師免許を取得することができるもの。

結果は全ての試験で概ね50%以上の成績をおさめており、60%を超えるものもありました。USMLEの合格率が60%程度とされているので、ギリギリ合格できるかどうか。
つまり、知識的には研修医が身につけているものとほぼ同等か、やや平均より劣る水準だということです。

また、基礎医学では正確性が高い一方で、臨床医学においてはやや得点が低下する傾向にある、という傾向がありました。つまり、知識を統合してさらに説明まで求められるレベルまでは、まだ十分なレベルには到達していないようです。

日本国内からも同様の結果

Performance of Generative Pretrained Transformer on the National Medical Licensing Examination in Japan

2024年に金沢大学の研究チームが日本の医師国家試験においてもChatGPTが合格できるかを調査し、その研究結果が同じPLOS Dig Health誌に掲載されました。

この研究ではGPT-4を使用し、かつ適切なプロンプトを打つことで必修問題(82.7%/合格:80%以上)、基礎・臨床問題(77.2%/合格:74.6%以上)いずれも合格点に届いた、というものでした。

先ほどご紹介したものではGPT-3でしたから、英語だけではなく日本の試験においても対応しつつある、という点が非常に興味深い結果でした。

専門医レベルではどうか？

この結果から少し踏み込んで、専門医レベルの知識としてはどうか調べてみました。

Accuracy of Information Provided by ChatGPT Regarding Liver Cancer Surveillance andDiagnosis.

2023年にAmerican Journal of Roentgenology誌に掲載された、 ChatGPTが肝臓治療専門医のレベルに到達できているのかを研究した露文では「肝臓がんのリスクに応じた検査や治療方針を立てる上では有用ではない」という結果が報告されています。

結果的に、ChatGPTが専門医の代わりになりうるか？という問いに対して、答えは‘NO’となります。

いずれの論文でも触れていた考察

今回のPLOS Dig Healthの論文でもAJRの研究でも、「ChatGPTの学習過程に改善の余地があった」としています。

つまり、ChatGPTを適切に学習させることができるようになれば、より医学教育や実臨床のサポートとして、より有用な存在になっていく可能性がある、と考察しています。

ただこれが最も難しいところです。医学の専門は近年では細分化されており、それぞれの研究は日進月歩です。

国が変わればガイドラインも変わりますし、同じ国内であっても、人種による遺伝学的な違いもあります。
また、医療業界は慢性的な人出不足にもかかわらず高度な知識が求められる今、AIにその知識を学習させるということ自体、非常に困難な課題かもしれません。
しかし、より良い医療のために今後の研究や改善に期待したいところですね。