一項(xiàng)新研究發(fā)現(xiàn),雖然先進(jìn)的人工智能(AI)模型在專業(yè)醫(yī)學(xué)考試中得分很高,但在通過(guò)與患者交談從而診斷疾病方面仍然不及格。1月2日,相關(guān)研究成果發(fā)表于《自然-醫(yī)學(xué)》。
美國(guó)哈佛大學(xué)的Pranav Rajpurkar說(shuō):“雖然大型語(yǔ)言模型在測(cè)試中的表現(xiàn)令人印象深刻,但在動(dòng)態(tài)對(duì)話中,它們的準(zhǔn)確性明顯下降,尤其是難以進(jìn)行開放式診斷推理?!?/p>
研究人員開發(fā)出一種方法,基于模擬醫(yī)患對(duì)話評(píng)估“臨床AI”模型的推理能力。這些“患者”基于2000個(gè)醫(yī)療案例。這些案例主要來(lái)自美國(guó)醫(yī)學(xué)委員會(huì)的專業(yè)考試。
同樣來(lái)自哈佛大學(xué)的Shreya Johri說(shuō):“模擬醫(yī)患互動(dòng)可以評(píng)估病史采集技能,這是臨床實(shí)踐的一個(gè)關(guān)鍵組成部分。”她表示,新的評(píng)估基準(zhǔn)被稱為CRAFT-MD,“反映了現(xiàn)實(shí)生活中的情況,即患者可能不知道哪些細(xì)節(jié)是至關(guān)重要的,只有在回答特定問(wèn)題時(shí)才會(huì)披露重要信息”。
CRAFT-MD基準(zhǔn)本身依賴于AI。美國(guó)OpenAI公司的GPT-4模型在與被測(cè)試的“臨床AI”的對(duì)話中扮演了“患者AI”的角色。GPT-4還通過(guò)將“臨床AI”的診斷結(jié)果與每個(gè)病例的正確答案進(jìn)行比較來(lái)評(píng)分。人類醫(yī)學(xué)專家對(duì)這些評(píng)估進(jìn)行了復(fù)核。他們還審查了對(duì)話,以檢查“患者AI”的準(zhǔn)確性,并查看“臨床AI”是否成功收集了相關(guān)的醫(yī)療信息。
多項(xiàng)實(shí)驗(yàn)表明,4種領(lǐng)先的大型語(yǔ)言模型——OpenAI的GPT-3.5和GPT-4、美國(guó)Meta公司的Llama-2-7b和法國(guó)Mistral AI公司的Mistral-v2-7b,在基于對(duì)話的基準(zhǔn)測(cè)試中的表現(xiàn)遠(yuǎn)不如根據(jù)書面摘要進(jìn)行診斷時(shí)的表現(xiàn)。
例如,當(dāng)提供結(jié)構(gòu)化的病例摘要并允許從多項(xiàng)答案中作出選擇時(shí),GPT-4的診斷準(zhǔn)確率高達(dá)82%,而沒有多項(xiàng)選擇時(shí),其診斷準(zhǔn)確率則降至49%以下。然而,當(dāng)它不得不通過(guò)與模擬的患者對(duì)話進(jìn)行診斷時(shí),準(zhǔn)確率降至26%。
在這項(xiàng)研究中,通常GPT-4是表現(xiàn)最好的模型,GPT-3.5次之,Mistral-v2-7b排在第三位,Llama-2-7b得分最低。
AI模型在大多數(shù)情況下未能收集完整的病史,比如GPT-4僅在71%的模擬患者對(duì)話中做到了這一點(diǎn)。即使AI模型收集了患者的相關(guān)病史,它們也并不總是能夠作出正確的診斷。
美國(guó)斯克利普斯研究轉(zhuǎn)化研究所的Eric Topol表示,模擬患者對(duì)話代表了一種比醫(yī)學(xué)考試“更有用”的評(píng)估AI臨床推理能力的方法。
Rajpurkar說(shuō),即使一個(gè)AI模型最終通過(guò)了這一基準(zhǔn),能夠根據(jù)模擬的患者對(duì)話持續(xù)作出準(zhǔn)確診斷,也并不一定意味著它就優(yōu)于人類醫(yī)生。他指出,現(xiàn)實(shí)世界中的醫(yī)療實(shí)踐比模擬的“更混亂”,涉及管理多名患者、與醫(yī)療團(tuán)隊(duì)協(xié)調(diào)、進(jìn)行身體檢查,以及了解當(dāng)?shù)蒯t(yī)療情況中“復(fù)雜的社會(huì)和系統(tǒng)因素”?!癆I是支持臨床工作的強(qiáng)大工具,但不一定能取代經(jīng)驗(yàn)豐富的醫(yī)生的整體判斷?!盧ajpurkar說(shuō)。 (文樂樂)
相關(guān)論文信息:
https://doi.org/10.1038/s41591-024-03328-5
《中國(guó)科學(xué)報(bào)》 (2025-01-07 第2版 國(guó)際)