夜夜揉揉日日人人青青,偷窥精品在线视频,精品妇女一区二区三区,a√天堂98国产在线

<small id="lndpy"><del id="lndpy"><rt id="lndpy"></rt></del></small><dfn id="lndpy"></dfn><bdo id="lndpy"><delect id="lndpy"><legend id="lndpy"></legend></delect></bdo>

<address id="lndpy"><ul id="lndpy"><strike id="lndpy"></strike></ul></address>

<pre id="mdjd6"><del id="mdjd6"><rt id="mdjd6"></rt></del></pre><label id="mdjd6"></label>

<dfn id="mdjd6"></dfn>

<address id="mdjd6"><var id="mdjd6"><strong id="mdjd6"></strong></var></address>

<address id="mdjd6"><var id="mdjd6"><center id="mdjd6"></center></var></address>

<pre id="mdjd6"><del id="mdjd6"><rt id="mdjd6"></rt></del></pre>

AI機(jī)器人會(huì)考試，不會(huì)看病

您現(xiàn)在的位置：首頁(yè)公司簡(jiǎn)介 AI機(jī)器人會(huì)考試，不會(huì)看病

AI機(jī)器人會(huì)考試，不會(huì)看病

wuxinyun 2025-02-28 公司簡(jiǎn)介 5 次瀏覽 0個(gè)評(píng)論

　　一項(xiàng)新研究發(fā)現(xiàn)，雖然先進(jìn)的人工智能（AI）模型在專業(yè)醫(yī)學(xué)考試中得分很高，但在通過(guò)與患者交談從而診斷疾病方面仍然不及格。1月2日，相關(guān)研究成果發(fā)表于《自然-醫(yī)學(xué)》。

　　美國(guó)哈佛大學(xué)的Pranav Rajpurkar說(shuō)：“雖然大型語(yǔ)言模型在測(cè)試中的表現(xiàn)令人印象深刻，但在動(dòng)態(tài)對(duì)話中，它們的準(zhǔn)確性明顯下降，尤其是難以進(jìn)行開放式診斷推理?！?/p>

　　研究人員開發(fā)出一種方法，基于模擬醫(yī)患對(duì)話評(píng)估“臨床AI”模型的推理能力。這些“患者”基于2000個(gè)醫(yī)療案例。這些案例主要來(lái)自美國(guó)醫(yī)學(xué)委員會(huì)的專業(yè)考試。

　　同樣來(lái)自哈佛大學(xué)的Shreya Johri說(shuō)：“模擬醫(yī)患互動(dòng)可以評(píng)估病史采集技能，這是臨床實(shí)踐的一個(gè)關(guān)鍵組成部分。”她表示，新的評(píng)估基準(zhǔn)被稱為CRAFT-MD，“反映了現(xiàn)實(shí)生活中的情況，即患者可能不知道哪些細(xì)節(jié)是至關(guān)重要的，只有在回答特定問(wèn)題時(shí)才會(huì)披露重要信息”。

　　CRAFT-MD基準(zhǔn)本身依賴于AI。美國(guó)OpenAI公司的GPT-4模型在與被測(cè)試的“臨床AI”的對(duì)話中扮演了“患者AI”的角色。GPT-4還通過(guò)將“臨床AI”的診斷結(jié)果與每個(gè)病例的正確答案進(jìn)行比較來(lái)評(píng)分。人類醫(yī)學(xué)專家對(duì)這些評(píng)估進(jìn)行了復(fù)核。他們還審查了對(duì)話，以檢查“患者AI”的準(zhǔn)確性，并查看“臨床AI”是否成功收集了相關(guān)的醫(yī)療信息。

　　多項(xiàng)實(shí)驗(yàn)表明，4種領(lǐng)先的大型語(yǔ)言模型——OpenAI的GPT-3.5和GPT-4、美國(guó)Meta公司的Llama-2-7b和法國(guó)Mistral AI公司的Mistral-v2-7b，在基于對(duì)話的基準(zhǔn)測(cè)試中的表現(xiàn)遠(yuǎn)不如根據(jù)書面摘要進(jìn)行診斷時(shí)的表現(xiàn)。

　　例如，當(dāng)提供結(jié)構(gòu)化的病例摘要并允許從多項(xiàng)答案中作出選擇時(shí)，GPT-4的診斷準(zhǔn)確率高達(dá)82%，而沒有多項(xiàng)選擇時(shí)，其診斷準(zhǔn)確率則降至49%以下。然而，當(dāng)它不得不通過(guò)與模擬的患者對(duì)話進(jìn)行診斷時(shí)，準(zhǔn)確率降至26%。

　　在這項(xiàng)研究中，通常GPT-4是表現(xiàn)最好的模型，GPT-3.5次之，Mistral-v2-7b排在第三位，Llama-2-7b得分最低。

　　AI模型在大多數(shù)情況下未能收集完整的病史，比如GPT-4僅在71%的模擬患者對(duì)話中做到了這一點(diǎn)。即使AI模型收集了患者的相關(guān)病史，它們也并不總是能夠作出正確的診斷。

　　美國(guó)斯克利普斯研究轉(zhuǎn)化研究所的Eric Topol表示，模擬患者對(duì)話代表了一種比醫(yī)學(xué)考試“更有用”的評(píng)估AI臨床推理能力的方法。

　　Rajpurkar說(shuō)，即使一個(gè)AI模型最終通過(guò)了這一基準(zhǔn)，能夠根據(jù)模擬的患者對(duì)話持續(xù)作出準(zhǔn)確診斷，也并不一定意味著它就優(yōu)于人類醫(yī)生。他指出，現(xiàn)實(shí)世界中的醫(yī)療實(shí)踐比模擬的“更混亂”，涉及管理多名患者、與醫(yī)療團(tuán)隊(duì)協(xié)調(diào)、進(jìn)行身體檢查，以及了解當(dāng)?shù)蒯t(yī)療情況中“復(fù)雜的社會(huì)和系統(tǒng)因素”?！癆I是支持臨床工作的強(qiáng)大工具，但不一定能取代經(jīng)驗(yàn)豐富的醫(yī)生的整體判斷?！盧ajpurkar說(shuō)。 （文樂樂）

　　相關(guān)論文信息：

　　https://doi.org/10.1038/s41591-024-03328-5

　　《中國(guó)科學(xué)報(bào)》 (2025-01-07 第2版國(guó)際)

轉(zhuǎn)載請(qǐng)注明來(lái)自宜賓民心創(chuàng)傷骨科醫(yī)院有限責(zé)任公司，本文標(biāo)題：《AI機(jī)器人會(huì)考試，不會(huì)看病》

wuxinyun 606篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會(huì)改變你的人生！

? 2025年3月 ?
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

最近發(fā)表

文章目錄

Top

<address id="83ens"><var id="83ens"><center id="83ens"></center></var></address>

<dfn id="83ens"></dfn>