成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5超越人類醫(yī)生!推理能力比專家高出24%,理解力強29%

0
分享至

聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

GPT-5比人類醫(yī)生還會看X光片?!

最新研究顯示,GPT-5對醫(yī)學(xué)影像的推理和理解準(zhǔn)確率分別比人類專家高出24.23%和29.40%



來自埃默里大學(xué)醫(yī)學(xué)院的研究團隊把GPT-5和GPT-4o以及更小的GPT-5變體(GPT-5-mini、GPT-5-nano)進行了比較,分析它們在醫(yī)療領(lǐng)域處理多模態(tài)信息的能力。



通過一系列標(biāo)準(zhǔn)化測試發(fā)現(xiàn)GPT-5在所有測試中的表現(xiàn)都比其他模型好,尤其是在MedXpertQA的多模態(tài)測試中,它的推理和理解得分比GPT-4o分別提高了近30%36%,甚至比人類醫(yī)生還高。



AI看病歷常見,可是比人類醫(yī)生還會看就不常見了,所以GPT-5是怎么做到的?

AI在多模態(tài)醫(yī)學(xué)領(lǐng)域超越人類新手醫(yī)生

研究人員對GPT-5、GPT-4o以及GPT-5的mini和nano版本進行了系統(tǒng)測試。

測試分為三類:純文本的USMLE考試、多模態(tài)的MedXpertQA測試還有還有放射科的VQA-RAD,都是零樣本設(shè)置,不依賴數(shù)據(jù)微調(diào)

USMLE是美國醫(yī)師執(zhí)照考試,有標(biāo)準(zhǔn)化的命題和嚴(yán)格的評分體系,是全球醫(yī)學(xué)教育和人才評估的重要參考基準(zhǔn)。

該考試分為三個步驟:Step1主要考察基礎(chǔ)醫(yī)學(xué)知識,Step2聚焦臨床應(yīng)用知識,Step3側(cè)重實踐。

在此次研究中,GPT-5在USMLE考試中全面超越GPT-4o,且平均得分領(lǐng)先于其他模型。



MedXpertQA測試是一個用于評估模型專家級醫(yī)學(xué)知識與高級推理能力的綜合基準(zhǔn),有文本測試和多模態(tài)測試,共涵蓋4460道題目,涉及17個醫(yī)學(xué)??坪?1個身體系統(tǒng),其數(shù)據(jù)源自超20個美國醫(yī)師執(zhí)照考試、歐洲放射學(xué)委員會考試等權(quán)威內(nèi)容。

其中多模態(tài)的MedXpertQA測試?yán)盟腗M子集展開,MM子集引入了帶有多樣化圖像及豐富臨床信息(病歷、檢查結(jié)果等)的專家級考試題。

為增加難度,多模態(tài)子集的題目還擴充至5個選項,能更有效地評估模型在貼近真實場景下的醫(yī)學(xué)診斷推理能力。

依據(jù)之前的數(shù)據(jù),GPT-5推理和理解得分比GPT-4o分別提高了近30%36%



下圖詳細對比了未取得執(zhí)照的人類專家與GPT-5系列模型及GPT-4o在MedXpertQA測試的文本子集(Text)和多模態(tài)子集(MM)中的表現(xiàn),涵蓋推理、理解及平均三個維度。



在文本測試中,GPT-4o三項得分均低于人類專家,GPT-5-nano同樣全面落后,GPT-5-mini 推理和平均得分略超人類專家,而GPT-5表現(xiàn)最優(yōu),得分大幅領(lǐng)先。

在多模態(tài)測試中,GPT-4o推理和平均得分略低,GPT-5-nano整體與人類專家持平,GPT-5-mini大幅超越人類專家,GPT-5優(yōu)勢最為顯著,推理超人類專家24%、理解得超人類專家29%,展現(xiàn)出強大的多模態(tài)醫(yī)學(xué)推理能力。

VQA-RAD測試是醫(yī)學(xué)視覺問答測試,該數(shù)據(jù)集包含315張放射影像以及與之對應(yīng)的3515個問答對。常用于評估醫(yī)學(xué)多模態(tài)大語言模型解讀復(fù)雜醫(yī)學(xué)圖像并生成準(zhǔn)確文本描述的能力。

在此次研究中,GPT-5的匹配率為70.92%,高于GPT-4o及小變體GPT-5-nano,而其輕量化變體GPT-5-mini的表現(xiàn)略優(yōu),嚴(yán)格匹配率達到74.90%。



考慮到VQA-RAD規(guī)模相對較小且具有放射科專項屬性,這種得分差異可能源于較小模型存在數(shù)據(jù)集特定的過擬合現(xiàn)象。

看了這么多測試結(jié)果,那么GPT-5為什么能全面碾壓前輩GPT-4o呢?

GPT-5構(gòu)建了端到端的多模態(tài)架構(gòu)

團隊認為,GPT-5能力提升核心源于其跨模態(tài)注意力與對齊能力的增強。

GPT-5與GPT-4o的核心差距,本質(zhì)上是從文本主導(dǎo)的混合處理原生多模態(tài)深度融合的代際跨越。

GPT-4o在處理跨模態(tài)任務(wù)時,仍依賴文本轉(zhuǎn)譯+外部工具調(diào)用的間接模式:例如解析醫(yī)學(xué)影像時,需先通過第三方模型將圖像信息轉(zhuǎn)化為文本描述,再基于文本進行推理。

這種模態(tài)轉(zhuǎn)換中介不僅增加了信息損耗(如圖像中的細微病變可能在轉(zhuǎn)譯中被忽略),還導(dǎo)致推理鏈條斷裂——模型難以直接建立影像特征-病理機制-治療方案的因果關(guān)聯(lián)。

GPT-5構(gòu)建了端到端的多模態(tài)架構(gòu):通過共享標(biāo)記化技術(shù),將文本、影像、音頻等信息編碼為統(tǒng)一向量空間的符號,再借助跨模態(tài)注意力機制實現(xiàn)感知-推理-決策的無縫銜接。

并且,團隊認為在MedXpertQA Text、USMLE Step 2這樣的推理密集型任務(wù)中,GPT-5的進步更突出是因為思維鏈提示與GPT-5增強的內(nèi)部推理能力形成了協(xié)同效應(yīng),使其能更準(zhǔn)確地完成多步推理。

不過研究人員也指出,盡管GPT-5在標(biāo)準(zhǔn)測試中表現(xiàn)優(yōu)秀,但要說明的是,這些測試都是在理想環(huán)境下進行的,題目和數(shù)據(jù)都是標(biāo)準(zhǔn)化的,現(xiàn)實中患者的情況千奇百怪,還可能遇到各種突發(fā)狀況。

所以,GPT-5要真走進診室當(dāng)助理,還得經(jīng)過更多實戰(zhàn)考驗。

這不,KCDH_A數(shù)字健康研究中心對AI進行了放射科的終極考試,這是一項AI從未見過的、跨模態(tài)的檢測任務(wù),涵蓋了CT、MRI和X光,模擬日常實踐中實際遇到的復(fù)雜真實病例。

測試結(jié)果顯示,所有AI模型得分均低于實習(xí)醫(yī)生,而擁有執(zhí)業(yè)資格的放射科醫(yī)生比AI領(lǐng)先更多,雖然GPT-5剛剛進入頂尖AI的位置,但也遠低于人類。



該實驗室的研究人員表示:

雖然我對AI發(fā)展感到興奮,我們實驗室也在每天使用AI模型,但AI取代放射科醫(yī)生與現(xiàn)實的差距仍然很大。

由此可見,AI獨自看病歷之前,還是得先磨練磨練。

論文地址:https://arxiv.org/abs/2508.08224


[1]https://x.com/omarsar0/status/1955252499142627788
[2]https://x.com/emollick/status/1955381296743715241
[3]https://x.com/DrDatta_AIIMS/status/1954586822849523789

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
揭秘閱兵裝備:191式步槍為何成為閱兵選定的槍

揭秘閱兵裝備:191式步槍為何成為閱兵選定的槍

極目新聞
2025-08-30 13:15:32
曼聯(lián)vs伯恩利:B費、姆伯莫、芒特首發(fā),巴因迪爾出戰(zhàn)

曼聯(lián)vs伯恩利:B費、姆伯莫、芒特首發(fā),巴因迪爾出戰(zhàn)

懂球帝
2025-08-30 21:00:32
重磅!國產(chǎn)“偉哥”獲批!源自傳統(tǒng)藥物,10分鐘起效,安全性更高

重磅!國產(chǎn)“偉哥”獲批!源自傳統(tǒng)藥物,10分鐘起效,安全性更高

中醫(yī)燕麗娜醫(yī)生
2025-08-30 12:05:02
要訪華的莫迪,不在閱兵嘉賓名單上,不是不想來,而是受不了羞辱

要訪華的莫迪,不在閱兵嘉賓名單上,不是不想來,而是受不了羞辱

通文知史
2025-08-29 17:00:03
紅杉資本:AI正在引領(lǐng)一場價值10萬億美元的革命,比工業(yè)革命更宏大

紅杉資本:AI正在引領(lǐng)一場價值10萬億美元的革命,比工業(yè)革命更宏大

華爾街見聞官方
2025-08-29 11:52:26
特變電工:中標(biāo)沙特電力公司164億元采購項目

特變電工:中標(biāo)沙特電力公司164億元采購項目

每日經(jīng)濟新聞
2025-08-29 23:24:06
退休前攢夠這10趟旅行,去過4個就賺了,全走遍這輩子真值!

退休前攢夠這10趟旅行,去過4個就賺了,全走遍這輩子真值!

i書與房
2025-08-28 13:27:09
江蘇通報:吳宏被查

江蘇通報:吳宏被查

揚子晚報
2025-08-30 10:39:55
維埃里:都說意大利沒有優(yōu)秀的年輕球員,但你只需要去發(fā)掘他們

維埃里:都說意大利沒有優(yōu)秀的年輕球員,但你只需要去發(fā)掘他們

直播吧
2025-08-30 20:39:41
國民黨黨主席穩(wěn)了?鄭麗文怒批藍營:不敢認中國人就去民進黨!

國民黨黨主席穩(wěn)了?鄭麗文怒批藍營:不敢認中國人就去民進黨!

影史侃談
2025-08-30 07:21:01
維生素C是蘋果的40倍,秋天要使勁吃它!簡單蒸一蒸出鍋,真香啊

維生素C是蘋果的40倍,秋天要使勁吃它!簡單蒸一蒸出鍋,真香啊

Lily美食談
2025-08-29 13:01:30
“京城四少”汪雨結(jié)婚,二婚迎娶小18歲白富美,曾把李鈺當(dāng)摯愛

“京城四少”汪雨結(jié)婚,二婚迎娶小18歲白富美,曾把李鈺當(dāng)摯愛

跳跳歷史
2025-08-30 12:04:39
涉嫌嚴(yán)重違紀(jì)違法,江蘇3人被查!

涉嫌嚴(yán)重違紀(jì)違法,江蘇3人被查!

微淮安
2025-08-30 19:31:22
交易提速?郭艾倫4換1離隊,王嵐嵚交易揭曉,曾繁日官宣新球隊

交易提速?郭艾倫4換1離隊,王嵐嵚交易揭曉,曾繁日官宣新球隊

東球弟
2025-08-30 08:46:26
王曼昱的閨蜜團太強大了!8大姐妹在場下與她互動,這人緣絕了

王曼昱的閨蜜團太強大了!8大姐妹在場下與她互動,這人緣絕了

越嶺尋蹤
2025-08-28 17:50:03
預(yù)言全中!日本10月屠簽新政:99%中國人將被一夜拉黑!

預(yù)言全中!日本10月屠簽新政:99%中國人將被一夜拉黑!

米宅海外
2025-08-28 08:12:42
趙繼偉曬與張鎮(zhèn)麟&劉雁宇&趙率舟等合照:珍惜眼前 祝健康&順利

趙繼偉曬與張鎮(zhèn)麟&劉雁宇&趙率舟等合照:珍惜眼前 祝健康&順利

直播吧
2025-08-30 20:09:00
“吃飯八分飽”錯了?醫(yī)生建議:過了60歲,吃飯要盡量做到這7點

“吃飯八分飽”錯了?醫(yī)生建議:過了60歲,吃飯要盡量做到這7點

說歷史的老牢
2025-08-30 11:17:31
周勇士任湖北港口集團有限公司黨委書記、董事長

周勇士任湖北港口集團有限公司黨委書記、董事長

澎湃新聞
2025-08-30 19:28:31
中俄印三巨頭到齊,俄羅斯想了27年的事,普京在中國能否實現(xiàn)?

中俄印三巨頭到齊,俄羅斯想了27年的事,普京在中國能否實現(xiàn)?

前沿天地
2025-08-30 20:22:03
2025-08-30 22:07:02
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11215文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

以色列資深外交官:馬克龍早就決定承認巴勒斯坦國了

頭條要聞

以色列資深外交官:馬克龍早就決定承認巴勒斯坦國了

體育要聞

淘汰曼聯(lián)的英乙隊,仍然沒有忘記張恩華

娛樂要聞

吳京風(fēng)波拉出多位明星

財經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

輔助駕駛新賽道 理想VLA司機大模型即將全量推送

態(tài)度原創(chuàng)

房產(chǎn)
旅游
親子
家居
公開課

房產(chǎn)要聞

顛覆認知!海口真正的豪宅作品,終于出現(xiàn)了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

爸爸的食堂營業(yè)了,看看都給孩子們做了什么好吃的

家居要聞

提升功能 靈活居住環(huán)境

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版