成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

螞蟻專用模型超越o3!僅用2K訓(xùn)練樣本刷新醫(yī)療AI榜單紀(jì)錄

0
分享至

MedResearcher-R1團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

不卷參數(shù)的專業(yè)模型,會(huì)不會(huì)被通用大模型取代?

醫(yī)療領(lǐng)域,這個(gè)疑問正在被打破。

螞蟻集團(tuán)聯(lián)合研究團(tuán)隊(duì)發(fā)布的《MedResearcher-R1: Expert-Level Medical Deep Researcher》技術(shù)報(bào)告,證明了一條關(guān)鍵路徑:專業(yè)開源模型只要做好領(lǐng)域化設(shè)計(jì),有機(jī)會(huì)在垂直賽道上“以小博大”,反超通用大模型。



團(tuán)隊(duì)發(fā)布的醫(yī)學(xué)AI智能體MedResearcher-R1,靠2100條(約2K規(guī)模)訓(xùn)練樣本,在權(quán)威醫(yī)療基準(zhǔn)測試MedBrowseComp上,將復(fù)雜醫(yī)療研究任務(wù)的準(zhǔn)確回答數(shù)量提升至27.5。

刷新該榜單紀(jì)錄的同時(shí),超過o3、Gemini 2.5 Pro等領(lǐng)先通用大模型,突破了此前25.5的業(yè)界準(zhǔn)確回答“卡點(diǎn)”。



讓AI學(xué)會(huì)像醫(yī)學(xué)專家那樣思考
研究背景

現(xiàn)在,基于大語言模型 (LLM) 的Agent已展現(xiàn)出跨越多個(gè)領(lǐng)域的卓越能力。

例如深度研究系統(tǒng)在復(fù)雜信息搜索和合成任務(wù)中就展現(xiàn)了高性能。但它們在醫(yī)療等專業(yè)領(lǐng)域容易出現(xiàn)不同程度的“水土不服”,面對(duì)復(fù)雜醫(yī)療查詢時(shí)也常“掉鏈子”,核心問題就兩個(gè):

  1. 缺“專業(yè)儲(chǔ)備”:通用模型沒有密集的醫(yī)療知識(shí),面對(duì)罕見病、多病癥關(guān)聯(lián)等場景,支撐不了臨床推理;
  2. 缺“精準(zhǔn)工具”:依賴公開網(wǎng)頁搜索的通用工具,要么找不到權(quán)威醫(yī)療數(shù)據(jù),要么被錯(cuò)誤信息干擾,無法保障推理嚴(yán)謹(jǐn)性。

而MedResearcher-R1的突破源于數(shù)據(jù)、工具、訓(xùn)練方法三大核心創(chuàng)新。

據(jù)此,螞蟻團(tuán)隊(duì)提出了知識(shí)指引下的軌跡合成框架(KISA),在12個(gè)醫(yī)學(xué)專業(yè)領(lǐng)域生成了2100多條不同的軌跡,每條軌跡平均與4.2個(gè)工具交互,為構(gòu)建“專家級(jí)AI醫(yī)療研究員”提供了全新范式

三大核心技術(shù):不堆參數(shù),只做 “精準(zhǔn)突破”

MedResearcher-R1沒有走“堆參數(shù)、喂海量數(shù)據(jù)”的老路,而是從“讓AI學(xué)會(huì)像醫(yī)學(xué)專家那樣思考”出發(fā),做了三個(gè)關(guān)鍵設(shè)計(jì):

1. 主動(dòng) “造難題”:從3000萬文獻(xiàn)里煉出“4.2步推理題”

傳統(tǒng)AI訓(xùn)練靠“啃現(xiàn)成數(shù)據(jù)”,而MedResearcher-R1學(xué)會(huì)了“自己造題”,尤其是醫(yī)療領(lǐng)域的“高難度研究型問題”。

研究團(tuán)隊(duì)先從超過3000萬篇醫(yī)學(xué)文獻(xiàn)中,篩選出罕見病、特殊藥理機(jī)制等“冷門但關(guān)鍵”的醫(yī)學(xué)實(shí)體,再圍繞這些實(shí)體搭建知識(shí)圖譜。

最核心的一步是:從知識(shí)圖譜里提取“最長推理路徑”——比如“罕見遺傳病→關(guān)聯(lián)基因→靶向藥物→代謝副作用”的多環(huán)節(jié)鏈條,最終生成需要平均調(diào)用4.2次工具才能解決的復(fù)雜問題。

這意味著AI訓(xùn)練時(shí)學(xué)的不是“翻書查答案”,而是“拆解問題、逐步驗(yàn)證”的專家級(jí)思維,比如面對(duì)“某罕見心臟病的用藥副作用”,它會(huì)主動(dòng)追溯藥物機(jī)制、臨床數(shù)據(jù),而非直接套模板回答。



2. 專屬“工具箱”:不囿于公開搜索,直連權(quán)威醫(yī)療數(shù)據(jù)源

通用領(lǐng)域Deep Research Agent的“軟肋”之一,是只能依賴公開網(wǎng)頁搜索。

在醫(yī)療場景里,未經(jīng)篩選的網(wǎng)絡(luò)公開檢索信息不僅可能過時(shí),還可能混雜非臨床級(jí)數(shù)據(jù)。

MedResearcher-R1直接配備了私有化部署的醫(yī)療專用工具集:通過直接訪問國際醫(yī)療指南、核心醫(yī)學(xué)期刊等一手權(quán)威信源,盡可能從根源上避免“信息噪音”。

比如在回答“某藥物成分”時(shí),它會(huì)直接調(diào)取官方藥品注冊數(shù)據(jù),而非依賴可能出錯(cuò)的公開科普;驗(yàn)證“藥物副作用”時(shí),會(huì)對(duì)接臨床驗(yàn)證結(jié)果,確保每一步推理都有權(quán)威依據(jù)。

3. 不教“背誦”教“思考”:「蒙版軌跡引導(dǎo)(Masked Trajectory Guidance)」技術(shù)“逼”出AI的自主能力

怕AI“死記硬背”?MedResearcher-R1的訓(xùn)練方法直接改道而行。



研究團(tuán)隊(duì)用了一種“蒙版軌跡引導(dǎo)(Masked Trajectory Guidance)”技術(shù):訓(xùn)練時(shí)只給 AI一個(gè)“推理框架”(比如“疾病→藥物→副作用”的邏輯鏈),但隱藏關(guān)鍵實(shí)體信息(比如具體疾病名稱、藥物成分)。

這就逼著AI必須主動(dòng)調(diào)用工具:查疾病指南確認(rèn)病癥、搜藥品數(shù)據(jù)庫匹配成分、驗(yàn)臨床數(shù)據(jù)驗(yàn)證副作用,最終自己“拼出”完整推理鏈。

這種訓(xùn)練不是“喂答案”,而是“教方法”——最終提升了小模型的泛化能力,在面對(duì)沒見過的新醫(yī)療問題,也能像人類研究員一樣自主拆解、驗(yàn)證。

舉個(gè)具體例子:當(dāng)被問及“某藥物的活性成分(需滿足質(zhì)數(shù)劑量、受體拮抗機(jī)制等多條件)”時(shí),通用AI通常會(huì)根據(jù)各種公開信息進(jìn)行全面整理給出不同答案;

而MedResearcher-R1會(huì)先查企業(yè)史鎖定藥企,再調(diào)取藥物信息,接著驗(yàn)證成分的化學(xué)結(jié)構(gòu)與受體機(jī)制,最后確認(rèn)副作用 ——整套流程復(fù)刻人類醫(yī)學(xué)研究員的工作邏輯,最終給出具體藥物名稱。

既要追求專業(yè),還要“不偏科”

更值得注意的是,螞蟻還在攻克其專業(yè)模型的 “通用研究能力”提升,試圖打破“專業(yè)模型只能干一行”的刻板印象。

從GAIA、xBench等通用AI助手基準(zhǔn)測試結(jié)果來看,MedResearcher-R1的表現(xiàn)也保持業(yè)界前列,初步驗(yàn)證小規(guī)模模型可以同時(shí)兼具“領(lǐng)域深度”和“通用廣度”,避免因?yàn)椤皩>t(yī)療”而變成“偏科生”。

MedResearcher-R1等專業(yè)模型發(fā)展的意義,不在于一次次測試結(jié)果,而是驗(yàn)證另一種可能性:在醫(yī)療、法律、工業(yè)等專業(yè)領(lǐng)域,“參數(shù)規(guī)?!辈皇俏ㄒ唤馑?,“Agentic Data”才是破局關(guān)鍵——通過精準(zhǔn)的數(shù)據(jù)源搭建、專用工具開發(fā)、創(chuàng)新訓(xùn)練方法,小規(guī)模模型有機(jī)會(huì)能啃下硬骨頭。

在容錯(cuò)率極低的醫(yī)療領(lǐng)域,專業(yè)模型仍然需要不斷提升可解釋性、合規(guī)性等,這也是行業(yè)未來面臨的共同挑戰(zhàn)。

目前,研究團(tuán)隊(duì)已宣布將MedResearcher-R1的代碼和數(shù)據(jù)集開源,希望在推動(dòng)全球研究者在該領(lǐng)域的協(xié)同創(chuàng)新,加速開發(fā)能夠輔助人類專家、提升醫(yī)療研究效率與質(zhì)量的下一代AI工具。

感興趣的朋友可通過官網(wǎng)鏈接直接體驗(yàn)。

官網(wǎng)鏈接:https://chat.antaq.com/
報(bào)告地址:https://arxiv.org/abs/2508.14880

— 完 —

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
街頭無規(guī)則限制,散打高手打得過身經(jīng)百戰(zhàn)的地痞流氓嗎?網(wǎng)友解密

街頭無規(guī)則限制,散打高手打得過身經(jīng)百戰(zhàn)的地痞流氓嗎?網(wǎng)友解密

帶你感受人間冷暖
2025-08-30 00:20:05
林心如馬爾代夫度假照曝光!網(wǎng)友驚嘆:這身材太驚艷?

林心如馬爾代夫度假照曝光!網(wǎng)友驚嘆:這身材太驚艷?

娛樂領(lǐng)航家
2025-08-29 21:00:03
格力揭秘:千元空調(diào)的真相,我差點(diǎn)被小米的“技術(shù)逆襲”所騙

格力揭秘:千元空調(diào)的真相,我差點(diǎn)被小米的“技術(shù)逆襲”所騙

輝哥說動(dòng)漫
2025-08-29 09:24:34
爆冷!英超豪強(qiáng)倒下:主場淪陷,連勝被終結(jié),9億歐豪陣也沒用

爆冷!英超豪強(qiáng)倒下:主場淪陷,連勝被終結(jié),9億歐豪陣也沒用

足球狗說
2025-08-30 23:57:26
梁山好漢中,這9人決不可交,現(xiàn)實(shí)遇上要躲開,第九人公認(rèn)最可恨

梁山好漢中,這9人決不可交,現(xiàn)實(shí)遇上要躲開,第九人公認(rèn)最可恨

耳東文史
2025-08-29 00:02:27
他倆準(zhǔn)備離婚!女方已四結(jié)三離

他倆準(zhǔn)備離婚!女方已四結(jié)三離

FM93浙江交通之聲
2025-08-30 12:40:58
賴清德最后通牒,不許馬英九、洪秀柱參加93閱兵,國臺(tái)辦8字定調(diào)

賴清德最后通牒,不許馬英九、洪秀柱參加93閱兵,國臺(tái)辦8字定調(diào)

現(xiàn)代小青青慕慕
2025-08-30 21:53:20
中國工程鬧“烏龍”?本想沙漠種糧保產(chǎn)量,陰差陽錯(cuò)解決世界難題

中國工程鬧“烏龍”?本想沙漠種糧保產(chǎn)量,陰差陽錯(cuò)解決世界難題

禾寒?dāng)?/span>
2025-08-19 11:10:26
就在今天!8月31日02:36!中央5套CCTV5、CCTV5+直播節(jié)目表

就在今天!8月31日02:36!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2025-08-31 11:15:40
確認(rèn)了!是主持人尼格買提!

確認(rèn)了!是主持人尼格買提!

魯中晨報(bào)
2025-08-30 20:52:28
1983年南陽慘?。旱弥龃蛩赖那嗄晟矸莺?,局長槍殺女婿后自盡

1983年南陽慘?。旱弥龃蛩赖那嗄晟矸莺螅珠L槍殺女婿后自盡

八哥講故事
2024-01-16 00:11:39
新一代輕型護(hù)衛(wèi)艦,2000噸級(jí),替換056A型,到底有多強(qiáng)悍?

新一代輕型護(hù)衛(wèi)艦,2000噸級(jí),替換056A型,到底有多強(qiáng)悍?

萬里繁華
2025-08-31 11:09:29
金正恩還沒抵華,9國高層拒參閱兵,中方送出一句話,信號(hào)不簡單

金正恩還沒抵華,9國高層拒參閱兵,中方送出一句話,信號(hào)不簡單

通文知史
2025-08-30 12:35:03
朱國華被槍斃后,康克清震怒:你們出了問題,都是在折騰你們爺爺

朱國華被槍斃后,康克清震怒:你們出了問題,都是在折騰你們爺爺

浩舞默畫
2025-08-26 03:10:03
中俄印三巨頭到齊,俄羅斯想了27年的事,普京在中國能否實(shí)現(xiàn)?

中俄印三巨頭到齊,俄羅斯想了27年的事,普京在中國能否實(shí)現(xiàn)?

通文知史
2025-08-30 13:55:02
醫(yī)生告誡:一旦確診頸動(dòng)脈斑塊,4種食物必須戒掉,避免斑塊增大

醫(yī)生告誡:一旦確診頸動(dòng)脈斑塊,4種食物必須戒掉,避免斑塊增大

健身狂人
2025-08-30 13:58:56
果然,李嘉誠反擊了

果然,李嘉誠反擊了

妮妮玩不夠
2025-05-28 12:22:04
匠妹 Sabrina Carpenter 打臉整個(gè)樂評(píng)圈!

匠妹 Sabrina Carpenter 打臉整個(gè)樂評(píng)圈!

下水道男孩
2025-08-30 23:55:40
新兵被開除軍籍,問連長知道他爺爺是誰嗎,連長譏笑:誰都沒用

新兵被開除軍籍,問連長知道他爺爺是誰嗎,連長譏笑:誰都沒用

第四思維
2025-08-25 22:11:33
都到了北京邊上了,卻不參加93閱兵,莫迪和埃爾多安在擔(dān)心什么?

都到了北京邊上了,卻不參加93閱兵,莫迪和埃爾多安在擔(dān)心什么?

頭條爆料007
2025-08-30 13:00:12
2025-08-31 15:15:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11216文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機(jī)全面對(duì)比

頭條要聞

老板開免費(fèi)青旅稱自己承擔(dān)房租和水電 已接待4000多人

頭條要聞

老板開免費(fèi)青旅稱自己承擔(dān)房租和水電 已接待4000多人

體育要聞

遼籃官宣:4冠功勛李曉旭續(xù)約迎第21季 新賽季變球員兼教練

娛樂要聞

韓磊起訴后,女方公開道歉

財(cái)經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

房產(chǎn)
親子
健康
手機(jī)
公開課

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

親子要聞

深度科普:人類卵子體積是精子的千萬倍,還會(huì)主動(dòng)選擇心儀的精子

精神科專家解答學(xué)習(xí)困難七大問題

手機(jī)要聞

三星稱王,小米第二,榮耀沖進(jìn)第四

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版