成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

杜克大學(xué)與Zoom推出LiveMCP?101:GPT?5表現(xiàn)出色但仍未破60%

0
分享至



研究概要:杜克大學(xué)與 Zoom 的研究者們推出了 LiveMCP-101,這是首個(gè)專門針對(duì)真實(shí)動(dòng)態(tài)環(huán)境設(shè)計(jì)的 MCP-enabled Agent 評(píng)測(cè)基準(zhǔn)。該基準(zhǔn)包含 101 個(gè)精心設(shè)計(jì)的任務(wù),涵蓋旅行規(guī)劃,體育娛樂,軟件工程等多種不同場(chǎng)景,要求 Agent 在多步驟、多工具協(xié)同的場(chǎng)景下完成任務(wù)。實(shí)驗(yàn)結(jié)果顯示,即使是最先進(jìn)的模型在該基準(zhǔn)上的成功率仍低于 60%,揭示了當(dāng)前 LLM Agent 在實(shí)際部署中面臨的關(guān)鍵挑戰(zhàn)。通過細(xì)粒度的失敗模式分析與 Token 效率分析,研究為提升 Agent 的 MCP 工具調(diào)用能力與 token 利用效率提供了明確的改進(jìn)方向。第一作者是杜克大學(xué)的博士生 Ming Yin, 導(dǎo)師是 Yiran Chen 教授。該工作是在 zoom 實(shí)習(xí)期間完成。



論文鏈接:https://arxiv.org/pdf/2508.15760

1. 研究背景與動(dòng)機(jī)

MCP 的興起:外部工具交互能力已成為 AI Agent 的核心,使其能夠超越靜態(tài)知識(shí),動(dòng)態(tài)地與真實(shí)世界交互。Model Context Protocol (MCP) 的出現(xiàn)標(biāo)準(zhǔn)化了模型與工具的集成。

現(xiàn)有評(píng)測(cè)的局限:當(dāng)前基準(zhǔn)多聚焦于單步工具調(diào)用、合成環(huán)境或有限工具集,無(wú)法捕捉真實(shí)場(chǎng)景的復(fù)雜性和動(dòng)態(tài)性。在實(shí)際應(yīng)用中,代理必須與可能隨時(shí)間變化響應(yīng)的實(shí)用工具交互,跨越完全不同的領(lǐng)域。

用戶查詢的復(fù)雜性:現(xiàn)實(shí)中的用戶查詢往往帶有細(xì)致的上下文和特定約束,需要跨越多次工具調(diào)用的精確推理才能完成任務(wù)。這要求代理不僅知道使用哪個(gè)工具,還要知道何時(shí)以及如何在不斷演變的任務(wù)狀態(tài)中組合這些工具。

評(píng)測(cè)挑戰(zhàn):理解代理在現(xiàn)實(shí)、時(shí)間演進(jìn)的生產(chǎn)環(huán)境中為何失敗,能夠?yàn)楦倪M(jìn)相應(yīng)的模型和系統(tǒng)架構(gòu)提供寶貴見解。然而,現(xiàn)有基準(zhǔn)無(wú)法完全揭示當(dāng)前代理系統(tǒng)在真實(shí)生產(chǎn)環(huán)境部署時(shí)的差距。

2. 基準(zhǔn)與方法

2.1 任務(wù)集

共 101 個(gè)高質(zhì)量任務(wù),經(jīng)多輪 LLM 改寫與人工審校;覆蓋 41 個(gè) MCP 服務(wù)器、260 個(gè)工具;分為 Easy, Medium, Hard 三檔難度,涵蓋從基礎(chǔ)工具調(diào)用到復(fù)雜多步推理的任務(wù)。





2.2 執(zhí)行計(jì)劃生成與驗(yàn)證

Reference Agent 機(jī)制:Reference Agent(參考代理)是評(píng)測(cè)框架的核心組件,它是一個(gè)專門配置用于嚴(yán)格遵循預(yù)定義執(zhí)行計(jì)劃的代理。與被測(cè)代理需要自主決策不同,Reference Agent 被明確指示按照已驗(yàn)證的執(zhí)行計(jì)劃逐步執(zhí)行,僅使用計(jì)劃中指定的 MCP 工具和參數(shù)。這種設(shè)計(jì)確保了在動(dòng)態(tài)環(huán)境中能夠產(chǎn)生穩(wěn)定、可重現(xiàn)的參考結(jié)果,為公平評(píng)測(cè)提供可靠基準(zhǔn)。

金標(biāo)執(zhí)行鏈構(gòu)建:針對(duì)真實(shí)環(huán)境中工具響應(yīng)隨時(shí)間變化的挑戰(zhàn),研究團(tuán)隊(duì)為每個(gè)任務(wù)創(chuàng)建了詳細(xì)的執(zhí)行計(jì)劃。首先使用 o3 模型基于查詢和工具規(guī)范起草計(jì)劃,隨后結(jié)合參考代理的執(zhí)行軌跡和輸出,通過 LLM 輔助編輯與人工調(diào)整相結(jié)合的方式,修正邏輯錯(cuò)誤、工具選擇、參數(shù)化和數(shù)據(jù)處理錯(cuò)誤。

嚴(yán)格驗(yàn)證流程:整個(gè)修訂過程耗費(fèi)約 120 PhD hours,每個(gè)任務(wù)都經(jīng)過多次試驗(yàn)驗(yàn)證,人工確認(rèn)正確性。最終的執(zhí)行計(jì)劃能夠確定性地產(chǎn)生參考輸出,工具鏈長(zhǎng)度分布平均為 5.4 次調(diào)用,最長(zhǎng)達(dá) 15 次。

2.3 創(chuàng)新性并行雙軌評(píng)測(cè)框架

時(shí)間漂移解決方案:為解決在線服務(wù)響應(yīng)隨時(shí)間變化的問題,研究提出并行雙執(zhí)行方案:

  • 參考代理執(zhí)行:參考代理嚴(yán)格按照已驗(yàn)證的執(zhí)行計(jì)劃,僅使用計(jì)劃中指定的 MCP 工具產(chǎn)生參考輸出
  • 被測(cè)代理執(zhí)行:被評(píng)估代理僅接收自然語(yǔ)言查詢和預(yù)定義的任務(wù)工具池,必須獨(dú)立分析查詢、選擇工具、調(diào)度調(diào)用并處理中間結(jié)果

工具池挑戰(zhàn)設(shè)計(jì):每個(gè)任務(wù)的工具池包含所有必需工具加上額外的 MCP 工具(單任務(wù)總共 76-125 個(gè)工具),模擬真實(shí)世界的選擇廣度,評(píng)估工具發(fā)現(xiàn)和在干擾項(xiàng)下的選擇能力。

2.4 多維度評(píng)價(jià)指標(biāo)體系

雙重評(píng)分機(jī)制:采用 LLM-as-judge(GPT-4.1)對(duì)被測(cè)代理的結(jié)果和執(zhí)行軌跡分別評(píng)分:

  • 結(jié)果指標(biāo):任務(wù)成功率(TSR)- 得分為 1.0 的實(shí)例比例;平均結(jié)果分(ARS)- 所有實(shí)例得分的算術(shù)平均
  • 軌跡指標(biāo):平均軌跡分(ATS)- 評(píng)估執(zhí)行軌跡的邏輯一致性、完整性和正確性
  • 效率指標(biāo):另外,還統(tǒng)計(jì)了平均 Token 消耗和平均工具調(diào)用數(shù),衡量 Agent 的資源利用效率

人類一致性驗(yàn)證:通過對(duì)六個(gè)代表性模型進(jìn)行分層抽樣的盲評(píng)實(shí)驗(yàn),驗(yàn)證 LLM 評(píng)審的可靠性,顯示與人類專家的一致性在結(jié)果評(píng)審上達(dá)到 κ > 85%,軌跡評(píng)審上達(dá)到 κ > 78%。



3. 主要發(fā)現(xiàn)

3.1 模型性能分層明顯

整體表現(xiàn):在 18 個(gè)評(píng)測(cè)模型中,GPT-5 以 58.42% 的總體成功率領(lǐng)先,其次是 o3 (46.53%)、GPT-5-mini (43.56%) 和開啟擴(kuò)展思考的 Claude-4.1-Opus (41.58%)。這表明即使是最先進(jìn)的模型,在復(fù)雜多步工具編排任務(wù)上仍有很大提升空間。

難度梯度影響:隨著任務(wù)難度提升,所有模型性能顯著下降。在 Easy 任務(wù)上,GPT-5 達(dá)到 86.67% 成功率,但在 Hard 任務(wù)上僅為 39.02%。這種急劇下降揭示了當(dāng)前模型在處理復(fù)雜約束和長(zhǎng)鏈推理時(shí)的局限性。開源與閉源差距:開源模型明顯落后,最好的 Qwen3-235B-A22B 僅達(dá)到 22.77% 成功率,而 Llama 系列表現(xiàn)尤其不佳(Llama-3.3-70B 僅 1.98%),暴露出在 MCP 工具調(diào)用訓(xùn)練上的不足。



3.2 執(zhí)行質(zhì)量與結(jié)果的強(qiáng)相關(guān)性

研究發(fā)現(xiàn)軌跡質(zhì)量(ATS)與任務(wù)成功率(TSR)和平均結(jié)果分(ARS)呈現(xiàn)顯著正相關(guān)。這一發(fā)現(xiàn)強(qiáng)調(diào)了 "過程正確性" 對(duì)最終結(jié)果的決定性影響。

3.3 Token 效率的對(duì)數(shù)規(guī)律

閉源模型的效率曲線:研究發(fā)現(xiàn)閉源模型展現(xiàn)出獨(dú)特的對(duì)數(shù)型 Token 效率模式 —— 在低 Token 預(yù)算下任務(wù)成功率快速提升,隨后迅速進(jìn)入平臺(tái)期。這表明早期 Token 主要用于高價(jià)值操作(規(guī)劃、關(guān)鍵工具探測(cè)、約束驗(yàn)證),而額外的 Token 多帶來冗余(更長(zhǎng)的解釋、重復(fù)的自檢)而非新的有效證據(jù)。

開源模型的效率困境:相比之下,開源模型即使使用相當(dāng)或更多的 Token,成功率提升依然有限。Llama 系列傾向于過早停止探索,而部分 Qwen 模型雖然產(chǎn)生更長(zhǎng)輸出和更多工具調(diào)用,但未能轉(zhuǎn)化為相應(yīng)的性能提升。

擴(kuò)展思考的價(jià)值:?jiǎn)⒂脭U(kuò)展思考(Extended Thinking)的 Claude 系列模型在相似 Token 預(yù)算下持續(xù)展現(xiàn)更好的性能,表明改進(jìn)來自更好的規(guī)劃和錯(cuò)誤恢復(fù),而非簡(jiǎn)單的輸出冗長(zhǎng)。



3.4 系統(tǒng)性失敗模式分析

通過對(duì)執(zhí)行日志的深入分析,研究識(shí)別出三大類七種具體失敗模式:

工具規(guī)劃與編排錯(cuò)誤(占比最高):

  • 忽略需求:完全錯(cuò)過任務(wù)中的明確要求,未調(diào)用相關(guān)工具
  • 過度自信自解:依賴內(nèi)部知識(shí)而非調(diào)用必要工具
  • 無(wú)效循環(huán):識(shí)別到需要工具但陷入無(wú)產(chǎn)出的思考循環(huán),未調(diào)用相關(guān)工具
  • 錯(cuò)誤工具選擇:調(diào)用了不適當(dāng)?shù)墓ぞ邔?dǎo)致錯(cuò)誤結(jié)果

參數(shù)錯(cuò)誤(核心瓶頸):

  • 語(yǔ)法錯(cuò)誤(參數(shù)格式錯(cuò)誤):在 Llama-3.3-70B-Instruct 中高達(dá) 48%,顯示 MCP 特定訓(xùn)練的缺失
  • 語(yǔ)義錯(cuò)誤(參數(shù)內(nèi)容錯(cuò)誤):即使強(qiáng)模型也有 16-25% 的語(yǔ)義參數(shù)錯(cuò)誤率。

輸出處理錯(cuò)誤:工具返回正確結(jié)果但在解析或轉(zhuǎn)換時(shí)出錯(cuò)



5. 與既有工作的差異

更貼近生產(chǎn)實(shí)況:更大工具池與干擾工具設(shè)置,充分暴露長(zhǎng)上下文與選擇噪聲下的魯棒性問題。

更高難度與更細(xì)金標(biāo):平均 5.4 次調(diào)用(最長(zhǎng) 15),顯著區(qū)分模型層級(jí);金標(biāo)執(zhí)行鏈包含詳細(xì)參數(shù)與步驟,評(píng)分更一致、更接近人工判斷。

更強(qiáng)診斷性:并行得到 “參考軌跡 vs. 被測(cè)軌跡”,可精確定位 “錯(cuò)在計(jì)劃、參數(shù)還是后處理”,可以指導(dǎo)工程優(yōu)化。

6. 總結(jié)與展望

LiveMCP-101 為評(píng)測(cè) AI Agent 在真實(shí)動(dòng)態(tài)環(huán)境中的多步工具使用能力建立了嚴(yán)格且可擴(kuò)展的評(píng)測(cè)框架。通過 101 個(gè)涵蓋多領(lǐng)域的精心設(shè)計(jì)任務(wù),配合基于執(zhí)行計(jì)劃的創(chuàng)新評(píng)測(cè)方法,研究揭示了即使是最先進(jìn)的大語(yǔ)言模型在工具編排、參數(shù)推理和 Token 效率方面仍面臨重大挑戰(zhàn)。不僅診斷了當(dāng)前系統(tǒng)的不足,更為開發(fā)更強(qiáng)大的 AI Agent 指明了改進(jìn)方向。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1-1!中超副班長(zhǎng)無(wú)緣3連勝,傅明補(bǔ)時(shí)判點(diǎn)造絕平,保級(jí)4隊(duì)僅差1分

1-1!中超副班長(zhǎng)無(wú)緣3連勝,傅明補(bǔ)時(shí)判點(diǎn)造絕平,保級(jí)4隊(duì)僅差1分

環(huán)太平洋老正太
2025-08-30 22:06:07
有高人預(yù)測(cè):2025下半年,若不出大意外,國(guó)內(nèi)將發(fā)生這6大變化!

有高人預(yù)測(cè):2025下半年,若不出大意外,國(guó)內(nèi)將發(fā)生這6大變化!

裝修秀
2025-08-18 12:00:03
曼聯(lián)3-2伯恩利!B費(fèi)點(diǎn)球絕殺,2次領(lǐng)先2次扳平,阿莫林向梅努妥協(xié)

曼聯(lián)3-2伯恩利!B費(fèi)點(diǎn)球絕殺,2次領(lǐng)先2次扳平,阿莫林向梅努妥協(xié)

卡靈頓分析師
2025-08-31 00:38:00
為什么女人出軌第一次發(fā)生關(guān)系非常難,后面就會(huì)越來越容易?

為什么女人出軌第一次發(fā)生關(guān)系非常難,后面就會(huì)越來越容易?

素然追光
2025-06-23 02:10:05
CBA衛(wèi)冕冠軍首秀!廣廈3分險(xiǎn)勝獲開門紅:胡金秋缺席趙嘉仁20分

CBA衛(wèi)冕冠軍首秀!廣廈3分險(xiǎn)勝獲開門紅:胡金秋缺席趙嘉仁20分

籃球快餐車
2025-08-31 03:17:00
發(fā)現(xiàn)了沒有?為啥二手車市場(chǎng)幾乎都是九成新的車??jī)r(jià)格卻很便宜?

發(fā)現(xiàn)了沒有?為啥二手車市場(chǎng)幾乎都是九成新的車??jī)r(jià)格卻很便宜?

侃故事的阿慶
2025-08-30 21:48:42
下課僅1天,62歲穆帥基本敲定新東家:將重返英超 雙方已開始談判

下課僅1天,62歲穆帥基本敲定新東家:將重返英超 雙方已開始談判

風(fēng)過鄉(xiāng)
2025-08-30 10:23:51
河北孟村被害女子發(fā)送已畢,婆婆應(yīng)該不是加害者

河北孟村被害女子發(fā)送已畢,婆婆應(yīng)該不是加害者

九方魚論
2025-08-30 10:18:53
無(wú)錫隊(duì)贏啦!

無(wú)錫隊(duì)贏啦!

最江陰
2025-08-30 21:43:32
全家開撕!貝克漢姆小兒子發(fā)布尖銳言論,三兒子已互相取消關(guān)注

全家開撕!貝克漢姆小兒子發(fā)布尖銳言論,三兒子已互相取消關(guān)注

揚(yáng)天下聲
2025-07-31 11:46:44
從全球第一到落寞,中國(guó)在此行業(yè)栽了跟頭,18家國(guó)企“覆沒”

從全球第一到落寞,中國(guó)在此行業(yè)栽了跟頭,18家國(guó)企“覆沒”

月凌渡
2025-08-27 17:37:11
中超球員來助戰(zhàn)!黃紫昌今晚代表常州隊(duì)首發(fā),上演“蘇超”首秀

中超球員來助戰(zhàn)!黃紫昌今晚代表常州隊(duì)首發(fā),上演“蘇超”首秀

直播吧
2025-08-30 19:05:39
西熱力江:新疆給趙睿720萬(wàn)頂薪都留不住 應(yīng)該拿他去換曾凡博廖三寧

西熱力江:新疆給趙睿720萬(wàn)頂薪都留不住 應(yīng)該拿他去換曾凡博廖三寧

818體育
2025-08-30 15:05:16
大跳水!暴跌,又土又貴還開遍機(jī)場(chǎng),中產(chǎn)的標(biāo)配,賣不動(dòng)了

大跳水!暴跌,又土又貴還開遍機(jī)場(chǎng),中產(chǎn)的標(biāo)配,賣不動(dòng)了

滄海旅行家
2025-08-28 15:27:26
13歲男孩找手機(jī)失聯(lián)后續(xù):曝人已不在,家庭情況被扒 更多細(xì)節(jié)曝光

13歲男孩找手機(jī)失聯(lián)后續(xù):曝人已不在,家庭情況被扒 更多細(xì)節(jié)曝光

前沿天地
2025-08-30 21:46:12
內(nèi)塔尼亞胡闖下大禍!以軍殺了不該殺的人,這回連美國(guó)都救不了

內(nèi)塔尼亞胡闖下大禍!以軍殺了不該殺的人,這回連美國(guó)都救不了

現(xiàn)代小青青慕慕
2025-08-30 15:47:38
豐田打響“第一槍”,從45萬(wàn)跌至23萬(wàn),長(zhǎng)超5米1的大7座,油耗5L

豐田打響“第一槍”,從45萬(wàn)跌至23萬(wàn),長(zhǎng)超5米1的大7座,油耗5L

鹿鹿156
2025-08-30 14:31:55
CBA深夜重磅簽約!場(chǎng)均36分6板外援加盟廣東:宏遠(yuǎn)沖第12冠穩(wěn)了?

CBA深夜重磅簽約!場(chǎng)均36分6板外援加盟廣東:宏遠(yuǎn)沖第12冠穩(wěn)了?

籃球快餐車
2025-08-31 03:20:09
軍事專家戴旭:目前全世界沒有一個(gè)國(guó)家,在軍事方面敢和中國(guó)較量

軍事專家戴旭:目前全世界沒有一個(gè)國(guó)家,在軍事方面敢和中國(guó)較量

壹知眠羊
2025-08-30 21:15:14
美軍七艦壓境委內(nèi)瑞拉,還有一艘核潛艇!緝毒還是“入侵”?專家:一個(gè)打破“沉默”的細(xì)節(jié)耐人尋味

美軍七艦壓境委內(nèi)瑞拉,還有一艘核潛艇!緝毒還是“入侵”?專家:一個(gè)打破“沉默”的細(xì)節(jié)耐人尋味

紅星新聞
2025-08-30 18:01:23
2025-08-31 06:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國(guó)靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

教育
健康
數(shù)碼
家居
公開課

教育要聞

5w基礎(chǔ),答案就不基礎(chǔ)。

精神科專家解答學(xué)習(xí)困難七大問題

數(shù)碼要聞

英特爾 Arc Pro B50 首個(gè) Geekbench 跑分出爐,低于銳炫 B570

家居要聞

提升功能 靈活居住環(huán)境

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版