網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

杜克大學(xué)與Zoom推出LiveMCP?101：GPT?5表現(xiàn)出色但仍未破60%

2025-08-28 18:48:49　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

研究概要：杜克大學(xué)與 Zoom 的研究者們推出了 LiveMCP-101，這是首個(gè)專門針對(duì)真實(shí)動(dòng)態(tài)環(huán)境設(shè)計(jì)的 MCP-enabled Agent 評(píng)測(cè)基準(zhǔn)。該基準(zhǔn)包含 101 個(gè)精心設(shè)計(jì)的任務(wù)，涵蓋旅行規(guī)劃，體育娛樂，軟件工程等多種不同場(chǎng)景，要求 Agent 在多步驟、多工具協(xié)同的場(chǎng)景下完成任務(wù)。實(shí)驗(yàn)結(jié)果顯示，即使是最先進(jìn)的模型在該基準(zhǔn)上的成功率仍低于 60%，揭示了當(dāng)前 LLM Agent 在實(shí)際部署中面臨的關(guān)鍵挑戰(zhàn)。通過細(xì)粒度的失敗模式分析與 Token 效率分析，研究為提升 Agent 的 MCP 工具調(diào)用能力與 token 利用效率提供了明確的改進(jìn)方向。第一作者是杜克大學(xué)的博士生 Ming Yin, 導(dǎo)師是 Yiran Chen 教授。該工作是在 zoom 實(shí)習(xí)期間完成。

論文鏈接：https://arxiv.org/pdf/2508.15760

1. 研究背景與動(dòng)機(jī)

MCP 的興起：外部工具交互能力已成為 AI Agent 的核心，使其能夠超越靜態(tài)知識(shí)，動(dòng)態(tài)地與真實(shí)世界交互。Model Context Protocol (MCP) 的出現(xiàn)標(biāo)準(zhǔn)化了模型與工具的集成。

現(xiàn)有評(píng)測(cè)的局限：當(dāng)前基準(zhǔn)多聚焦于單步工具調(diào)用、合成環(huán)境或有限工具集，無(wú)法捕捉真實(shí)場(chǎng)景的復(fù)雜性和動(dòng)態(tài)性。在實(shí)際應(yīng)用中，代理必須與可能隨時(shí)間變化響應(yīng)的實(shí)用工具交互，跨越完全不同的領(lǐng)域。

用戶查詢的復(fù)雜性：現(xiàn)實(shí)中的用戶查詢往往帶有細(xì)致的上下文和特定約束，需要跨越多次工具調(diào)用的精確推理才能完成任務(wù)。這要求代理不僅知道使用哪個(gè)工具，還要知道何時(shí)以及如何在不斷演變的任務(wù)狀態(tài)中組合這些工具。

評(píng)測(cè)挑戰(zhàn)：理解代理在現(xiàn)實(shí)、時(shí)間演進(jìn)的生產(chǎn)環(huán)境中為何失敗，能夠?yàn)楦倪M(jìn)相應(yīng)的模型和系統(tǒng)架構(gòu)提供寶貴見解。然而，現(xiàn)有基準(zhǔn)無(wú)法完全揭示當(dāng)前代理系統(tǒng)在真實(shí)生產(chǎn)環(huán)境部署時(shí)的差距。

2. 基準(zhǔn)與方法

2.1 任務(wù)集

共 101 個(gè)高質(zhì)量任務(wù)，經(jīng)多輪 LLM 改寫與人工審校；覆蓋 41 個(gè) MCP 服務(wù)器、260 個(gè)工具；分為 Easy, Medium, Hard 三檔難度，涵蓋從基礎(chǔ)工具調(diào)用到復(fù)雜多步推理的任務(wù)。

2.2 執(zhí)行計(jì)劃生成與驗(yàn)證

Reference Agent 機(jī)制：Reference Agent（參考代理）是評(píng)測(cè)框架的核心組件，它是一個(gè)專門配置用于嚴(yán)格遵循預(yù)定義執(zhí)行計(jì)劃的代理。與被測(cè)代理需要自主決策不同，Reference Agent 被明確指示按照已驗(yàn)證的執(zhí)行計(jì)劃逐步執(zhí)行，僅使用計(jì)劃中指定的 MCP 工具和參數(shù)。這種設(shè)計(jì)確保了在動(dòng)態(tài)環(huán)境中能夠產(chǎn)生穩(wěn)定、可重現(xiàn)的參考結(jié)果，為公平評(píng)測(cè)提供可靠基準(zhǔn)。

金標(biāo)執(zhí)行鏈構(gòu)建：針對(duì)真實(shí)環(huán)境中工具響應(yīng)隨時(shí)間變化的挑戰(zhàn)，研究團(tuán)隊(duì)為每個(gè)任務(wù)創(chuàng)建了詳細(xì)的執(zhí)行計(jì)劃。首先使用 o3 模型基于查詢和工具規(guī)范起草計(jì)劃，隨后結(jié)合參考代理的執(zhí)行軌跡和輸出，通過 LLM 輔助編輯與人工調(diào)整相結(jié)合的方式，修正邏輯錯(cuò)誤、工具選擇、參數(shù)化和數(shù)據(jù)處理錯(cuò)誤。

嚴(yán)格驗(yàn)證流程：整個(gè)修訂過程耗費(fèi)約 120 PhD hours，每個(gè)任務(wù)都經(jīng)過多次試驗(yàn)驗(yàn)證，人工確認(rèn)正確性。最終的執(zhí)行計(jì)劃能夠確定性地產(chǎn)生參考輸出，工具鏈長(zhǎng)度分布平均為 5.4 次調(diào)用，最長(zhǎng)達(dá) 15 次。

2.3 創(chuàng)新性并行雙軌評(píng)測(cè)框架

時(shí)間漂移解決方案：為解決在線服務(wù)響應(yīng)隨時(shí)間變化的問題，研究提出并行雙執(zhí)行方案：

參考代理執(zhí)行：參考代理嚴(yán)格按照已驗(yàn)證的執(zhí)行計(jì)劃，僅使用計(jì)劃中指定的 MCP 工具產(chǎn)生參考輸出
被測(cè)代理執(zhí)行：被評(píng)估代理僅接收自然語(yǔ)言查詢和預(yù)定義的任務(wù)工具池，必須獨(dú)立分析查詢、選擇工具、調(diào)度調(diào)用并處理中間結(jié)果

工具池挑戰(zhàn)設(shè)計(jì)：每個(gè)任務(wù)的工具池包含所有必需工具加上額外的 MCP 工具（單任務(wù)總共 76-125 個(gè)工具），模擬真實(shí)世界的選擇廣度，評(píng)估工具發(fā)現(xiàn)和在干擾項(xiàng)下的選擇能力。

2.4 多維度評(píng)價(jià)指標(biāo)體系

雙重評(píng)分機(jī)制：采用 LLM-as-judge（GPT-4.1）對(duì)被測(cè)代理的結(jié)果和執(zhí)行軌跡分別評(píng)分：

結(jié)果指標(biāo)：任務(wù)成功率（TSR）- 得分為 1.0 的實(shí)例比例；平均結(jié)果分（ARS）- 所有實(shí)例得分的算術(shù)平均
軌跡指標(biāo)：平均軌跡分（ATS）- 評(píng)估執(zhí)行軌跡的邏輯一致性、完整性和正確性
效率指標(biāo)：另外，還統(tǒng)計(jì)了平均 Token 消耗和平均工具調(diào)用數(shù)，衡量 Agent 的資源利用效率

人類一致性驗(yàn)證：通過對(duì)六個(gè)代表性模型進(jìn)行分層抽樣的盲評(píng)實(shí)驗(yàn)，驗(yàn)證 LLM 評(píng)審的可靠性，顯示與人類專家的一致性在結(jié)果評(píng)審上達(dá)到 κ > 85%，軌跡評(píng)審上達(dá)到 κ > 78%。

3. 主要發(fā)現(xiàn)

3.1 模型性能分層明顯

整體表現(xiàn)：在 18 個(gè)評(píng)測(cè)模型中，GPT-5 以 58.42% 的總體成功率領(lǐng)先，其次是 o3 (46.53%)、GPT-5-mini (43.56%) 和開啟擴(kuò)展思考的 Claude-4.1-Opus (41.58%)。這表明即使是最先進(jìn)的模型，在復(fù)雜多步工具編排任務(wù)上仍有很大提升空間。

難度梯度影響：隨著任務(wù)難度提升，所有模型性能顯著下降。在 Easy 任務(wù)上，GPT-5 達(dá)到 86.67% 成功率，但在 Hard 任務(wù)上僅為 39.02%。這種急劇下降揭示了當(dāng)前模型在處理復(fù)雜約束和長(zhǎng)鏈推理時(shí)的局限性。開源與閉源差距：開源模型明顯落后，最好的 Qwen3-235B-A22B 僅達(dá)到 22.77% 成功率，而 Llama 系列表現(xiàn)尤其不佳（Llama-3.3-70B 僅 1.98%），暴露出在 MCP 工具調(diào)用訓(xùn)練上的不足。

3.2 執(zhí)行質(zhì)量與結(jié)果的強(qiáng)相關(guān)性

研究發(fā)現(xiàn)軌跡質(zhì)量（ATS）與任務(wù)成功率（TSR）和平均結(jié)果分（ARS）呈現(xiàn)顯著正相關(guān)。這一發(fā)現(xiàn)強(qiáng)調(diào)了 "過程正確性" 對(duì)最終結(jié)果的決定性影響。

3.3 Token 效率的對(duì)數(shù)規(guī)律

閉源模型的效率曲線：研究發(fā)現(xiàn)閉源模型展現(xiàn)出獨(dú)特的對(duì)數(shù)型 Token 效率模式 —— 在低 Token 預(yù)算下任務(wù)成功率快速提升，隨后迅速進(jìn)入平臺(tái)期。這表明早期 Token 主要用于高價(jià)值操作（規(guī)劃、關(guān)鍵工具探測(cè)、約束驗(yàn)證），而額外的 Token 多帶來冗余（更長(zhǎng)的解釋、重復(fù)的自檢）而非新的有效證據(jù)。

開源模型的效率困境：相比之下，開源模型即使使用相當(dāng)或更多的 Token，成功率提升依然有限。Llama 系列傾向于過早停止探索，而部分 Qwen 模型雖然產(chǎn)生更長(zhǎng)輸出和更多工具調(diào)用，但未能轉(zhuǎn)化為相應(yīng)的性能提升。

擴(kuò)展思考的價(jià)值：?jiǎn)⒂脭U(kuò)展思考（Extended Thinking）的 Claude 系列模型在相似 Token 預(yù)算下持續(xù)展現(xiàn)更好的性能，表明改進(jìn)來自更好的規(guī)劃和錯(cuò)誤恢復(fù)，而非簡(jiǎn)單的輸出冗長(zhǎng)。

3.4 系統(tǒng)性失敗模式分析

通過對(duì)執(zhí)行日志的深入分析，研究識(shí)別出三大類七種具體失敗模式：

工具規(guī)劃與編排錯(cuò)誤（占比最高）：

忽略需求：完全錯(cuò)過任務(wù)中的明確要求，未調(diào)用相關(guān)工具
過度自信自解：依賴內(nèi)部知識(shí)而非調(diào)用必要工具
無(wú)效循環(huán)：識(shí)別到需要工具但陷入無(wú)產(chǎn)出的思考循環(huán)，未調(diào)用相關(guān)工具
錯(cuò)誤工具選擇：調(diào)用了不適當(dāng)?shù)墓ぞ邔?dǎo)致錯(cuò)誤結(jié)果

參數(shù)錯(cuò)誤（核心瓶頸）：

語(yǔ)法錯(cuò)誤（參數(shù)格式錯(cuò)誤）：在 Llama-3.3-70B-Instruct 中高達(dá) 48%，顯示 MCP 特定訓(xùn)練的缺失
語(yǔ)義錯(cuò)誤（參數(shù)內(nèi)容錯(cuò)誤）：即使強(qiáng)模型也有 16-25% 的語(yǔ)義參數(shù)錯(cuò)誤率。

輸出處理錯(cuò)誤：工具返回正確結(jié)果但在解析或轉(zhuǎn)換時(shí)出錯(cuò)

5. 與既有工作的差異

更貼近生產(chǎn)實(shí)況：更大工具池與干擾工具設(shè)置，充分暴露長(zhǎng)上下文與選擇噪聲下的魯棒性問題。

更高難度與更細(xì)金標(biāo)：平均 5.4 次調(diào)用（最長(zhǎng) 15），顯著區(qū)分模型層級(jí)；金標(biāo)執(zhí)行鏈包含詳細(xì)參數(shù)與步驟，評(píng)分更一致、更接近人工判斷。

更強(qiáng)診斷性：并行得到 “參考軌跡 vs. 被測(cè)軌跡”，可精確定位 “錯(cuò)在計(jì)劃、參數(shù)還是后處理”，可以指導(dǎo)工程優(yōu)化。

6. 總結(jié)與展望

LiveMCP-101 為評(píng)測(cè) AI Agent 在真實(shí)動(dòng)態(tài)環(huán)境中的多步工具使用能力建立了嚴(yán)格且可擴(kuò)展的評(píng)測(cè)框架。通過 101 個(gè)涵蓋多領(lǐng)域的精心設(shè)計(jì)任務(wù)，配合基于執(zhí)行計(jì)劃的創(chuàng)新評(píng)測(cè)方法，研究揭示了即使是最先進(jìn)的大語(yǔ)言模型在工具編排、參數(shù)推理和 Token 效率方面仍面臨重大挑戰(zhàn)。不僅診斷了當(dāng)前系統(tǒng)的不足，更為開發(fā)更強(qiáng)大的 AI Agent 指明了改進(jìn)方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.