MCP-Universe基準(zhǔn)測試顯示GPT-5在超半數(shù)真實業(yè)務(wù)場景中表現(xiàn)不佳

2025-08-25 22:06:05　來源: 至頂頭條

北京舉報

分享至

互操作性標(biāo)準(zhǔn)（如模型上下文協(xié)議MCP）的采用，可以為企業(yè)提供智能體和模型在封閉環(huán)境外運行情況的洞察。然而，許多基準(zhǔn)測試未能捕捉到與MCP的真實交互情況。

Salesforce AI研究團隊開發(fā)了一個名為MCP-Universe的新開源基準(zhǔn)測試，旨在跟蹤大語言模型與現(xiàn)實世界MCP服務(wù)器的交互表現(xiàn)，認(rèn)為這將更好地反映模型與企業(yè)實際使用工具的真實時間交互情況。在初步測試中，研究發(fā)現(xiàn)OpenAI最新發(fā)布的GPT-5等模型雖然表現(xiàn)強勁，但在現(xiàn)實場景中的表現(xiàn)仍不盡如人意。

Salesforce在論文中表示："現(xiàn)有基準(zhǔn)測試主要關(guān)注大語言模型性能的孤立方面，如指令遵循、數(shù)學(xué)推理或函數(shù)調(diào)用，而未能全面評估模型在不同場景下與真實世界MCP服務(wù)器的交互方式。"

MCP-Universe通過工具使用、多輪工具調(diào)用、長上下文窗口和大工具空間來捕捉模型性能。它基于現(xiàn)有MCP服務(wù)器構(gòu)建，可訪問真實數(shù)據(jù)源和環(huán)境。

Salesforce AI研究總監(jiān)Junnan Li向VentureBeat表示，許多模型"在企業(yè)級任務(wù)上仍面臨限制"。他指出兩大主要挑戰(zhàn)："長上下文挑戰(zhàn)——模型在處理非常長或復(fù)雜輸入時可能失去信息追蹤或推理一致性；未知工具挑戰(zhàn)——模型通常無法像人類那樣靈活適應(yīng)不熟悉的工具或系統(tǒng)。"

MCP-Universe與其他基于MCP的基準(zhǔn)測試相結(jié)合，如馬薩諸塞大學(xué)阿默斯特分校和西安交通大學(xué)提出的MCP-Radar，以及北京郵電大學(xué)的MCPWorld。它還基于Salesforce在7月發(fā)布的主要關(guān)注智能體的MCPEvals構(gòu)建。Li表示，MCP-Universe與MCPEvals最大的區(qū)別在于后者使用合成任務(wù)進行評估。

**工作原理**

MCP-Universe評估每個模型執(zhí)行一系列模擬企業(yè)任務(wù)的表現(xiàn)。Salesforce設(shè)計MCP-Universe涵蓋企業(yè)使用的六個核心領(lǐng)域：位置導(dǎo)航、代碼庫管理、財務(wù)分析、3D設(shè)計、瀏覽器自動化和網(wǎng)絡(luò)搜索。研究團隊訪問了11個MCP服務(wù)器，總計231個任務(wù)。

位置導(dǎo)航專注于地理推理和空間任務(wù)執(zhí)行，研究人員利用Google Maps MCP服務(wù)器。代碼庫管理領(lǐng)域關(guān)注代碼庫操作，連接GitHub MCP以展示版本控制工具。財務(wù)分析連接Yahoo Finance MCP服務(wù)器，評估定量推理和金融市場決策能力。3D設(shè)計通過Blender MCP評估計算機輔助設(shè)計工具使用。瀏覽器自動化連接Playwright的MCP測試瀏覽器交互。網(wǎng)絡(luò)搜索領(lǐng)域采用Google Search MCP服務(wù)器和Fetch MCP檢查"開放域信息搜索"。

研究團隊為每個領(lǐng)域創(chuàng)建了四到五種任務(wù)類型。評估采用基于執(zhí)行的評估范式，而非常見的大語言模型評判系統(tǒng)，因為"大語言模型評判范式不適合MCP-Universe場景，某些任務(wù)使用實時數(shù)據(jù)，而大語言模型評判的知識是靜態(tài)的"。

**測試結(jié)果顯示主要模型仍有困難**

為測試MCP-Universe，Salesforce評估了多個熱門專有和開源模型，包括xAI的Grok-4、Anthropic的Claude-4 Sonnet、OpenAI的GPT-5、Google的Gemini 2.5 Pro等。每個測試模型至少擁有120B參數(shù)。

測試發(fā)現(xiàn)GPT-5成功率最高，特別是在財務(wù)分析任務(wù)中。Grok-4緊隨其后，在瀏覽器自動化方面表現(xiàn)最佳。在開源模型中，GLM-4.5表現(xiàn)最佳。

然而，MCP-Universe顯示模型在處理長上下文時存在困難，特別是位置導(dǎo)航、瀏覽器自動化和財務(wù)分析方面，效率顯著下降。遇到未知工具時，大語言模型性能也會下降。研究表明，大語言模型在超過一半的企業(yè)典型任務(wù)中難以完成。

論文總結(jié)道："這些發(fā)現(xiàn)凸顯了當(dāng)前前沿大語言模型在可靠執(zhí)行多樣化真實世界MCP任務(wù)方面仍有不足。因此，我們的MCP-Universe基準(zhǔn)測試為評估現(xiàn)有基準(zhǔn)測試服務(wù)不足領(lǐng)域的大語言模型性能提供了具有挑戰(zhàn)性且必要的測試平臺。"

Li希望企業(yè)使用MCP-Universe深入了解智能體和模型在任務(wù)中的失敗點，以便改進框架或MCP工具實施。

Q&A

Q1：MCP-Universe基準(zhǔn)測試是什么？它有什么特點？

A：MCP-Universe是Salesforce AI研究團隊開發(fā)的開源基準(zhǔn)測試，專門跟蹤大語言模型與現(xiàn)實世界MCP服務(wù)器的交互表現(xiàn)。它通過工具使用、多輪工具調(diào)用、長上下文窗口和大工具空間來評估模型性能，基于真實MCP服務(wù)器構(gòu)建，可訪問實際數(shù)據(jù)源和環(huán)境。

Q2：GPT-5在MCP-Universe測試中表現(xiàn)如何？

A：GPT-5在測試中獲得了最高成功率，特別是在財務(wù)分析任務(wù)方面表現(xiàn)突出。但研究發(fā)現(xiàn)，即使是GPT-5這樣的前沿模型，在處理長上下文和未知工具時仍存在困難，在超過一半的企業(yè)典型任務(wù)中難以完成。

Q3：MCP-Universe測試涵蓋哪些應(yīng)用領(lǐng)域？

A：MCP-Universe涵蓋企業(yè)使用的六個核心領(lǐng)域：位置導(dǎo)航（地理推理和空間任務(wù)）、代碼庫管理（GitHub版本控制）、財務(wù)分析（Yahoo Finance數(shù)據(jù)處理）、3D設(shè)計（Blender工具使用）、瀏覽器自動化（Playwright交互）和網(wǎng)絡(luò)搜索（Google Search信息檢索）。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.