互操作性標(biāo)準(zhǔn)(如模型上下文協(xié)議MCP)的采用,可以為企業(yè)提供智能體和模型在封閉環(huán)境外運行情況的洞察。然而,許多基準(zhǔn)測試未能捕捉到與MCP的真實交互情況。
Salesforce AI研究團隊開發(fā)了一個名為MCP-Universe的新開源基準(zhǔn)測試,旨在跟蹤大語言模型與現(xiàn)實世界MCP服務(wù)器的交互表現(xiàn),認(rèn)為這將更好地反映模型與企業(yè)實際使用工具的真實時間交互情況。在初步測試中,研究發(fā)現(xiàn)OpenAI最新發(fā)布的GPT-5等模型雖然表現(xiàn)強勁,但在現(xiàn)實場景中的表現(xiàn)仍不盡如人意。
Salesforce在論文中表示:"現(xiàn)有基準(zhǔn)測試主要關(guān)注大語言模型性能的孤立方面,如指令遵循、數(shù)學(xué)推理或函數(shù)調(diào)用,而未能全面評估模型在不同場景下與真實世界MCP服務(wù)器的交互方式。"
MCP-Universe通過工具使用、多輪工具調(diào)用、長上下文窗口和大工具空間來捕捉模型性能。它基于現(xiàn)有MCP服務(wù)器構(gòu)建,可訪問真實數(shù)據(jù)源和環(huán)境。
Salesforce AI研究總監(jiān)Junnan Li向VentureBeat表示,許多模型"在企業(yè)級任務(wù)上仍面臨限制"。他指出兩大主要挑戰(zhàn):"長上下文挑戰(zhàn)——模型在處理非常長或復(fù)雜輸入時可能失去信息追蹤或推理一致性;未知工具挑戰(zhàn)——模型通常無法像人類那樣靈活適應(yīng)不熟悉的工具或系統(tǒng)。"
MCP-Universe與其他基于MCP的基準(zhǔn)測試相結(jié)合,如馬薩諸塞大學(xué)阿默斯特分校和西安交通大學(xué)提出的MCP-Radar,以及北京郵電大學(xué)的MCPWorld。它還基于Salesforce在7月發(fā)布的主要關(guān)注智能體的MCPEvals構(gòu)建。Li表示,MCP-Universe與MCPEvals最大的區(qū)別在于后者使用合成任務(wù)進行評估。
**工作原理**
MCP-Universe評估每個模型執(zhí)行一系列模擬企業(yè)任務(wù)的表現(xiàn)。Salesforce設(shè)計MCP-Universe涵蓋企業(yè)使用的六個核心領(lǐng)域:位置導(dǎo)航、代碼庫管理、財務(wù)分析、3D設(shè)計、瀏覽器自動化和網(wǎng)絡(luò)搜索。研究團隊訪問了11個MCP服務(wù)器,總計231個任務(wù)。
位置導(dǎo)航專注于地理推理和空間任務(wù)執(zhí)行,研究人員利用Google Maps MCP服務(wù)器。代碼庫管理領(lǐng)域關(guān)注代碼庫操作,連接GitHub MCP以展示版本控制工具。財務(wù)分析連接Yahoo Finance MCP服務(wù)器,評估定量推理和金融市場決策能力。3D設(shè)計通過Blender MCP評估計算機輔助設(shè)計工具使用。瀏覽器自動化連接Playwright的MCP測試瀏覽器交互。網(wǎng)絡(luò)搜索領(lǐng)域采用Google Search MCP服務(wù)器和Fetch MCP檢查"開放域信息搜索"。
研究團隊為每個領(lǐng)域創(chuàng)建了四到五種任務(wù)類型。評估采用基于執(zhí)行的評估范式,而非常見的大語言模型評判系統(tǒng),因為"大語言模型評判范式不適合MCP-Universe場景,某些任務(wù)使用實時數(shù)據(jù),而大語言模型評判的知識是靜態(tài)的"。
**測試結(jié)果顯示主要模型仍有困難**
為測試MCP-Universe,Salesforce評估了多個熱門專有和開源模型,包括xAI的Grok-4、Anthropic的Claude-4 Sonnet、OpenAI的GPT-5、Google的Gemini 2.5 Pro等。每個測試模型至少擁有120B參數(shù)。
測試發(fā)現(xiàn)GPT-5成功率最高,特別是在財務(wù)分析任務(wù)中。Grok-4緊隨其后,在瀏覽器自動化方面表現(xiàn)最佳。在開源模型中,GLM-4.5表現(xiàn)最佳。
然而,MCP-Universe顯示模型在處理長上下文時存在困難,特別是位置導(dǎo)航、瀏覽器自動化和財務(wù)分析方面,效率顯著下降。遇到未知工具時,大語言模型性能也會下降。研究表明,大語言模型在超過一半的企業(yè)典型任務(wù)中難以完成。
論文總結(jié)道:"這些發(fā)現(xiàn)凸顯了當(dāng)前前沿大語言模型在可靠執(zhí)行多樣化真實世界MCP任務(wù)方面仍有不足。因此,我們的MCP-Universe基準(zhǔn)測試為評估現(xiàn)有基準(zhǔn)測試服務(wù)不足領(lǐng)域的大語言模型性能提供了具有挑戰(zhàn)性且必要的測試平臺。"
Li希望企業(yè)使用MCP-Universe深入了解智能體和模型在任務(wù)中的失敗點,以便改進框架或MCP工具實施。
Q&A
Q1:MCP-Universe基準(zhǔn)測試是什么?它有什么特點?
A:MCP-Universe是Salesforce AI研究團隊開發(fā)的開源基準(zhǔn)測試,專門跟蹤大語言模型與現(xiàn)實世界MCP服務(wù)器的交互表現(xiàn)。它通過工具使用、多輪工具調(diào)用、長上下文窗口和大工具空間來評估模型性能,基于真實MCP服務(wù)器構(gòu)建,可訪問實際數(shù)據(jù)源和環(huán)境。
Q2:GPT-5在MCP-Universe測試中表現(xiàn)如何?
A:GPT-5在測試中獲得了最高成功率,特別是在財務(wù)分析任務(wù)方面表現(xiàn)突出。但研究發(fā)現(xiàn),即使是GPT-5這樣的前沿模型,在處理長上下文和未知工具時仍存在困難,在超過一半的企業(yè)典型任務(wù)中難以完成。
Q3:MCP-Universe測試涵蓋哪些應(yīng)用領(lǐng)域?
A:MCP-Universe涵蓋企業(yè)使用的六個核心領(lǐng)域:位置導(dǎo)航(地理推理和空間任務(wù))、代碼庫管理(GitHub版本控制)、財務(wù)分析(Yahoo Finance數(shù)據(jù)處理)、3D設(shè)計(Blender工具使用)、瀏覽器自動化(Playwright交互)和網(wǎng)絡(luò)搜索(Google Search信息檢索)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.