成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

MCP-Universe基準(zhǔn)測試顯示GPT-5在超半數(shù)真實業(yè)務(wù)場景中表現(xiàn)不佳

0
分享至


互操作性標(biāo)準(zhǔn)(如模型上下文協(xié)議MCP)的采用,可以為企業(yè)提供智能體和模型在封閉環(huán)境外運行情況的洞察。然而,許多基準(zhǔn)測試未能捕捉到與MCP的真實交互情況。

Salesforce AI研究團隊開發(fā)了一個名為MCP-Universe的新開源基準(zhǔn)測試,旨在跟蹤大語言模型與現(xiàn)實世界MCP服務(wù)器的交互表現(xiàn),認(rèn)為這將更好地反映模型與企業(yè)實際使用工具的真實時間交互情況。在初步測試中,研究發(fā)現(xiàn)OpenAI最新發(fā)布的GPT-5等模型雖然表現(xiàn)強勁,但在現(xiàn)實場景中的表現(xiàn)仍不盡如人意。

Salesforce在論文中表示:"現(xiàn)有基準(zhǔn)測試主要關(guān)注大語言模型性能的孤立方面,如指令遵循、數(shù)學(xué)推理或函數(shù)調(diào)用,而未能全面評估模型在不同場景下與真實世界MCP服務(wù)器的交互方式。"

MCP-Universe通過工具使用、多輪工具調(diào)用、長上下文窗口和大工具空間來捕捉模型性能。它基于現(xiàn)有MCP服務(wù)器構(gòu)建,可訪問真實數(shù)據(jù)源和環(huán)境。

Salesforce AI研究總監(jiān)Junnan Li向VentureBeat表示,許多模型"在企業(yè)級任務(wù)上仍面臨限制"。他指出兩大主要挑戰(zhàn):"長上下文挑戰(zhàn)——模型在處理非常長或復(fù)雜輸入時可能失去信息追蹤或推理一致性;未知工具挑戰(zhàn)——模型通常無法像人類那樣靈活適應(yīng)不熟悉的工具或系統(tǒng)。"

MCP-Universe與其他基于MCP的基準(zhǔn)測試相結(jié)合,如馬薩諸塞大學(xué)阿默斯特分校和西安交通大學(xué)提出的MCP-Radar,以及北京郵電大學(xué)的MCPWorld。它還基于Salesforce在7月發(fā)布的主要關(guān)注智能體的MCPEvals構(gòu)建。Li表示,MCP-Universe與MCPEvals最大的區(qū)別在于后者使用合成任務(wù)進行評估。

**工作原理**

MCP-Universe評估每個模型執(zhí)行一系列模擬企業(yè)任務(wù)的表現(xiàn)。Salesforce設(shè)計MCP-Universe涵蓋企業(yè)使用的六個核心領(lǐng)域:位置導(dǎo)航、代碼庫管理、財務(wù)分析、3D設(shè)計、瀏覽器自動化和網(wǎng)絡(luò)搜索。研究團隊訪問了11個MCP服務(wù)器,總計231個任務(wù)。

位置導(dǎo)航專注于地理推理和空間任務(wù)執(zhí)行,研究人員利用Google Maps MCP服務(wù)器。代碼庫管理領(lǐng)域關(guān)注代碼庫操作,連接GitHub MCP以展示版本控制工具。財務(wù)分析連接Yahoo Finance MCP服務(wù)器,評估定量推理和金融市場決策能力。3D設(shè)計通過Blender MCP評估計算機輔助設(shè)計工具使用。瀏覽器自動化連接Playwright的MCP測試瀏覽器交互。網(wǎng)絡(luò)搜索領(lǐng)域采用Google Search MCP服務(wù)器和Fetch MCP檢查"開放域信息搜索"。

研究團隊為每個領(lǐng)域創(chuàng)建了四到五種任務(wù)類型。評估采用基于執(zhí)行的評估范式,而非常見的大語言模型評判系統(tǒng),因為"大語言模型評判范式不適合MCP-Universe場景,某些任務(wù)使用實時數(shù)據(jù),而大語言模型評判的知識是靜態(tài)的"。

**測試結(jié)果顯示主要模型仍有困難**

為測試MCP-Universe,Salesforce評估了多個熱門專有和開源模型,包括xAI的Grok-4、Anthropic的Claude-4 Sonnet、OpenAI的GPT-5、Google的Gemini 2.5 Pro等。每個測試模型至少擁有120B參數(shù)。

測試發(fā)現(xiàn)GPT-5成功率最高,特別是在財務(wù)分析任務(wù)中。Grok-4緊隨其后,在瀏覽器自動化方面表現(xiàn)最佳。在開源模型中,GLM-4.5表現(xiàn)最佳。

然而,MCP-Universe顯示模型在處理長上下文時存在困難,特別是位置導(dǎo)航、瀏覽器自動化和財務(wù)分析方面,效率顯著下降。遇到未知工具時,大語言模型性能也會下降。研究表明,大語言模型在超過一半的企業(yè)典型任務(wù)中難以完成。

論文總結(jié)道:"這些發(fā)現(xiàn)凸顯了當(dāng)前前沿大語言模型在可靠執(zhí)行多樣化真實世界MCP任務(wù)方面仍有不足。因此,我們的MCP-Universe基準(zhǔn)測試為評估現(xiàn)有基準(zhǔn)測試服務(wù)不足領(lǐng)域的大語言模型性能提供了具有挑戰(zhàn)性且必要的測試平臺。"

Li希望企業(yè)使用MCP-Universe深入了解智能體和模型在任務(wù)中的失敗點,以便改進框架或MCP工具實施。

Q&A

Q1:MCP-Universe基準(zhǔn)測試是什么?它有什么特點?

A:MCP-Universe是Salesforce AI研究團隊開發(fā)的開源基準(zhǔn)測試,專門跟蹤大語言模型與現(xiàn)實世界MCP服務(wù)器的交互表現(xiàn)。它通過工具使用、多輪工具調(diào)用、長上下文窗口和大工具空間來評估模型性能,基于真實MCP服務(wù)器構(gòu)建,可訪問實際數(shù)據(jù)源和環(huán)境。

Q2:GPT-5在MCP-Universe測試中表現(xiàn)如何?

A:GPT-5在測試中獲得了最高成功率,特別是在財務(wù)分析任務(wù)方面表現(xiàn)突出。但研究發(fā)現(xiàn),即使是GPT-5這樣的前沿模型,在處理長上下文和未知工具時仍存在困難,在超過一半的企業(yè)典型任務(wù)中難以完成。

Q3:MCP-Universe測試涵蓋哪些應(yīng)用領(lǐng)域?

A:MCP-Universe涵蓋企業(yè)使用的六個核心領(lǐng)域:位置導(dǎo)航(地理推理和空間任務(wù))、代碼庫管理(GitHub版本控制)、財務(wù)分析(Yahoo Finance數(shù)據(jù)處理)、3D設(shè)計(Blender工具使用)、瀏覽器自動化(Playwright交互)和網(wǎng)絡(luò)搜索(Google Search信息檢索)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
打明牌了!中國幫西班牙發(fā)展電動汽車,西班牙卻取消華為合同

打明牌了!中國幫西班牙發(fā)展電動汽車,西班牙卻取消華為合同

華庭講美食
2025-09-01 16:56:13
中菲局勢緩和:菲船后撤,中方拖船撤離,莎拉預(yù)言成真

中菲局勢緩和:菲船后撤,中方拖船撤離,莎拉預(yù)言成真

科技有趣事
2025-09-01 11:34:47
島內(nèi)民調(diào)出爐,鄭麗文名列第二,朱立倫遭張亞中批評陷入尷尬

島內(nèi)民調(diào)出爐,鄭麗文名列第二,朱立倫遭張亞中批評陷入尷尬

娛樂督察中
2025-09-01 12:31:56
朝鮮專列連夜趕往中國,金正恩馬上要到北京,與中俄有大事要談

朝鮮專列連夜趕往中國,金正恩馬上要到北京,與中俄有大事要談

跳跳歷史
2025-09-01 13:07:10
被馬斯克獎勵4個億!這位東北小伙,憑實力成為特斯拉“太子爺”

被馬斯克獎勵4個億!這位東北小伙,憑實力成為特斯拉“太子爺”

壹知眠羊
2025-08-31 07:26:55
普京抵達(dá)第一站,金正恩隨后就到,中方給2人準(zhǔn)備的位置十分特殊

普京抵達(dá)第一站,金正恩隨后就到,中方給2人準(zhǔn)備的位置十分特殊

張學(xué)昆看世界
2025-09-01 13:05:59
6杯酒敬自己!20年間全家接連去世,小伙一人養(yǎng)5個娃和植物人母親

6杯酒敬自己!20年間全家接連去世,小伙一人養(yǎng)5個娃和植物人母親

削桐作琴
2025-09-01 12:39:50
澳洲楊蘭蘭是誰?五層“身份套娃”揭秘:她或許根本就不存在

澳洲楊蘭蘭是誰?五層“身份套娃”揭秘:她或許根本就不存在

麥大人
2025-08-18 18:02:38
丁元英:如果你年收入不到20萬,不要花太多時間在認(rèn)知提升上,你真正需要的,是強大的執(zhí)行力!

丁元英:如果你年收入不到20萬,不要花太多時間在認(rèn)知提升上,你真正需要的,是強大的執(zhí)行力!

LadyDaily
2025-08-10 11:41:23
“我只欺負(fù)中國人”,回原產(chǎn)地了!

“我只欺負(fù)中國人”,回原產(chǎn)地了!

難得君
2025-08-31 12:51:18
李顯龍回梅州老家祭祖,完成李光耀遺愿,游子漂泊根在中華

李顯龍回梅州老家祭祖,完成李光耀遺愿,游子漂泊根在中華

放開他讓wo來
2025-09-01 11:57:27
湖南女子取30萬有15萬假的,銀行:離柜概不負(fù)責(zé),女子:好你說的

湖南女子取30萬有15萬假的,銀行:離柜概不負(fù)責(zé),女子:好你說的

黃家湖的憂傷
2025-08-25 17:05:18
如果沒有相對論,恐怕你連遠(yuǎn)門都出不了!

如果沒有相對論,恐怕你連遠(yuǎn)門都出不了!

宇宙時空
2025-08-31 13:58:12
孫中山獨子孫科:1949年拒絕隨蔣介石去臺灣生活,最后結(jié)局如何?

孫中山獨子孫科:1949年拒絕隨蔣介石去臺灣生活,最后結(jié)局如何?

小莜讀史
2025-08-25 10:23:26
54歲大媽每周兩次性生活,堅持半年后,58歲老伴的身體卻出了問題

54歲大媽每周兩次性生活,堅持半年后,58歲老伴的身體卻出了問題

普陀動物世界
2025-09-01 04:27:30
烏克蘭遠(yuǎn)超導(dǎo)彈量產(chǎn),匈牙利即將變天

烏克蘭遠(yuǎn)超導(dǎo)彈量產(chǎn),匈牙利即將變天

難得君
2025-09-01 16:23:14
GOAT!德約科維奇80次參加大滿貫正賽,64次打進8強,占比達(dá)到80%

GOAT!德約科維奇80次參加大滿貫正賽,64次打進8強,占比達(dá)到80%

直播吧
2025-09-01 14:59:13
3萬/平買的房現(xiàn)在1.2萬甩賣,南京房東連夜降價:晚了就砸手里

3萬/平買的房現(xiàn)在1.2萬甩賣,南京房東連夜降價:晚了就砸手里

視界面面觀
2025-09-01 15:25:05
陳根:越來越多年輕人猝死,是疫情后的非正?,F(xiàn)象

陳根:越來越多年輕人猝死,是疫情后的非正?,F(xiàn)象

陳根談科技
2025-08-31 13:02:40
打臉曼聯(lián),碾壓阿諾德!完美的高大邊衛(wèi),“新貝爾”讓皇馬起飛?

打臉曼聯(lián),碾壓阿諾德!完美的高大邊衛(wèi),“新貝爾”讓皇馬起飛?

赫岝鄉(xiāng)村攝影
2025-09-01 12:23:34
2025-09-01 18:43:00
至頂頭條 incentive-icons
至頂頭條
記錄和推動數(shù)字化創(chuàng)新
13927文章數(shù) 49653關(guān)注度
往期回顧 全部

科技要聞

成都車展眾生相:20個主播圍著拍華為

頭條要聞

印尼發(fā)生大規(guī)模示威游行總統(tǒng)取消來華 外交部回應(yīng)

頭條要聞

印尼發(fā)生大規(guī)模示威游行總統(tǒng)取消來華 外交部回應(yīng)

體育要聞

林書豪退役了,我們該如何評價他

娛樂要聞

蘇有朋,禍從口出?

財經(jīng)要聞

行情剛好點,創(chuàng)始人立馬漲估值

汽車要聞

激光雷達(dá)上車/配云輦-C 26款海豹07 DM-i全是硬貨

態(tài)度原創(chuàng)

本地
房產(chǎn)
教育
公開課
軍事航空

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

房產(chǎn)要聞

好猛!??跇鞘校慌卤P即將殺出!

教育要聞

青島四流南路第一小學(xué)舉行“銘記歷史守初心,七彩揚帆向未來”2025年秋季開學(xué)典禮

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

九三閱兵 具體安排來了

無障礙瀏覽 進入關(guān)懷版