成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MCU:全球首個(gè)生成式開(kāi)放世界基準(zhǔn),革新通用AI評(píng)測(cè)范式

0
分享至




該工作由通用人工智能研究院 × 北京大學(xué)聯(lián)手打造。第一作者鄭欣悅為通用人工智能研究院研究員,共同一作為北京大學(xué)人工智能研究院博士生林昊葦,通訊作者為北京大學(xué)助理教授梁一韜和通用人工智能研究院研究員鄭子隆。

開(kāi)發(fā)能在開(kāi)放世界中完成多樣任務(wù)的通用智能體,是AI領(lǐng)域的核心挑戰(zhàn)。開(kāi)放世界強(qiáng)調(diào)環(huán)境的動(dòng)態(tài)性及任務(wù)的非預(yù)設(shè)性,智能體必須具備真正的泛化能力才能穩(wěn)健應(yīng)對(duì)。然而,現(xiàn)有評(píng)測(cè)體系多受限于任務(wù)多樣化不足、任務(wù)數(shù)量有限以及環(huán)境單一等因素,難以準(zhǔn)確衡量智能體是否真正「理解」任務(wù),或僅是「記住」了特定解法。

為此,我們構(gòu)建了Minecraft Universe(MCU)——一個(gè)面向通用智能體評(píng)測(cè)的生成式開(kāi)放世界平臺(tái)。MCU 支持自動(dòng)生成無(wú)限多樣的任務(wù)配置,覆蓋豐富生態(tài)系統(tǒng)、復(fù)雜任務(wù)目標(biāo)、天氣變化等多種環(huán)境變量,旨在全面評(píng)估智能體的真實(shí)能力與泛化水平。該平臺(tái)基于高效且功能全面的開(kāi)發(fā)工具MineStudio構(gòu)建,支持靈活定制環(huán)境設(shè)定,大規(guī)模數(shù)據(jù)集處理,并內(nèi)置 VPTs、STEVE-1 等主流 Minecraft 智能體模型,顯著簡(jiǎn)化評(píng)測(cè)流程,助力智能體的快速迭代與發(fā)展。



  • 論文地址:https://arxiv.org/pdf/2310.08367
  • 代碼開(kāi)源:https://github.com/CraftJarvis/MCU
  • 項(xiàng)目主頁(yè):https://craftjarvis.github.io/MCU
  • MineStudio:https://github.com/CraftJarvis/MineStudio

開(kāi)放世界AI,亟需理想的評(píng)測(cè)基準(zhǔn)!

傳統(tǒng)測(cè)試基準(zhǔn)包含有標(biāo)準(zhǔn)答案的任務(wù)(如代碼、推理、問(wèn)答),但開(kāi)放世界任務(wù) Minecraft 有著完全不同的挑戰(zhàn):

  • 目標(biāo)開(kāi)放多樣:任務(wù)沒(méi)有唯一解,策略可以千變?nèi)f化;
  • 環(huán)境狀態(tài)龐雜:狀態(tài)空間近乎無(wú)限,還原真實(shí)世界復(fù)雜度;
  • 長(zhǎng)周期任務(wù)挑戰(zhàn):關(guān)鍵任務(wù)持續(xù)數(shù)小時(shí),智能體需長(zhǎng)期規(guī)劃。

在這樣的環(huán)境中,我們需要的不只是一個(gè)評(píng)分系統(tǒng),而是一個(gè)維度豐富、結(jié)構(gòu)多元的綜合評(píng)測(cè)框架。

MCU:為開(kāi)放世界 AI 打造的「全方位試煉場(chǎng)」

當(dāng)前已有不少 Minecraft 的測(cè)試基準(zhǔn),但它們普遍面臨「三大瓶頸」:

  • 任務(wù)單一:局限于如挖鉆石、制造材料等少數(shù)幾個(gè)場(chǎng)景的循環(huán)往復(fù)。
  • 脫離現(xiàn)實(shí):部分建模任務(wù)甚至超出了普通人類(lèi)玩家的能力范疇。
  • 依賴(lài)人工評(píng)測(cè):效率低下,導(dǎo)致評(píng)測(cè)難以規(guī)?;茝V。



與之前 minecraft 測(cè)試基準(zhǔn)對(duì)比示意圖。

針對(duì)以上痛點(diǎn),MCU 實(shí)現(xiàn)了以下三大核心突破:

一:3,452 個(gè)原子任務(wù) × 無(wú)限組合生成,構(gòu)筑海量任務(wù)空間

MCU 構(gòu)建了一個(gè)覆蓋真實(shí)玩家行為的超大任務(wù)庫(kù):

  • 11 大類(lèi) × 41 子類(lèi)任務(wù)類(lèi)型:如挖礦、合成、戰(zhàn)斗、建造等;
  • 每個(gè)任務(wù)都是「原子級(jí)粒度」:可獨(dú)立測(cè)試控制、規(guī)劃、推理、創(chuàng)造等能力;
  • 支持 LLM 動(dòng)態(tài)擴(kuò)展任務(wù),比如:用鉆石劍擊敗僵尸、雨天徒手采集木材、

在沙漠中建一座水上屋。

任意組合這些原子任務(wù),即可生成無(wú)限的新任務(wù),每一個(gè)都對(duì) AI 是全新挑戰(zhàn)!



模擬多樣化真實(shí)世界挑戰(zhàn)。

二. 任務(wù)全自動(dòng)生成 × 多模態(tài)智能評(píng)測(cè),革新評(píng)估效率

GPT-4o 賦能,一句話生成復(fù)雜世界:

  • 自動(dòng)生成完整的任務(wù)場(chǎng)景(包括天氣、生物群系、初始道具等)。
  • 智能驗(yàn)證任務(wù)配置的可行性,有效避免如「用木鎬挖掘鉆石」這類(lèi)邏輯錯(cuò)誤型任務(wù)。

VLM(視覺(jué)語(yǔ)言模型)驅(qū)動(dòng),徹底改變了傳統(tǒng)人工打分的低效模式:

  • 基于 VLM 實(shí)現(xiàn)對(duì)任務(wù)進(jìn)度、控制策略、材料利用率、執(zhí)行效率、錯(cuò)誤檢測(cè)及創(chuàng)造性六大維度的智能評(píng)分。
  • 模型自動(dòng)生成詳盡的評(píng)估文本,評(píng)分準(zhǔn)確率高達(dá)91.5%
  • 評(píng)測(cè)效率相較人工提升8.1 倍,成本僅為人工評(píng)估的1/5!



任務(wù)生成 x 多模態(tài)評(píng)測(cè)流程圖。

三:高難度 × 高自由度的「試金石」任務(wù)設(shè)計(jì),深度檢驗(yàn)泛化能力

MCU 支持每個(gè)任務(wù)的多種難度版本,如:

  • 「白天在草原擊殺羊」VS「夜晚在雨林躲避怪物并擊殺羊」;
  • 「森林里造瀑布」VS「熔巖坑邊緣建造瀑布」。

這不僅考驗(yàn) AI 是否能完成任務(wù),更深度檢驗(yàn)其在復(fù)雜多變環(huán)境下的泛化與適應(yīng)能力。

打破「模型表現(xiàn)良好」的幻象:現(xiàn)有 SOTA 模型能否駕馭 MCU ?

我們將當(dāng)前領(lǐng)域頂尖的 Minecraft 智能體引入 MCU 進(jìn)行實(shí)戰(zhàn)檢驗(yàn):GROOT:視頻模仿學(xué)習(xí)代表;STEVE-I:指令執(zhí)行型控制器;VPT(BC/RL):基于 YouTube 行為克隆訓(xùn)練而成的先驅(qū)。結(jié)果發(fā)現(xiàn),這些智能體在簡(jiǎn)單任務(wù)上表現(xiàn)尚可,但在面對(duì)組合任務(wù)和陌生配置場(chǎng)景時(shí),完成率急劇下降,且錯(cuò)誤識(shí)別與創(chuàng)新嘗試是其短板。









SOTA 模型在 MCU 上的測(cè)試結(jié)果。

研究團(tuán)隊(duì)引入了更細(xì)粒度的任務(wù)進(jìn)度評(píng)分指標(biāo)(Task Progress),區(qū)別于傳統(tǒng) 0/1 式的「任務(wù)完成率」,它能動(dòng)態(tài)刻畫(huà)智能體在執(zhí)行過(guò)程中的階段性表現(xiàn),哪怕任務(wù)失敗,也能反映其是否在朝正確方向推進(jìn)。

實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)前主流模型如 GROOT、STEVE-I、VPT-RL,在原子任務(wù)中尚有可圈可點(diǎn)的表現(xiàn),但一旦面對(duì)更具組合性和變化性的任務(wù),其成功率便會(huì)驟降。甚至對(duì)環(huán)境的微小改動(dòng)也會(huì)導(dǎo)致決策混亂。比如「在房間內(nèi)睡覺(jué)」這個(gè)看似簡(jiǎn)單的任務(wù),僅僅是將床從草地搬到屋內(nèi),就讓 GROOT 頻繁誤把箱子當(dāng)床點(diǎn)擊,甚至轉(zhuǎn)身離開(kāi)現(xiàn)場(chǎng)——這揭示了現(xiàn)有模型在空間理解與泛化上的明顯短板。

更令人警醒的是,智能體在建造、戰(zhàn)斗類(lèi)任務(wù)中的「創(chuàng)造性得分」與「錯(cuò)誤識(shí)別能力」幾乎全面落后。這說(shuō)明它們尚未真正具備人類(lèi)那種「發(fā)現(xiàn)問(wèn)題、調(diào)整策略」的自主意識(shí),而這正是通用智能邁向下一個(gè)階段的關(guān)鍵。

MCU 的評(píng)測(cè)結(jié)果首次系統(tǒng)性地揭示了當(dāng)前開(kāi)放世界智能體在「泛化、適應(yīng)與創(chuàng)造」這三大核心能力上存在的鴻溝,同時(shí)也為未來(lái)的研究指明了方向:如何讓 AI 不僅能高效完成任務(wù),更能深刻理解任務(wù)的本質(zhì),并創(chuàng)造性地解決復(fù)雜問(wèn)題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
弗蘭克:不為輸球震驚,但過(guò)程我不滿(mǎn)意;西蒙斯是一大補(bǔ)強(qiáng)

弗蘭克:不為輸球震驚,但過(guò)程我不滿(mǎn)意;西蒙斯是一大補(bǔ)強(qiáng)

懂球帝
2025-08-31 01:05:31
長(zhǎng)得“歪瓜裂棗”,整得“美若天仙”?這幾位女星靠臉“改命”?

長(zhǎng)得“歪瓜裂棗”,整得“美若天仙”?這幾位女星靠臉“改命”?

煙潯渺渺
2025-08-26 19:10:09
廣州暫停汽車(chē)“置換更新”補(bǔ)貼政策

廣州暫停汽車(chē)“置換更新”補(bǔ)貼政策

IT之家
2025-08-30 09:46:15
恩里克:4-0領(lǐng)先后難免會(huì)出現(xiàn)松懈,確保登貝萊健康很重要

恩里克:4-0領(lǐng)先后難免會(huì)出現(xiàn)松懈,確保登貝萊健康很重要

雷速體育
2025-08-31 07:25:18
十大元帥逝世順序排名,林彪第三,彭德懷第五,首尾都是林彪搭檔

十大元帥逝世順序排名,林彪第三,彭德懷第五,首尾都是林彪搭檔

大運(yùn)河時(shí)空
2025-08-28 16:45:03
小米粥再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃小米粥,身體或有4改善

小米粥再次成為關(guān)注對(duì)象!醫(yī)生發(fā)現(xiàn):常吃小米粥,身體或有4改善

泠泠說(shuō)史
2025-08-28 16:14:53
提新車(chē)住豪宅,68歲“丁克”了一輩子的葛優(yōu),最終活成了人生贏家

提新車(chē)住豪宅,68歲“丁克”了一輩子的葛優(yōu),最終活成了人生贏家

瓜農(nóng)娟姐
2025-08-30 16:06:15
總獎(jiǎng)金24.37億歐!說(shuō)歐冠才是世界第一體育賽事,誰(shuí)敢稱(chēng)第二?

總獎(jiǎng)金24.37億歐!說(shuō)歐冠才是世界第一體育賽事,誰(shuí)敢稱(chēng)第二?

田先生籃球
2025-08-30 05:43:50
中央?yún)R金,大舉增持ETF!

中央?yún)R金,大舉增持ETF!

每日經(jīng)濟(jì)新聞
2025-08-30 16:27:01
徐敏的國(guó)民好男人形象毀了嗎?

徐敏的國(guó)民好男人形象毀了嗎?

阿廢冷眼觀察所
2025-08-30 16:05:48
郭曉冬去橫店探班,47歲程莉莎一把摟住老公,完全不像生理性喜歡

郭曉冬去橫店探班,47歲程莉莎一把摟住老公,完全不像生理性喜歡

鄭丁嘉話
2025-08-13 09:43:22
4名初中生霸凌女孩4小時(shí):我沒(méi)16歲歡迎報(bào)警,父親:我有精神病

4名初中生霸凌女孩4小時(shí):我沒(méi)16歲歡迎報(bào)警,父親:我有精神病

罪案洞察者
2025-08-28 10:32:58
假如當(dāng)年蔣介石退守緬甸,而不是臺(tái)灣省,如今中國(guó)會(huì)是咋樣?

假如當(dāng)年蔣介石退守緬甸,而不是臺(tái)灣省,如今中國(guó)會(huì)是咋樣?

冰雅憶史
2025-08-29 03:30:03
中國(guó)鄭重通告了全球,停止向巴基斯坦提供梟龍Block3發(fā)動(dòng)機(jī)

中國(guó)鄭重通告了全球,停止向巴基斯坦提供梟龍Block3發(fā)動(dòng)機(jī)

健身狂人
2025-08-27 12:50:40
人民網(wǎng)發(fā)聲!兇手爸媽醫(yī)院工作,劉某父親哽咽發(fā)聲:一命抵一命

人民網(wǎng)發(fā)聲!兇手爸媽醫(yī)院工作,劉某父親哽咽發(fā)聲:一命抵一命

熱點(diǎn)菌本君
2025-08-27 15:45:34
聯(lián)合國(guó)安理會(huì)審議烏克蘭問(wèn)題 中方:支持一切有利于和平解決危機(jī)的努力

聯(lián)合國(guó)安理會(huì)審議烏克蘭問(wèn)題 中方:支持一切有利于和平解決危機(jī)的努力

環(huán)球網(wǎng)資訊
2025-08-30 10:10:51
世界排名更新!肖國(guó)棟直逼丁俊暉,墨菲跌出前16特魯姆普斷層第一

世界排名更新!肖國(guó)棟直逼丁俊暉,墨菲跌出前16特魯姆普斷層第一

世界體壇觀察家
2025-08-31 00:02:26
降息525基點(diǎn)!

降息525基點(diǎn)!

格隆匯
2025-08-30 20:19:31
女子送69單外賣(mài)后過(guò)勞死,尸檢結(jié)果:女子體內(nèi)竟檢測(cè)出多名男性DNA

女子送69單外賣(mài)后過(guò)勞死,尸檢結(jié)果:女子體內(nèi)竟檢測(cè)出多名男性DNA

懸案解密檔案
2025-08-18 10:36:14
菲律賓攤牌了!公開(kāi)對(duì)華“劃紅線”,拉上外援全力守護(hù)坐灘破艦

菲律賓攤牌了!公開(kāi)對(duì)華“劃紅線”,拉上外援全力守護(hù)坐灘破艦

健身狂人
2025-08-31 06:57:54
2025-08-31 08:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11187文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來(lái)四季度必須盈利

頭條要聞

高校被指強(qiáng)制學(xué)生辦校園電話卡:不辦卡無(wú)法開(kāi)宿舍門(mén)

頭條要聞

高校被指強(qiáng)制學(xué)生辦校園電話卡:不辦卡無(wú)法開(kāi)宿舍門(mén)

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂(lè)要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車(chē)要聞

全國(guó)靜態(tài)品鑒開(kāi)啟 方程豹鈦7成都車(chē)展首秀

態(tài)度原創(chuàng)

家居
教育
本地
房產(chǎn)
公開(kāi)課

家居要聞

提升功能 靈活居住環(huán)境

教育要聞

離譜!老師上課要求學(xué)生交東西,學(xué)生不從竟還舉凳砸老師

本地新聞

換個(gè)城市過(guò)夏天 | 夏末狂歡,浪在阜新黃家溝!

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版