成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LaDi-WM模型大幅提升機(jī)器人操作策略的成功率和跨場(chǎng)景泛化能力

0
分享至



在機(jī)器人操作任務(wù)中,預(yù)測(cè)性策略近年來(lái)在具身人工智能領(lǐng)域引起了廣泛關(guān)注,因?yàn)樗軌蚶妙A(yù)測(cè)狀態(tài)來(lái)提升機(jī)器人的操作性能。然而,讓世界模型預(yù)測(cè)機(jī)器人與物體交互的精確未來(lái)狀態(tài)仍然是一個(gè)公認(rèn)的挑戰(zhàn),尤其是生成高質(zhì)量的像素級(jí)表示。

為解決上述問(wèn)題,國(guó)防科大、北京大學(xué)、深圳大學(xué)團(tuán)隊(duì)提出LaDi-WM(Latent Diffusion-based WorldModels),一種基于隱空間擴(kuò)散的世界模型,用于預(yù)測(cè)隱空間的未來(lái)狀態(tài)。

具體而言,LaDi-WM 利用預(yù)訓(xùn)練的視覺基礎(chǔ)模型 (Vision Fundation Models) 來(lái)構(gòu)建隱空間表示,該表示同時(shí)包含幾何特征(基于 DINOv2 構(gòu)造)和語(yǔ)義特征(基于 Siglip 構(gòu)造),并具有廣泛的通用性,有利于機(jī)器人操作的策略學(xué)習(xí)以及跨任務(wù)的泛化能力。

基于 LaDi-WM,團(tuán)隊(duì)設(shè)計(jì)了一種擴(kuò)散策略,該策略通過(guò)整合世界模型生成的預(yù)測(cè)狀態(tài)來(lái)迭代地優(yōu)化輸出動(dòng)作,從而生成更一致、更準(zhǔn)確的動(dòng)作結(jié)果。通過(guò)在虛擬和真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn),LaDi-WM 能夠顯著提高機(jī)器人操作任務(wù)的成功率,尤其是在 LIBERO-LONG 數(shù)據(jù)集上提升27.9%,超過(guò)之前的所有方法。





  • 論文地址:https://arxiv.org/abs/2505.11528
  • 項(xiàng)目主頁(yè):https://guhuangai.github.io/LaDiWM.github.io/

論文創(chuàng)新點(diǎn):

1.一種基于隱空間擴(kuò)散的世界模型:使用視覺基礎(chǔ)模型構(gòu)建隱空間的通用表示,并在隱空間學(xué)習(xí)可泛化的動(dòng)態(tài)建模能力。

2.一種基于世界模型預(yù)測(cè)迭代優(yōu)化的擴(kuò)散策略:利用世界模型生成未來(lái)預(yù)測(cè)的狀態(tài),將預(yù)測(cè)的狀態(tài)反饋給策略模型,迭代式地優(yōu)化策略輸出。



圖 1 :(左)通過(guò)任務(wù)無(wú)關(guān)的片段學(xué)習(xí)隱擴(kuò)散世界模型;(右)通過(guò)世界模型的未來(lái)狀態(tài)預(yù)測(cè)來(lái)優(yōu)化策略模型

技術(shù)路線

該團(tuán)隊(duì)提出一種利用世界模型優(yōu)化策略學(xué)習(xí)的框架,以學(xué)習(xí)機(jī)器人抓取操作相關(guān)的技能策略。該框架可分為兩大階段:世界模型學(xué)習(xí)和策略學(xué)習(xí)。

A. 世界模型學(xué)習(xí):

(a)隱空間表示:通過(guò)預(yù)訓(xùn)練的視覺基礎(chǔ)模型對(duì)觀測(cè)圖像提取幾何表征與語(yǔ)義表征,其中幾何表征利用 DINOv2 提取,而語(yǔ)義表征則使用 Siglip 提取。

(b)交互擴(kuò)散:同時(shí)對(duì)兩種隱空間表示實(shí)施擴(kuò)散過(guò)程,并在擴(kuò)散過(guò)程中讓二者充分交互,學(xué)習(xí)幾何與語(yǔ)義表征之間的依賴關(guān)系,從而促進(jìn)兩種表示的準(zhǔn)確動(dòng)態(tài)預(yù)測(cè)。



圖 2 : 基于交互擴(kuò)散的世界模型架構(gòu)

B. 策略模型訓(xùn)練與迭代優(yōu)化推理

(a)結(jié)合世界模型的未來(lái)預(yù)測(cè)引導(dǎo)策略學(xué)習(xí):將世界模型給出的未來(lái)預(yù)測(cè)作為額外的輸入,引導(dǎo)策略模型的準(zhǔn)確動(dòng)作預(yù)測(cè);模型架構(gòu)基于擴(kuò)散策略模型,有利于學(xué)習(xí)多模態(tài)動(dòng)作分布。

(b)迭代優(yōu)化策略輸出:策略模型可以在一個(gè)時(shí)間步多次利用世界模型的未來(lái)預(yù)測(cè)作為引導(dǎo),從而不斷優(yōu)化自身的動(dòng)作輸出。實(shí)驗(yàn)顯示,該方案可以逐漸降低策略模型的輸出分布熵,達(dá)到更準(zhǔn)確的動(dòng)作預(yù)測(cè)。



圖 3 : 基于未來(lái)預(yù)測(cè)引導(dǎo)的策略模型架構(gòu)

實(shí)驗(yàn)結(jié)果

虛擬實(shí)驗(yàn):

在公開的虛擬數(shù)據(jù)集(LIBERO-LONG,CALVIN D-D)中,團(tuán)隊(duì)驗(yàn)證了所提出框架在機(jī)器人抓取相關(guān)的操作任務(wù)上的性能。在實(shí)驗(yàn)中,世界模型的訓(xùn)練數(shù)據(jù)會(huì)與策略模型的訓(xùn)練數(shù)據(jù)區(qū)分開,從而驗(yàn)證世界模型的泛化能力。對(duì)于 LIBERO-LONG,給定語(yǔ)言指令,多次執(zhí)行并統(tǒng)計(jì)機(jī)器人完成各項(xiàng)任務(wù)的成功率。對(duì)于 CALVIN D-D,連續(xù)給定五個(gè)語(yǔ)言指令,多次執(zhí)行并統(tǒng)計(jì)平均完成任務(wù)的數(shù)量。

在 LIBERO-LONG 數(shù)據(jù)集,為了驗(yàn)證世界模型對(duì)策略模型的引導(dǎo)作用,團(tuán)隊(duì)僅使用 10 條軌跡去訓(xùn)練各任務(wù),對(duì)比結(jié)果如表 1 所示。相比于其他方法,LaDi-WM 能夠提供精確的未來(lái)預(yù)測(cè),并將預(yù)測(cè)反饋給策略模型,不斷優(yōu)化動(dòng)作輸出,僅需少量訓(xùn)練數(shù)據(jù)即可達(dá)到 68.7% 的成功率,顯著優(yōu)于其他方法。



表 1: LIBERO-LONG 性能對(duì)比

在 CALVIN D-D 數(shù)據(jù)集上,LaDi-WM 同樣展示了在長(zhǎng)時(shí)任務(wù)中的強(qiáng)大性能(表 2)。



表 2: CALVIN D-D 性能對(duì)比

團(tuán)隊(duì)進(jìn)一步驗(yàn)證了所提出框架的可擴(kuò)展性,如圖 4 所示。

(a)逐漸增大世界模型的訓(xùn)練數(shù)據(jù),模型的預(yù)測(cè)誤差逐漸降低且策略性能逐漸提升;

(b)逐漸增大策略模型的訓(xùn)練數(shù)據(jù),抓取操作的成功率逐漸提升;

(c)逐漸增大策略模型的參數(shù)量,抓取操作的成功率逐漸提升。



圖 4 : 可擴(kuò)展性實(shí)驗(yàn)

為了驗(yàn)證 LaDi-WM 的跨場(chǎng)景泛化能力,團(tuán)隊(duì)在 LIBERO-LONG 上訓(xùn)練世界模型,并直接應(yīng)用于 CALVIN D-D 的策略學(xué)習(xí)中,實(shí)驗(yàn)結(jié)果如表 3 所示。若是使用在 LIBERO-LONG 訓(xùn)練的原始策略模型,直接應(yīng)用到 CALVIN D-D 是不工作的(表第一行);而使用在 LIBERO-LONG 訓(xùn)練的世界模型來(lái)引導(dǎo) CALVIN 環(huán)境下的策略學(xué)習(xí),則可以比在 CALVIN 環(huán)境訓(xùn)練的原始策略的性能高 0.61(表第三行)。這表明,世界模型的泛化能力要優(yōu)于策略模型的泛化能力。



表 3: 跨場(chǎng)景實(shí)驗(yàn)結(jié)果。L 代表 LIBERO-LONG,C 代表 CALVIN D-D

團(tuán)隊(duì)進(jìn)一步探索了利用世界模型迭代優(yōu)化的工作原理。團(tuán)隊(duì)收集不同迭代輪次下策略模型的輸出動(dòng)作并繪制其分布,如圖 5 所示。迭代優(yōu)化的過(guò)程中,輸出動(dòng)作分布的熵在逐漸降低,這表明策略模型每一步的輸出動(dòng)作更加穩(wěn)定,從而提升整體的抓取成功率。



圖 5 : 迭代優(yōu)化的動(dòng)作分布對(duì)比

真機(jī)實(shí)驗(yàn):

團(tuán)隊(duì)也在真實(shí)場(chǎng)景中驗(yàn)證了所提出框架的性能,具體操作任務(wù)包括「疊碗」、「開抽屜」、「關(guān)抽屜」以及「抓取物體放入籃子」等,如圖 6 所示。



圖 6 : (左)真實(shí)場(chǎng)景環(huán)境;(右)機(jī)器人實(shí)際操作樣例

在真實(shí)場(chǎng)景中,LaDi-WM 將原始模仿學(xué)習(xí)策略的成功率顯著提升 20%(表 4)。



表 4: 真實(shí)場(chǎng)景性能對(duì)比

圖 7 展示了最終所得策略模型在不同任務(wù)上的執(zhí)行軌跡,從圖中可以發(fā)現(xiàn),提出的策略能夠在不同光照條件以及不同初始位置的情況下有魯棒的泛化性。



圖 7 : 真實(shí)場(chǎng)景機(jī)器人執(zhí)行軌跡

總結(jié)

國(guó)防科大、北京大學(xué)、深圳大學(xué)團(tuán)隊(duì)提出了一種隱空間擴(kuò)散的世界模型 LaDi-WM(Latent Diffusion-based World Models),利用視覺基礎(chǔ)模型提取通用的隱空間表示,并在隱空間學(xué)習(xí)可泛化的動(dòng)態(tài)建模。同時(shí),團(tuán)隊(duì)提出基于世界模型的未來(lái)預(yù)測(cè)來(lái)引導(dǎo)策略學(xué)習(xí),在推理階段通過(guò)迭代式地優(yōu)化策略輸出,從而進(jìn)一步提高策略輸出動(dòng)作的準(zhǔn)確度。團(tuán)隊(duì)通過(guò)虛擬與真機(jī)上廣泛的實(shí)驗(yàn)證明了 LaDi-WM 的有效性,所提出的方法顯著提升了機(jī)器人抓取操作技能的性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
小到中雨局部大雨!5日起全省有一次較明顯降水過(guò)程!山東最新天氣預(yù)報(bào)→

小到中雨局部大雨!5日起全省有一次較明顯降水過(guò)程!山東最新天氣預(yù)報(bào)→

魯中晨報(bào)
2025-09-02 10:27:25
上合組織峰會(huì)上,伊朗給中方出了個(gè)難題,要求中方提供全方位庇護(hù)

上合組織峰會(huì)上,伊朗給中方出了個(gè)難題,要求中方提供全方位庇護(hù)

愛意隨風(fēng)起呀
2025-09-02 11:14:35
中菲海警南海對(duì)峙,不到48小時(shí)分出勝負(fù),仁愛礁“破船”接著斷糧

中菲海警南海對(duì)峙,不到48小時(shí)分出勝負(fù),仁愛礁“破船”接著斷糧

空天力量
2025-09-01 19:32:43
日久見人心,具俊曄再次拒絕S媽聚餐請(qǐng)求,S媽的安全感已全盤崩潰

日久見人心,具俊曄再次拒絕S媽聚餐請(qǐng)求,S媽的安全感已全盤崩潰

八斗小先生
2025-09-01 11:51:33
泰國(guó)代理總理出手!會(huì)議40分鐘憤然離場(chǎng),強(qiáng)硬叫停人事任命

泰國(guó)代理總理出手!會(huì)議40分鐘憤然離場(chǎng),強(qiáng)硬叫停人事任命

史紀(jì)文譚
2025-09-01 19:44:15
紀(jì)念中國(guó)人民抗日戰(zhàn)爭(zhēng)暨世界反法西斯戰(zhàn)爭(zhēng)勝利80周年大會(huì)和文藝晚會(huì)將于9月3日在京舉行

紀(jì)念中國(guó)人民抗日戰(zhàn)爭(zhēng)暨世界反法西斯戰(zhàn)爭(zhēng)勝利80周年大會(huì)和文藝晚會(huì)將于9月3日在京舉行

新華社
2025-09-01 20:03:09
惠州博羅縣政府原黨組成員、縣政府辦原主任朱易彬被雙開!

惠州博羅縣政府原黨組成員、縣政府辦原主任朱易彬被雙開!

南方都市報(bào)
2025-09-02 12:33:06
不敢信!張維伊換發(fā)型像開了美顏,董璇快收手,別讓老公太搶手!

不敢信!張維伊換發(fā)型像開了美顏,董璇快收手,別讓老公太搶手!

湘村大余
2025-09-01 23:08:15
女兒吐槽媽媽太慣貓了,點(diǎn)開前:能慣成啥樣,點(diǎn)開后:這不合適吧

女兒吐槽媽媽太慣貓了,點(diǎn)開前:能慣成啥樣,點(diǎn)開后:這不合適吧

寵物江湖
2025-08-21 10:55:15
3分鐘驚魂!603177,上演“天地板”

3分鐘驚魂!603177,上演“天地板”

中國(guó)基金報(bào)
2025-09-02 10:51:59
詹姆斯新廣告封王,號(hào)稱擊敗所有對(duì)手,但名嘴吐槽:讓人不適

詹姆斯新廣告封王,號(hào)稱擊敗所有對(duì)手,但名嘴吐槽:讓人不適

只扣籃的教練
2025-09-02 09:43:52
哈馬斯的表演,玩砸了

哈馬斯的表演,玩砸了

皮蛋兒電影
2025-08-07 18:23:00
陳雨菲回復(fù)安洗瑩鼓勵(lì):謝謝你的祝福,你是我最敬佩的對(duì)手

陳雨菲回復(fù)安洗瑩鼓勵(lì):謝謝你的祝福,你是我最敬佩的對(duì)手

懂球帝
2025-09-02 04:24:08
公司精簡(jiǎn)結(jié)構(gòu)開除我,臨走時(shí)人事問(wèn)我有多少股權(quán),我淡定說(shuō):58%

公司精簡(jiǎn)結(jié)構(gòu)開除我,臨走時(shí)人事問(wèn)我有多少股權(quán),我淡定說(shuō):58%

今天說(shuō)故事
2025-08-28 18:12:15
日媒談張玉寧和國(guó)安球迷沖突:不可思議,在日本會(huì)被終身禁賽

日媒談張玉寧和國(guó)安球迷沖突:不可思議,在日本會(huì)被終身禁賽

振華觀史
2025-09-02 10:28:30
霍震霆父子三人現(xiàn)身北京,霍啟剛溫潤(rùn)如謙謙君子,霍啟山帥氣逼人

霍震霆父子三人現(xiàn)身北京,霍啟剛溫潤(rùn)如謙謙君子,霍啟山帥氣逼人

心靜物娛
2025-09-02 10:44:11
不管樓層多高,這6個(gè)樓層是“最吉利”樓層,不是迷信

不管樓層多高,這6個(gè)樓層是“最吉利”樓層,不是迷信

巢客HOME
2025-08-31 08:45:02
最快女護(hù)士后續(xù)!衛(wèi)健委回應(yīng),同事透露調(diào)休內(nèi)幕,張水華全網(wǎng)社死

最快女護(hù)士后續(xù)!衛(wèi)健委回應(yīng),同事透露調(diào)休內(nèi)幕,張水華全網(wǎng)社死

凡知
2025-09-02 13:00:10
小米79元換電池,支持這32款機(jī)型

小米79元換電池,支持這32款機(jī)型

電腦報(bào)
2025-09-01 17:22:24
家庭存款300萬(wàn),在國(guó)內(nèi)算什么段位?能“躺平”嗎?

家庭存款300萬(wàn),在國(guó)內(nèi)算什么段位?能“躺平”嗎?

貓叔東山再起
2025-08-10 11:50:07
2025-09-02 13:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11210文章數(shù) 142435關(guān)注度
往期回顧 全部

科技要聞

iPhone生產(chǎn)線大變革:蘋果強(qiáng)制自動(dòng)化

頭條要聞

杭州一面館一碗面賣2188元 老板:半月內(nèi)賣出十多碗

頭條要聞

杭州一面館一碗面賣2188元 老板:半月內(nèi)賣出十多碗

體育要聞

一支穿云箭,紅軍雙喜臨門

娛樂(lè)要聞

閆妮憑“佟掌柜”走紅 現(xiàn)如今變成這樣

財(cái)經(jīng)要聞

中央?yún)R金掃貨路線圖曝光

汽車要聞

反卷"同質(zhì)化紅海" iCAR將"風(fēng)格"進(jìn)行到底

態(tài)度原創(chuàng)

藝術(shù)
時(shí)尚
旅游
親子
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

三種風(fēng)格,穿出秋冬高級(jí)感和知性美!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

寶媽說(shuō)的真對(duì)哦

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版