網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

LaDi-WM模型大幅提升機(jī)器人操作策略的成功率和跨場(chǎng)景泛化能力

2025-08-18 16:45:46　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在機(jī)器人操作任務(wù)中，預(yù)測(cè)性策略近年來(lái)在具身人工智能領(lǐng)域引起了廣泛關(guān)注，因?yàn)樗軌蚶妙A(yù)測(cè)狀態(tài)來(lái)提升機(jī)器人的操作性能。然而，讓世界模型預(yù)測(cè)機(jī)器人與物體交互的精確未來(lái)狀態(tài)仍然是一個(gè)公認(rèn)的挑戰(zhàn)，尤其是生成高質(zhì)量的像素級(jí)表示。

為解決上述問(wèn)題，國(guó)防科大、北京大學(xué)、深圳大學(xué)團(tuán)隊(duì)提出LaDi-WM（Latent Diffusion-based WorldModels），一種基于隱空間擴(kuò)散的世界模型，用于預(yù)測(cè)隱空間的未來(lái)狀態(tài)。

具體而言，LaDi-WM 利用預(yù)訓(xùn)練的視覺基礎(chǔ)模型 (Vision Fundation Models) 來(lái)構(gòu)建隱空間表示，該表示同時(shí)包含幾何特征（基于 DINOv2 構(gòu)造）和語(yǔ)義特征（基于 Siglip 構(gòu)造），并具有廣泛的通用性，有利于機(jī)器人操作的策略學(xué)習(xí)以及跨任務(wù)的泛化能力。

基于 LaDi-WM，團(tuán)隊(duì)設(shè)計(jì)了一種擴(kuò)散策略，該策略通過(guò)整合世界模型生成的預(yù)測(cè)狀態(tài)來(lái)迭代地優(yōu)化輸出動(dòng)作，從而生成更一致、更準(zhǔn)確的動(dòng)作結(jié)果。通過(guò)在虛擬和真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn)，LaDi-WM 能夠顯著提高機(jī)器人操作任務(wù)的成功率，尤其是在 LIBERO-LONG 數(shù)據(jù)集上提升27.9%，超過(guò)之前的所有方法。

論文地址：https://arxiv.org/abs/2505.11528
項(xiàng)目主頁(yè)：https://guhuangai.github.io/LaDiWM.github.io/

論文創(chuàng)新點(diǎn)：

1.一種基于隱空間擴(kuò)散的世界模型：使用視覺基礎(chǔ)模型構(gòu)建隱空間的通用表示，并在隱空間學(xué)習(xí)可泛化的動(dòng)態(tài)建模能力。

2.一種基于世界模型預(yù)測(cè)迭代優(yōu)化的擴(kuò)散策略：利用世界模型生成未來(lái)預(yù)測(cè)的狀態(tài)，將預(yù)測(cè)的狀態(tài)反饋給策略模型，迭代式地優(yōu)化策略輸出。

圖 1 :（左）通過(guò)任務(wù)無(wú)關(guān)的片段學(xué)習(xí)隱擴(kuò)散世界模型；（右）通過(guò)世界模型的未來(lái)狀態(tài)預(yù)測(cè)來(lái)優(yōu)化策略模型

技術(shù)路線

該團(tuán)隊(duì)提出一種利用世界模型優(yōu)化策略學(xué)習(xí)的框架，以學(xué)習(xí)機(jī)器人抓取操作相關(guān)的技能策略。該框架可分為兩大階段：世界模型學(xué)習(xí)和策略學(xué)習(xí)。

A. 世界模型學(xué)習(xí)：

(a)隱空間表示：通過(guò)預(yù)訓(xùn)練的視覺基礎(chǔ)模型對(duì)觀測(cè)圖像提取幾何表征與語(yǔ)義表征，其中幾何表征利用 DINOv2 提取，而語(yǔ)義表征則使用 Siglip 提取。

(b)交互擴(kuò)散：同時(shí)對(duì)兩種隱空間表示實(shí)施擴(kuò)散過(guò)程，并在擴(kuò)散過(guò)程中讓二者充分交互，學(xué)習(xí)幾何與語(yǔ)義表征之間的依賴關(guān)系，從而促進(jìn)兩種表示的準(zhǔn)確動(dòng)態(tài)預(yù)測(cè)。

圖 2 : 基于交互擴(kuò)散的世界模型架構(gòu)

B. 策略模型訓(xùn)練與迭代優(yōu)化推理

（a）結(jié)合世界模型的未來(lái)預(yù)測(cè)引導(dǎo)策略學(xué)習(xí)：將世界模型給出的未來(lái)預(yù)測(cè)作為額外的輸入，引導(dǎo)策略模型的準(zhǔn)確動(dòng)作預(yù)測(cè)；模型架構(gòu)基于擴(kuò)散策略模型，有利于學(xué)習(xí)多模態(tài)動(dòng)作分布。

（b）迭代優(yōu)化策略輸出：策略模型可以在一個(gè)時(shí)間步多次利用世界模型的未來(lái)預(yù)測(cè)作為引導(dǎo)，從而不斷優(yōu)化自身的動(dòng)作輸出。實(shí)驗(yàn)顯示，該方案可以逐漸降低策略模型的輸出分布熵，達(dá)到更準(zhǔn)確的動(dòng)作預(yù)測(cè)。

圖 3 : 基于未來(lái)預(yù)測(cè)引導(dǎo)的策略模型架構(gòu)

實(shí)驗(yàn)結(jié)果

虛擬實(shí)驗(yàn)：

在公開的虛擬數(shù)據(jù)集（LIBERO-LONG，CALVIN D-D）中，團(tuán)隊(duì)驗(yàn)證了所提出框架在機(jī)器人抓取相關(guān)的操作任務(wù)上的性能。在實(shí)驗(yàn)中，世界模型的訓(xùn)練數(shù)據(jù)會(huì)與策略模型的訓(xùn)練數(shù)據(jù)區(qū)分開，從而驗(yàn)證世界模型的泛化能力。對(duì)于 LIBERO-LONG，給定語(yǔ)言指令，多次執(zhí)行并統(tǒng)計(jì)機(jī)器人完成各項(xiàng)任務(wù)的成功率。對(duì)于 CALVIN D-D，連續(xù)給定五個(gè)語(yǔ)言指令，多次執(zhí)行并統(tǒng)計(jì)平均完成任務(wù)的數(shù)量。

在 LIBERO-LONG 數(shù)據(jù)集，為了驗(yàn)證世界模型對(duì)策略模型的引導(dǎo)作用，團(tuán)隊(duì)僅使用 10 條軌跡去訓(xùn)練各任務(wù)，對(duì)比結(jié)果如表 1 所示。相比于其他方法，LaDi-WM 能夠提供精確的未來(lái)預(yù)測(cè)，并將預(yù)測(cè)反饋給策略模型，不斷優(yōu)化動(dòng)作輸出，僅需少量訓(xùn)練數(shù)據(jù)即可達(dá)到 68.7% 的成功率，顯著優(yōu)于其他方法。

表 1: LIBERO-LONG 性能對(duì)比

在 CALVIN D-D 數(shù)據(jù)集上，LaDi-WM 同樣展示了在長(zhǎng)時(shí)任務(wù)中的強(qiáng)大性能（表 2）。

表 2: CALVIN D-D 性能對(duì)比

團(tuán)隊(duì)進(jìn)一步驗(yàn)證了所提出框架的可擴(kuò)展性，如圖 4 所示。

（a）逐漸增大世界模型的訓(xùn)練數(shù)據(jù)，模型的預(yù)測(cè)誤差逐漸降低且策略性能逐漸提升；

（b）逐漸增大策略模型的訓(xùn)練數(shù)據(jù)，抓取操作的成功率逐漸提升；

（c）逐漸增大策略模型的參數(shù)量，抓取操作的成功率逐漸提升。

圖 4 : 可擴(kuò)展性實(shí)驗(yàn)

為了驗(yàn)證 LaDi-WM 的跨場(chǎng)景泛化能力，團(tuán)隊(duì)在 LIBERO-LONG 上訓(xùn)練世界模型，并直接應(yīng)用于 CALVIN D-D 的策略學(xué)習(xí)中，實(shí)驗(yàn)結(jié)果如表 3 所示。若是使用在 LIBERO-LONG 訓(xùn)練的原始策略模型，直接應(yīng)用到 CALVIN D-D 是不工作的（表第一行）；而使用在 LIBERO-LONG 訓(xùn)練的世界模型來(lái)引導(dǎo) CALVIN 環(huán)境下的策略學(xué)習(xí)，則可以比在 CALVIN 環(huán)境訓(xùn)練的原始策略的性能高 0.61（表第三行）。這表明，世界模型的泛化能力要優(yōu)于策略模型的泛化能力。

表 3: 跨場(chǎng)景實(shí)驗(yàn)結(jié)果。L 代表 LIBERO-LONG，C 代表 CALVIN D-D

團(tuán)隊(duì)進(jìn)一步探索了利用世界模型迭代優(yōu)化的工作原理。團(tuán)隊(duì)收集不同迭代輪次下策略模型的輸出動(dòng)作并繪制其分布，如圖 5 所示。迭代優(yōu)化的過(guò)程中，輸出動(dòng)作分布的熵在逐漸降低，這表明策略模型每一步的輸出動(dòng)作更加穩(wěn)定，從而提升整體的抓取成功率。

圖 5 : 迭代優(yōu)化的動(dòng)作分布對(duì)比

真機(jī)實(shí)驗(yàn)：

團(tuán)隊(duì)也在真實(shí)場(chǎng)景中驗(yàn)證了所提出框架的性能，具體操作任務(wù)包括「疊碗」、「開抽屜」、「關(guān)抽屜」以及「抓取物體放入籃子」等，如圖 6 所示。

圖 6 : （左）真實(shí)場(chǎng)景環(huán)境；（右）機(jī)器人實(shí)際操作樣例

在真實(shí)場(chǎng)景中，LaDi-WM 將原始模仿學(xué)習(xí)策略的成功率顯著提升 20%（表 4）。

表 4: 真實(shí)場(chǎng)景性能對(duì)比

圖 7 展示了最終所得策略模型在不同任務(wù)上的執(zhí)行軌跡，從圖中可以發(fā)現(xiàn)，提出的策略能夠在不同光照條件以及不同初始位置的情況下有魯棒的泛化性。

圖 7 : 真實(shí)場(chǎng)景機(jī)器人執(zhí)行軌跡

總結(jié)

國(guó)防科大、北京大學(xué)、深圳大學(xué)團(tuán)隊(duì)提出了一種隱空間擴(kuò)散的世界模型 LaDi-WM（Latent Diffusion-based World Models），利用視覺基礎(chǔ)模型提取通用的隱空間表示，并在隱空間學(xué)習(xí)可泛化的動(dòng)態(tài)建模。同時(shí)，團(tuán)隊(duì)提出基于世界模型的未來(lái)預(yù)測(cè)來(lái)引導(dǎo)策略學(xué)習(xí)，在推理階段通過(guò)迭代式地優(yōu)化策略輸出，從而進(jìn)一步提高策略輸出動(dòng)作的準(zhǔn)確度。團(tuán)隊(duì)通過(guò)虛擬與真機(jī)上廣泛的實(shí)驗(yàn)證明了 LaDi-WM 的有效性，所提出的方法顯著提升了機(jī)器人抓取操作技能的性能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.