網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

打工半年后，Atlas覺醒！「大行為模型」零代碼上新技能，AI工業(yè)革命來(lái)了？

2025-08-21 20:38:33　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：艾倫

【新智元導(dǎo)讀】Atlas進(jìn)廠打工技能再進(jìn)化！波士頓動(dòng)力聯(lián)手豐田研究院，首次讓人形機(jī)器人Atlas能夠通過(guò)語(yǔ)言指令驅(qū)動(dòng)，一次性處理從折疊配件到整理倉(cāng)架的復(fù)雜作業(yè)。這種LBM（Large Behavior Models，大行為模型）方法讓機(jī)器人具備跨任務(wù)泛化能力，邁出了工業(yè)化實(shí)踐的一大步。

誰(shuí)能想到，曾經(jīng)主打「特技表演」的網(wǎng)紅機(jī)器人，已經(jīng)在廠里打工半年了。

那么，經(jīng)歷了這么時(shí)間的磨練， Atlas 在干活這塊的能力，到底有沒有進(jìn)步呢？

就在剛剛，波士頓動(dòng)力發(fā)布的最新Vlog，給出了答案。

在下面這個(gè)分揀場(chǎng)景中，Atlas需要把放在藍(lán)色小箱子里的零件，轉(zhuǎn)移到旁邊的大箱子中。

只見它剛彎下膝蓋，并用自己的兩指抓手打開一側(cè)的蓋子，「討厭」的人類就拿著曲棍球桿來(lái)?yè)v亂了。

不過(guò)，Atlas對(duì)此非常淡定——一遍又一遍地把蓋子掀開。

沒多久，那個(gè)拿著曲棍球桿的人類又來(lái)了。

這次，他決定偷偷將箱子挪開，看看Atlas是不是會(huì)呆呆地「撿空氣」。

Atlas內(nèi)心OS：「就這？」，然后默默地把箱子搬了回來(lái)。

接下來(lái)，人類又來(lái)上難度了。

此前Atlas已經(jīng)確認(rèn)了箱子蓋子已經(jīng)打開，如果現(xiàn)在再給合上又會(huì)如何？

顯然，這并不是一個(gè)編程好的固定動(dòng)作，而是它通過(guò)實(shí)時(shí)的感知來(lái)確定自己需要做什么。

很輕松地，Atlas就把人類扣上的蓋子給打開了。

最后，人類模擬了一下周圍有意外掉落的零件的場(chǎng)景。

只見Atlas先是把箱子挪開，然后調(diào)整身體的位置，很輕松的就把零件撿了起來(lái)。

全新大行為模型來(lái)了！

上面這些所展示的，便是波士頓動(dòng)力全新提出的大行為模型（LBM）。

在LBM的加持下，人形機(jī)器便可以充分發(fā)揮「長(zhǎng)得像人」的優(yōu)勢(shì)：操控各種物體、協(xié)調(diào)全身來(lái)調(diào)整自己的姿態(tài)、適應(yīng)所處環(huán)境、避開障礙物，并在遇到突發(fā)情況時(shí)也能保持平衡等等。

具體來(lái)說(shuō)，構(gòu)建策略的過(guò)程有四個(gè)基本步驟：

1. 通過(guò)在真實(shí)機(jī)器人硬件和模擬環(huán)境中進(jìn)行遙操作，收集具身行為數(shù)據(jù)。

2. 對(duì)數(shù)據(jù)進(jìn)行處理、標(biāo)注和篩選，以便將其輕松整合到機(jī)器學(xué)習(xí)流水線中。

3. 使用涵蓋所有任務(wù)的完整數(shù)據(jù)集，訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)策略。

4. 使用一系列測(cè)試任務(wù)來(lái)評(píng)估該策略。

其中，第4步的評(píng)估結(jié)果將被用于判斷還需要補(bǔ)充哪些數(shù)據(jù)，以及哪種網(wǎng)絡(luò)架構(gòu)或推理策略的性能更好。

接著，在模型的訓(xùn)練上，研究人員采用了擴(kuò)散Transformer模型與流匹配損失函數(shù)相結(jié)合的方式。

這一策略能夠?qū)⒂蓤D像、本體感覺和語(yǔ)言提示所構(gòu)成的輸入，映射為控制整個(gè)Atlas機(jī)器人的動(dòng)作指令。其中，控制頻率為30Hz。

長(zhǎng)時(shí)程、端到端的操控

「Spot工坊」任務(wù)展示了協(xié)同運(yùn)動(dòng)（包括踏步、開闊步寬和下蹲）與靈巧操控（包括零件拾取、重新抓取、關(guān)節(jié)操控、放置和滑動(dòng)）的能力。

下面這段一鏡到底的端到端視頻中，展示了一個(gè)單一的、由語(yǔ)言條件化的策略來(lái)執(zhí)行全部任務(wù)序列。

該任務(wù)由三個(gè)子任務(wù)構(gòu)成：

從手推車上抓取Spot機(jī)器狗的腿部零件，將其折疊，然后放置到架子上。
從手推車上抓取面板，然后拉開底層架子上的箱子，并將面板放入箱中。
當(dāng)手推車被完全清空后，機(jī)器人會(huì)轉(zhuǎn)向后方的藍(lán)色大箱子，將其中的所有其他Spot零件清理出來(lái)，分批抓取并放入一旁的藍(lán)色傾倒車中。

其中，每個(gè)子任務(wù)都是通過(guò)向該策略傳遞一個(gè)高層語(yǔ)義的語(yǔ)言提示詞來(lái)觸發(fā)的。

實(shí)際上，機(jī)器人在最開始的時(shí)候，并不能應(yīng)對(duì)現(xiàn)實(shí)中的各種意外。

而LBM可以僅憑訓(xùn)練中觀察到的經(jīng)驗(yàn)，通過(guò)機(jī)器人的傳感器有效評(píng)估外部環(huán)境狀態(tài)，并據(jù)此做出反應(yīng)。

于是，通過(guò)向機(jī)器人演示如何從這類干擾中恢復(fù)，并重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)，便能快速部署具備反應(yīng)能力的新策略，整個(gè)過(guò)程無(wú)需任何算法或工程上的改動(dòng)。

其結(jié)果便是，今后再為機(jī)器人開發(fā)新的操控行為，就不需要高深的學(xué)位和多年的經(jīng)驗(yàn)了！

其他操控能力

在Atlas MTS（操作測(cè)試臺(tái)）上，僅使用一個(gè)語(yǔ)言條件化策略，就能完成從簡(jiǎn)單的抓取與放置，到更復(fù)雜的任務(wù)，如系繩、翻轉(zhuǎn)吧臺(tái)凳、展開并鋪平桌布，以及操控一個(gè)重達(dá)22磅（約10公斤）的汽車輪胎。

由于繩索、布料和輪胎具有可變形的幾何特性以及復(fù)雜的操控序列，使用傳統(tǒng)的機(jī)器人編程技術(shù)來(lái)完成這些任務(wù)會(huì)極其困難。

但有了LBM，無(wú)論是堆疊剛性積木還是折疊T恤，訓(xùn)練過(guò)程都別無(wú)二致：只要你來(lái)演示，機(jī)器自會(huì)學(xué)習(xí)。

學(xué)習(xí)后策略性能的自適應(yīng)調(diào)整

除此之外，LBM還有一個(gè)優(yōu)勢(shì)——可以在推理時(shí)加快其執(zhí)行速度，而無(wú)需對(duì)訓(xùn)練過(guò)程進(jìn)行任何更改。

具體來(lái)說(shuō)，由于LBM會(huì)預(yù)測(cè)未來(lái)動(dòng)作的軌跡以及執(zhí)行這些動(dòng)作的時(shí)間點(diǎn)，因此可以通過(guò)調(diào)整這一時(shí)間規(guī)劃來(lái)控制執(zhí)行速度。

下面這個(gè)視頻，對(duì)比的便是1倍速（即數(shù)據(jù)采集時(shí)的演示速度）、2倍速和3倍速下的運(yùn)行情況。

總的來(lái)說(shuō)，在MTS和完整的Atlas平臺(tái)上，加速個(gè)1.5倍至2倍，基本都不會(huì)對(duì)性能產(chǎn)生顯著影響。

而這也表明，在某些情況下，機(jī)器人將能夠超越人類遠(yuǎn)程操控的速度極限。

技術(shù)路徑

平臺(tái)能力：高自由度帶來(lái)的極致靈活性

Atlas機(jī)器人本體擁有50個(gè)自由度（DoF, Degrees of Freedom），這意味著它在空間內(nèi)的活動(dòng)范圍和動(dòng)作靈巧度都非常突出。

相比之下，Atlas MTS（操作測(cè)試臺(tái)）則配備了29個(gè)自由度，主要用來(lái)專攻各種復(fù)雜的純操控任務(wù)。每只機(jī)械手上有7個(gè)自由度，這也讓Atlas能靈活切換多種抓取方式——不管是強(qiáng)力一把抓，還是需要精細(xì)控制的捏取動(dòng)作都不在話下。

感知系統(tǒng)方面，Atlas頭部裝有一對(duì)HDR立體相機(jī)，這不僅讓操作員在遙操作時(shí)能對(duì)環(huán)境一覽無(wú)余，也為策略模型提供了高質(zhì)量的視覺輸入，是實(shí)現(xiàn)復(fù)雜操控的關(guān)鍵基礎(chǔ)。

遙操作：用高質(zhì)量數(shù)據(jù)喂飽模型

要讓機(jī)器人動(dòng)得順暢、靈巧，控制系統(tǒng)必須跟得上。這一塊，團(tuán)隊(duì)下了大力氣，專門為Atlas搭了一套遙操作系統(tǒng)。

底層用的還是波士頓動(dòng)力自家成熟的MPC（Model Predictive Control，模型預(yù)測(cè)控制）框架，這套方案早就在跑酷、跳舞等場(chǎng)景里驗(yàn)證過(guò)，能確保機(jī)器人穩(wěn)住身形、避免自撞的同時(shí)，還能靈活完成復(fù)雜操作——相當(dāng)于把Atlas硬件的天花板又往上抬了一截。

實(shí)際操控時(shí)，操作員戴上VR頭顯，直接「進(jìn)入」機(jī)器人的工作空間，看到的畫面和策略模型拿到的數(shù)據(jù)是完全一致的。Atlas頭部的攝像頭拍下的實(shí)時(shí)畫面，會(huì)被重新映射成立體視覺效果，操作員的空間感一下子拉滿。

團(tuán)隊(duì)還專門開發(fā)了一套定制的VR軟件，界面里能下各種操作指令，同時(shí)把機(jī)器人的狀態(tài)、控制目標(biāo)、各類傳感器數(shù)據(jù)、觸覺反饋等實(shí)時(shí)流推送給操作者，像AR、觸覺手柄、HUD平視顯示等交互細(xì)節(jié)也都沒落下。

這樣一來(lái)，人和機(jī)器的「感官」高度同步，機(jī)器人的各種能力就能被盡可能發(fā)揮出來(lái)，高質(zhì)量的數(shù)據(jù)采集也就水到渠成。

最早的VR遙操作版本，其實(shí)就像一套全身跟蹤設(shè)備——操作員只需要戴上頭顯、配合定位基站、手柄，再加一個(gè)胸部追蹤器，就能遠(yuǎn)程控制靜止站立的Atlas。

這里采用的是一對(duì)一映射，操作員的手怎么動(dòng)，機(jī)器人的手也跟著一模一樣地動(dòng)，控制邏輯非常直觀，特別適合需要雙手配合的任務(wù)。

憑這套方案，操作員已經(jīng)可以讓Atlas完成一系列操作，比如蹲下?lián)斓厣系臇|西，或者身體伸展開去夠高處的貨架。

不過(guò)，第一代系統(tǒng)有個(gè)明顯短板：它不支持操作員自由地移動(dòng)腳步，亦即無(wú)法靈活控制Atlas的站位和行走動(dòng)作，能實(shí)現(xiàn)的任務(wù)類型受到很大限制。

為了打破這個(gè)瓶頸，團(tuán)隊(duì)給Atlas的雙腳也加上了追蹤器，實(shí)現(xiàn)了手腳都能一對(duì)一映射。與此同時(shí)，遙操作控制也進(jìn)一步升級(jí)：現(xiàn)在Atlas的站姿、重心支撐區(qū)、多邊形變化和步態(tài)規(guī)劃，都能和操作者完全同步。

這一套下來(lái)，不只是讓Atlas能走能動(dòng)，整個(gè)工作空間的利用率也大大提升——比如，要打開地上的藍(lán)色箱子并從里面取東西，操作員可以讓機(jī)器人張開雙腿、膝蓋下蹲，不會(huì)碰到箱體，還能把手伸進(jìn)箱子里拿到物品。

此外，Atlas用的神經(jīng)網(wǎng)絡(luò)策略和遙操作其實(shí)共用同一個(gè)機(jī)器人控制接口。團(tuán)隊(duì)只需要在原有靜態(tài)策略的基礎(chǔ)上，擴(kuò)展一下動(dòng)作的表示方式，就能復(fù)用之前的模型架構(gòu)，連遷移都變得很順滑。

策略模型：跨平臺(tái)大模型，懂圖像、理解指令

Atlas用的策略模型，底層其實(shí)是豐田研究院提出的大行為模型（LBM），不過(guò)他們?cè)诖嘶A(chǔ)上又做了不少擴(kuò)展，核心思路跟擴(kuò)散策略那一套很像。

主模型是基于擴(kuò)散Transformer架構(gòu)打造的，規(guī)模高達(dá)4.5億參數(shù)，優(yōu)化目標(biāo)采用了流匹配（flow-matching）機(jī)制。

這個(gè)策略模型用到的信息很豐富，既看本體感覺、也看環(huán)境圖像，還能接收一句語(yǔ)言指令來(lái)明確任務(wù)目標(biāo)。

圖像數(shù)據(jù)以30Hz的頻率不斷輸入，網(wǎng)絡(luò)每次會(huì)利用一段歷史觀測(cè)，直接預(yù)測(cè)出一組長(zhǎng)度為48的動(dòng)作塊——對(duì)應(yīng)1.6秒的連續(xù)動(dòng)作。

實(shí)際運(yùn)行時(shí)，每輪策略推理會(huì)執(zhí)行24幀動(dòng)作（也就是0.8秒的內(nèi)容，如果按1倍速來(lái)算）。

從輸入輸出來(lái)看，Atlas策略的觀測(cè)空間涵蓋了頭部攝像頭采集的圖像和本體感覺信號(hào)，動(dòng)作空間則包括左右手抓手的關(guān)節(jié)位置、脖子扭轉(zhuǎn)、軀干姿態(tài)，以及雙手和雙腳的動(dòng)作。

Atlas MTS這邊，上半身硬件和Atlas一模一樣，觀測(cè)空間和動(dòng)作空間設(shè)置也保持一致，只是去掉了下半身和軀干的控制部分。軟硬件的高度統(tǒng)一，也方便團(tuán)隊(duì)訓(xùn)練跨平臺(tái)通用的策略模型，兩種機(jī)體的數(shù)據(jù)可以直接打通用起來(lái)。

仿真：高效開發(fā)的「秘密武器」

仿真對(duì)Atlas團(tuán)隊(duì)來(lái)說(shuō)是不可或缺的核心工具。一方面，它讓遙操作系統(tǒng)的開發(fā)迭代快得多，還能輕松寫單元測(cè)試、集成測(cè)試，保障開發(fā)過(guò)程始終穩(wěn)定、不被各種突發(fā)問題打斷。

更重要的是，不管是策略訓(xùn)練還是評(píng)估，很多需要大量試錯(cuò)、重復(fù)驗(yàn)證的環(huán)節(jié)，仿真環(huán)境都能省下大量時(shí)間和硬件成本——畢竟真機(jī)測(cè)試既慢又貴，還難以完全復(fù)現(xiàn)每次實(shí)驗(yàn)的細(xì)節(jié)。

團(tuán)隊(duì)自研的仿真堆棧與實(shí)際硬件、機(jī)器人軟件保持了極高的一致性，所以數(shù)據(jù)流水線、可視化工具、訓(xùn)練代碼、VR軟件和接口等各個(gè)環(huán)節(jié)都能在仿真和真機(jī)之間無(wú)縫切換，效率拉滿。

仿真不僅用來(lái)做策略和系統(tǒng)架構(gòu)的基準(zhǔn)測(cè)試，還直接作為多任務(wù)、多機(jī)體大模型訓(xùn)練的重要數(shù)據(jù)源?？恐哔|(zhì)量、可控的仿真數(shù)據(jù)，硬件上部署的多機(jī)器人多任務(wù)策略才能真正跑起來(lái)。

參考資料：

https://www.youtube.com/watch?v=HYwekersccY&t=2s

https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.