新智元報(bào)道
編輯:艾倫
【新智元導(dǎo)讀】Atlas進(jìn)廠打工技能再進(jìn)化!波士頓動(dòng)力聯(lián)手豐田研究院,首次讓人形機(jī)器人Atlas能夠通過(guò)語(yǔ)言指令驅(qū)動(dòng),一次性處理從折疊配件到整理倉(cāng)架的復(fù)雜作業(yè)。這種LBM(Large Behavior Models,大行為模型)方法讓機(jī)器人具備跨任務(wù)泛化能力,邁出了工業(yè)化實(shí)踐的一大步。
誰(shuí)能想到,曾經(jīng)主打「特技表演」的網(wǎng)紅機(jī)器人,已經(jīng)在廠里打工半年了。
那么,經(jīng)歷了這么時(shí)間的磨練, Atlas 在干活這塊的能力,到底有沒有進(jìn)步呢?
就在剛剛,波士頓動(dòng)力發(fā)布的最新Vlog,給出了答案。
在下面這個(gè)分揀場(chǎng)景中,Atlas需要把放在藍(lán)色小箱子里的零件,轉(zhuǎn)移到旁邊的大箱子中。
只見它剛彎下膝蓋,并用自己的兩指抓手打開一側(cè)的蓋子,「討厭」的人類就拿著曲棍球桿來(lái)?yè)v亂了。
不過(guò),Atlas對(duì)此非常淡定——一遍又一遍地把蓋子掀開。
沒多久,那個(gè)拿著曲棍球桿的人類又來(lái)了。
這次,他決定偷偷將箱子挪開,看看Atlas是不是會(huì)呆呆地「撿空氣」。
Atlas內(nèi)心OS:「就這?」,然后默默地把箱子搬了回來(lái)。
接下來(lái),人類又來(lái)上難度了。
此前Atlas已經(jīng)確認(rèn)了箱子蓋子已經(jīng)打開,如果現(xiàn)在再給合上又會(huì)如何?
顯然,這并不是一個(gè)編程好的固定動(dòng)作,而是它通過(guò)實(shí)時(shí)的感知來(lái)確定自己需要做什么。
很輕松地,Atlas就把人類扣上的蓋子給打開了。
最后,人類模擬了一下周圍有意外掉落的零件的場(chǎng)景。
只見Atlas先是把箱子挪開,然后調(diào)整身體的位置,很輕松的就把零件撿了起來(lái)。
全新大行為模型來(lái)了!
上面這些所展示的,便是波士頓動(dòng)力全新提出的大行為模型(LBM)。
在LBM的加持下,人形機(jī)器便可以充分發(fā)揮「長(zhǎng)得像人」的優(yōu)勢(shì):操控各種物體、協(xié)調(diào)全身來(lái)調(diào)整自己的姿態(tài)、適應(yīng)所處環(huán)境、避開障礙物,并在遇到突發(fā)情況時(shí)也能保持平衡等等。
具體來(lái)說(shuō),構(gòu)建策略的過(guò)程有四個(gè)基本步驟:
1. 通過(guò)在真實(shí)機(jī)器人硬件和模擬環(huán)境中進(jìn)行遙操作,收集具身行為數(shù)據(jù)。
2. 對(duì)數(shù)據(jù)進(jìn)行處理、標(biāo)注和篩選,以便將其輕松整合到機(jī)器學(xué)習(xí)流水線中。
3. 使用涵蓋所有任務(wù)的完整數(shù)據(jù)集,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)策略。
4. 使用一系列測(cè)試任務(wù)來(lái)評(píng)估該策略。
其中,第4步的評(píng)估結(jié)果將被用于判斷還需要補(bǔ)充哪些數(shù)據(jù),以及哪種網(wǎng)絡(luò)架構(gòu)或推理策略的性能更好。
接著,在模型的訓(xùn)練上,研究人員采用了擴(kuò)散Transformer模型與流匹配損失函數(shù)相結(jié)合的方式。
這一策略能夠?qū)⒂蓤D像、本體感覺和語(yǔ)言提示所構(gòu)成的輸入,映射為控制整個(gè)Atlas機(jī)器人的動(dòng)作指令。其中,控制頻率為30Hz。
長(zhǎng)時(shí)程、端到端的操控
「Spot工坊」任務(wù)展示了協(xié)同運(yùn)動(dòng)(包括踏步、開闊步寬和下蹲)與靈巧操控(包括零件拾取、重新抓取、關(guān)節(jié)操控、放置和滑動(dòng))的能力。
下面這段一鏡到底的端到端視頻中,展示了一個(gè)單一的、由語(yǔ)言條件化的策略來(lái)執(zhí)行全部任務(wù)序列。
該任務(wù)由三個(gè)子任務(wù)構(gòu)成:
從手推車上抓取Spot機(jī)器狗的腿部零件,將其折疊,然后放置到架子上。
從手推車上抓取面板,然后拉開底層架子上的箱子,并將面板放入箱中。
當(dāng)手推車被完全清空后,機(jī)器人會(huì)轉(zhuǎn)向后方的藍(lán)色大箱子,將其中的所有其他Spot零件清理出來(lái),分批抓取并放入一旁的藍(lán)色傾倒車中。
其中,每個(gè)子任務(wù)都是通過(guò)向該策略傳遞一個(gè)高層語(yǔ)義的語(yǔ)言提示詞來(lái)觸發(fā)的。
實(shí)際上,機(jī)器人在最開始的時(shí)候,并不能應(yīng)對(duì)現(xiàn)實(shí)中的各種意外。
而LBM可以僅憑訓(xùn)練中觀察到的經(jīng)驗(yàn),通過(guò)機(jī)器人的傳感器有效評(píng)估外部環(huán)境狀態(tài),并據(jù)此做出反應(yīng)。
于是,通過(guò)向機(jī)器人演示如何從這類干擾中恢復(fù),并重新訓(xùn)練神經(jīng)網(wǎng)絡(luò),便能快速部署具備反應(yīng)能力的新策略,整個(gè)過(guò)程無(wú)需任何算法或工程上的改動(dòng)。
其結(jié)果便是,今后再為機(jī)器人開發(fā)新的操控行為,就不需要高深的學(xué)位和多年的經(jīng)驗(yàn)了!
其他操控能力
在Atlas MTS(操作測(cè)試臺(tái))上,僅使用一個(gè)語(yǔ)言條件化策略,就能完成從簡(jiǎn)單的抓取與放置,到更復(fù)雜的任務(wù),如系繩、翻轉(zhuǎn)吧臺(tái)凳、展開并鋪平桌布,以及操控一個(gè)重達(dá)22磅(約10公斤)的汽車輪胎。
由于繩索、布料和輪胎具有可變形的幾何特性以及復(fù)雜的操控序列,使用傳統(tǒng)的機(jī)器人編程技術(shù)來(lái)完成這些任務(wù)會(huì)極其困難。
但有了LBM,無(wú)論是堆疊剛性積木還是折疊T恤,訓(xùn)練過(guò)程都別無(wú)二致:只要你來(lái)演示,機(jī)器自會(huì)學(xué)習(xí)。
學(xué)習(xí)后策略性能的自適應(yīng)調(diào)整
除此之外,LBM還有一個(gè)優(yōu)勢(shì)——可以在推理時(shí)加快其執(zhí)行速度,而無(wú)需對(duì)訓(xùn)練過(guò)程進(jìn)行任何更改。
具體來(lái)說(shuō),由于LBM會(huì)預(yù)測(cè)未來(lái)動(dòng)作的軌跡以及執(zhí)行這些動(dòng)作的時(shí)間點(diǎn),因此可以通過(guò)調(diào)整這一時(shí)間規(guī)劃來(lái)控制執(zhí)行速度。
下面這個(gè)視頻,對(duì)比的便是1倍速(即數(shù)據(jù)采集時(shí)的演示速度)、2倍速和3倍速下的運(yùn)行情況。
總的來(lái)說(shuō),在MTS和完整的Atlas平臺(tái)上,加速個(gè)1.5倍至2倍,基本都不會(huì)對(duì)性能產(chǎn)生顯著影響。
而這也表明,在某些情況下,機(jī)器人將能夠超越人類遠(yuǎn)程操控的速度極限。
技術(shù)路徑
平臺(tái)能力:高自由度帶來(lái)的極致靈活性
Atlas機(jī)器人本體擁有50個(gè)自由度(DoF, Degrees of Freedom),這意味著它在空間內(nèi)的活動(dòng)范圍和動(dòng)作靈巧度都非常突出。
相比之下,Atlas MTS(操作測(cè)試臺(tái))則配備了29個(gè)自由度,主要用來(lái)專攻各種復(fù)雜的純操控任務(wù)。每只機(jī)械手上有7個(gè)自由度,這也讓Atlas能靈活切換多種抓取方式——不管是強(qiáng)力一把抓,還是需要精細(xì)控制的捏取動(dòng)作都不在話下。
感知系統(tǒng)方面,Atlas頭部裝有一對(duì)HDR立體相機(jī),這不僅讓操作員在遙操作時(shí)能對(duì)環(huán)境一覽無(wú)余,也為策略模型提供了高質(zhì)量的視覺輸入,是實(shí)現(xiàn)復(fù)雜操控的關(guān)鍵基礎(chǔ)。
遙操作:用高質(zhì)量數(shù)據(jù)喂飽模型
要讓機(jī)器人動(dòng)得順暢、靈巧,控制系統(tǒng)必須跟得上。這一塊,團(tuán)隊(duì)下了大力氣,專門為Atlas搭了一套遙操作系統(tǒng)。
底層用的還是波士頓動(dòng)力自家成熟的MPC(Model Predictive Control,模型預(yù)測(cè)控制)框架,這套方案早就在跑酷、跳舞等場(chǎng)景里驗(yàn)證過(guò),能確保機(jī)器人穩(wěn)住身形、避免自撞的同時(shí),還能靈活完成復(fù)雜操作——相當(dāng)于把Atlas硬件的天花板又往上抬了一截。
實(shí)際操控時(shí),操作員戴上VR頭顯,直接「進(jìn)入」機(jī)器人的工作空間,看到的畫面和策略模型拿到的數(shù)據(jù)是完全一致的。Atlas頭部的攝像頭拍下的實(shí)時(shí)畫面,會(huì)被重新映射成立體視覺效果,操作員的空間感一下子拉滿。
團(tuán)隊(duì)還專門開發(fā)了一套定制的VR軟件,界面里能下各種操作指令,同時(shí)把機(jī)器人的狀態(tài)、控制目標(biāo)、各類傳感器數(shù)據(jù)、觸覺反饋等實(shí)時(shí)流推送給操作者,像AR、觸覺手柄、HUD平視顯示等交互細(xì)節(jié)也都沒落下。
這樣一來(lái),人和機(jī)器的「感官」高度同步,機(jī)器人的各種能力就能被盡可能發(fā)揮出來(lái),高質(zhì)量的數(shù)據(jù)采集也就水到渠成。
最早的VR遙操作版本,其實(shí)就像一套全身跟蹤設(shè)備——操作員只需要戴上頭顯、配合定位基站、手柄,再加一個(gè)胸部追蹤器,就能遠(yuǎn)程控制靜止站立的Atlas。
這里采用的是一對(duì)一映射,操作員的手怎么動(dòng),機(jī)器人的手也跟著一模一樣地動(dòng),控制邏輯非常直觀,特別適合需要雙手配合的任務(wù)。
憑這套方案,操作員已經(jīng)可以讓Atlas完成一系列操作,比如蹲下?lián)斓厣系臇|西,或者身體伸展開去夠高處的貨架。
不過(guò),第一代系統(tǒng)有個(gè)明顯短板:它不支持操作員自由地移動(dòng)腳步,亦即無(wú)法靈活控制Atlas的站位和行走動(dòng)作,能實(shí)現(xiàn)的任務(wù)類型受到很大限制。
為了打破這個(gè)瓶頸,團(tuán)隊(duì)給Atlas的雙腳也加上了追蹤器,實(shí)現(xiàn)了手腳都能一對(duì)一映射。與此同時(shí),遙操作控制也進(jìn)一步升級(jí):現(xiàn)在Atlas的站姿、重心支撐區(qū)、多邊形變化和步態(tài)規(guī)劃,都能和操作者完全同步。
這一套下來(lái),不只是讓Atlas能走能動(dòng),整個(gè)工作空間的利用率也大大提升——比如,要打開地上的藍(lán)色箱子并從里面取東西,操作員可以讓機(jī)器人張開雙腿、膝蓋下蹲,不會(huì)碰到箱體,還能把手伸進(jìn)箱子里拿到物品。
此外,Atlas用的神經(jīng)網(wǎng)絡(luò)策略和遙操作其實(shí)共用同一個(gè)機(jī)器人控制接口。團(tuán)隊(duì)只需要在原有靜態(tài)策略的基礎(chǔ)上,擴(kuò)展一下動(dòng)作的表示方式,就能復(fù)用之前的模型架構(gòu),連遷移都變得很順滑。
策略模型:跨平臺(tái)大模型,懂圖像、理解指令
Atlas用的策略模型,底層其實(shí)是豐田研究院提出的大行為模型(LBM),不過(guò)他們?cè)诖嘶A(chǔ)上又做了不少擴(kuò)展,核心思路跟擴(kuò)散策略那一套很像。
主模型是基于擴(kuò)散Transformer架構(gòu)打造的,規(guī)模高達(dá)4.5億參數(shù),優(yōu)化目標(biāo)采用了流匹配(flow-matching)機(jī)制。
這個(gè)策略模型用到的信息很豐富,既看本體感覺、也看環(huán)境圖像,還能接收一句語(yǔ)言指令來(lái)明確任務(wù)目標(biāo)。
圖像數(shù)據(jù)以30Hz的頻率不斷輸入,網(wǎng)絡(luò)每次會(huì)利用一段歷史觀測(cè),直接預(yù)測(cè)出一組長(zhǎng)度為48的動(dòng)作塊——對(duì)應(yīng)1.6秒的連續(xù)動(dòng)作。
實(shí)際運(yùn)行時(shí),每輪策略推理會(huì)執(zhí)行24幀動(dòng)作(也就是0.8秒的內(nèi)容,如果按1倍速來(lái)算)。
從輸入輸出來(lái)看,Atlas策略的觀測(cè)空間涵蓋了頭部攝像頭采集的圖像和本體感覺信號(hào),動(dòng)作空間則包括左右手抓手的關(guān)節(jié)位置、脖子扭轉(zhuǎn)、軀干姿態(tài),以及雙手和雙腳的動(dòng)作。
Atlas MTS這邊,上半身硬件和Atlas一模一樣,觀測(cè)空間和動(dòng)作空間設(shè)置也保持一致,只是去掉了下半身和軀干的控制部分。軟硬件的高度統(tǒng)一,也方便團(tuán)隊(duì)訓(xùn)練跨平臺(tái)通用的策略模型,兩種機(jī)體的數(shù)據(jù)可以直接打通用起來(lái)。
仿真:高效開發(fā)的「秘密武器」
仿真對(duì)Atlas團(tuán)隊(duì)來(lái)說(shuō)是不可或缺的核心工具。一方面,它讓遙操作系統(tǒng)的開發(fā)迭代快得多,還能輕松寫單元測(cè)試、集成測(cè)試,保障開發(fā)過(guò)程始終穩(wěn)定、不被各種突發(fā)問題打斷。
更重要的是,不管是策略訓(xùn)練還是評(píng)估,很多需要大量試錯(cuò)、重復(fù)驗(yàn)證的環(huán)節(jié),仿真環(huán)境都能省下大量時(shí)間和硬件成本——畢竟真機(jī)測(cè)試既慢又貴,還難以完全復(fù)現(xiàn)每次實(shí)驗(yàn)的細(xì)節(jié)。
團(tuán)隊(duì)自研的仿真堆棧與實(shí)際硬件、機(jī)器人軟件保持了極高的一致性,所以數(shù)據(jù)流水線、可視化工具、訓(xùn)練代碼、VR軟件和接口等各個(gè)環(huán)節(jié)都能在仿真和真機(jī)之間無(wú)縫切換,效率拉滿。
仿真不僅用來(lái)做策略和系統(tǒng)架構(gòu)的基準(zhǔn)測(cè)試,還直接作為多任務(wù)、多機(jī)體大模型訓(xùn)練的重要數(shù)據(jù)源??恐哔|(zhì)量、可控的仿真數(shù)據(jù),硬件上部署的多機(jī)器人多任務(wù)策略才能真正跑起來(lái)。
參考資料:
https://www.youtube.com/watch?v=HYwekersccY&t=2s
https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.