近日,美國機(jī)器人制造商波士頓動力(Boston Dynamics)與日本豐田汽車旗下的高級研究機(jī)構(gòu)豐田研究所(Toyota Research Institute, TRI)近日聯(lián)合宣布了一項(xiàng)在機(jī)器人與人工智能研究領(lǐng)域的重大進(jìn)展。通過雙方的深度合作,為波士頓動力旗下著名的 Atlas 人形機(jī)器人注入了由大型行為模型(Large Behavior Models, LBMs)驅(qū)動的全新人工智能系統(tǒng)。這一突破使得 Atlas 不再僅僅依賴于復(fù)雜的預(yù)編程代碼來執(zhí)行任務(wù),而是能夠通過觀察人類的演示來直接學(xué)習(xí)和掌握新技能,從而向著能夠處理多樣化任務(wù)的通用人形機(jī)器人邁出了關(guān)鍵性的一步。
(來源:BostonDynamics)
我們知道,傳統(tǒng)機(jī)器人編程方式面臨著巨大的瓶頸。工程師必須為機(jī)器人可能遇到的每一種情況手動編寫精確的指令和應(yīng)急預(yù)案,這個過程不僅極其耗時耗力,而且生成的行為往往非常“脆弱”,一旦現(xiàn)實(shí)環(huán)境與預(yù)設(shè)有些許偏差,機(jī)器人便可能無法完成任務(wù)。豐田研究所大型行為模型高級副總裁 Russ Tedrake 指出:“人形機(jī)器人的主要價值主張之一,是它們能夠在現(xiàn)有的人類環(huán)境中直接完成各種各樣的任務(wù),但以往的編程方法根本無法擴(kuò)展以應(yīng)對這一挑戰(zhàn)?!毙峦瞥龅拇笮托袨槟P驼菫榱私鉀Q這一根本性難題。該模型通過一種全新的方式為機(jī)器人賦能:通過人類的演示來快速添加新技能,并且隨著模型能力的增強(qiáng),實(shí)現(xiàn)更魯棒的行為所需要的人類演示也越來越少。
這項(xiàng)合作的核心是一種端到端(end-to-end)的 AI 策略。研究團(tuán)隊(duì)將機(jī)器人的感知、決策與控制整合進(jìn)一個統(tǒng)一的神經(jīng)網(wǎng)絡(luò)中,徹底改變了過去將行走、平衡、操縱等功能分割開來獨(dú)立控制的模式。這個統(tǒng)一的“大腦”可以直接控制 Atlas 的全身,包括其手和腳,使其能夠協(xié)調(diào)并執(zhí)行涉及全身運(yùn)動的復(fù)雜任務(wù),例如行走、蹲下、舉起和搬運(yùn)物體。
在官方發(fā)布的一段演示視頻中,Atlas 面對一個裝有四足機(jī)器人 Spot 零件的推車,自主地執(zhí)行了一系列復(fù)雜的、環(huán)環(huán)相扣的操作。首先,它穩(wěn)健地走到推車旁,用靈巧的雙手抓取 Spot 的機(jī)械腿,將其折疊好,然后轉(zhuǎn)身精確地放置在旁邊的貨架上。接著,它從推車上拿起其他部件(如面板),拉開貨架底層的儲物箱,并將部件放入其中。在清空推車后,任務(wù)并未結(jié)束,Atlas 轉(zhuǎn)身處理身后一個裝滿雜亂零件的藍(lán)色大桶,它抓取數(shù)捧零件,并將它們轉(zhuǎn)移到另一輛大型藍(lán)色推車中。整個過程包含了移動、抓取、折疊、放置、拉抽屜等多種動作,一氣呵成,充分展示了模型執(zhí)行長序列任務(wù)的能力。
更重要的是,該模型賦予了 Atlas 前所未有的適應(yīng)性。在演示過程中,研究人員故意制造了干擾,例如當(dāng) Atlas 正在整理物品時,突然將一個箱子的蓋子合上,或者將一個零件弄掉在地上。在過去,這些意外情況很可能會導(dǎo)致機(jī)器人程序中斷或失敗。但新的 Atlas 能夠智能地應(yīng)對這些變化:它會先嘗試打開被合上的箱蓋;如果零件掉落,它會俯身將其撿起。這種“糾錯”能力并不出自預(yù)先編寫的應(yīng)急代碼,而是得益于模型在訓(xùn)練過程中通過學(xué)習(xí)包含類似干擾和恢復(fù)動作的演示數(shù)據(jù),使得機(jī)器人不再只是僵硬地執(zhí)行指令,而是開始具備了在動態(tài)和不可預(yù)測的環(huán)境中解決問題的初步能力。
這一能力的實(shí)現(xiàn),得益于研究團(tuán)隊(duì)為 LBM 制定的一系列數(shù)據(jù)收集和模型訓(xùn)練流程。研究人員首先通過一個高度沉浸式的虛擬現(xiàn)實(shí)(Virtual Reality,VR)遙操作系統(tǒng)來收集高質(zhì)量的訓(xùn)練數(shù)據(jù)。操作員穿戴 VR 設(shè)備,以第一視角實(shí)時看到機(jī)器人“眼中”的景象,并通過控制器直觀地操控 Atlas 完成指定任務(wù)。在此過程中,系統(tǒng)會記錄下所有相關(guān)數(shù)據(jù),包括機(jī)器人攝像頭的 RGB 圖像、描述機(jī)器人自身姿態(tài)和關(guān)節(jié)位置的本體感覺(proprioception)數(shù)據(jù),以及操作員下達(dá)的高級語言指令。
這些多模態(tài)的數(shù)據(jù)被送入一個擁有 4.5 億參數(shù)、基于擴(kuò)散模型(Diffusion Transformer)的神經(jīng)網(wǎng)絡(luò)架構(gòu)中進(jìn)行訓(xùn)練。模型通過學(xué)習(xí)這些人類演示,逐漸掌握了如何將語言指令與一系列連貫的物理動作聯(lián)系起來,從而能夠自主完成任務(wù)。
圖丨LBM 的策略系統(tǒng)(來源:BostonDynamics)
更重要的是,研究團(tuán)隊(duì)采取了構(gòu)建“通用性策略”(generalist policies)的思路。他們沒有為每一項(xiàng)具體任務(wù)單獨(dú)訓(xùn)練一個專門的模型,而是將來自不同任務(wù)和不同機(jī)器人平臺(包括完整的 Atlas 機(jī)器人、僅有上半身的 Atlas 操控測試臺,以及來自 TRI 的其他數(shù)據(jù))的數(shù)據(jù)整合在一起,訓(xùn)練一個單一的、能夠處理多種任務(wù)的通用模型。
這種方法顯著提升了機(jī)器人的泛化能力和魯棒性,使其在面對新情況時能表現(xiàn)得更好。這也意味著,策略的改進(jìn)可以更方便地在不同任務(wù)和機(jī)器人形態(tài)間共享,從而加速整體研發(fā)進(jìn)程。比如說,通過這種方式訓(xùn)練后,Atlas 能夠處理各種不同性質(zhì)的物體,無論是堅(jiān)硬的工具、柔軟的布料,還是沉重的汽車輪胎,都無需為每一種物體重新編寫程序。
這種數(shù)據(jù)驅(qū)動的學(xué)習(xí)范式還帶來了一個意想不到的好處:執(zhí)行效率的提升。研究團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)過訓(xùn)練的模型在部署時,其動作執(zhí)行速度可以被提升至原始人類演示速度的 1.5 到 2 倍,且無需重新訓(xùn)練。在某些情況下,機(jī)器人的運(yùn)行效率甚至可以超越人類遠(yuǎn)程操作員的極限。
而這一突破離不開波士頓動力與豐田研究所在基礎(chǔ)設(shè)施上的大量投入。他們結(jié)合了物理硬件測試和高保真模擬環(huán)境,創(chuàng)建了一個快速迭代的閉環(huán)系統(tǒng)。新的 AI 策略可以在模擬環(huán)境中進(jìn)行大規(guī)模的測試和驗(yàn)證,這不僅加快了開發(fā)速度,也有效避免了在昂貴的物理樣機(jī)上進(jìn)行高風(fēng)險測試可能導(dǎo)致的損壞。
當(dāng)然,現(xiàn)在就斷言通用人形機(jī)器人就要到來還為時過早,從技術(shù)突破到大規(guī)模商業(yè)化應(yīng)用還有許多問題有待解決,例如,對于 LBM 來說,如何高效、低成本地獲取海量數(shù)據(jù)仍是當(dāng)前繞不開的一大難題。
參考資料:
1.https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.