機(jī)器之心發(fā)布
機(jī)器之心編輯部
在當(dāng)今科技飛速發(fā)展的時(shí)代,機(jī)器人在各個(gè)領(lǐng)域的應(yīng)用越來越廣泛,從工業(yè)生產(chǎn)到日常生活,都能看到它們的身影。然而,現(xiàn)代機(jī)器人導(dǎo)航系統(tǒng)在多樣化和復(fù)雜的室內(nèi)環(huán)境中面臨著諸多挑戰(zhàn),傳統(tǒng)方法的局限性愈發(fā)明顯。
一、傳統(tǒng)導(dǎo)航瓶頸凸顯,Astra 應(yīng)勢(shì)而生
在復(fù)雜的真實(shí)世界中,移動(dòng)機(jī)器人想要安全可靠地行走,必須解決三大挑戰(zhàn):我要去哪?我在哪?我要怎么去?這正是目標(biāo)定位、自我定位與路徑規(guī)劃三大導(dǎo)航核心問題。目標(biāo)定位時(shí),在某些應(yīng)用中,目標(biāo)可能通過自然語言或目標(biāo)圖像提示指定,這就需要系統(tǒng)理解提示并在地圖中定位目標(biāo);自我定位要求機(jī)器人在地圖中確定自身位置,尤其是在像倉庫這樣高度重復(fù)且缺乏全局地標(biāo)的復(fù)雜場(chǎng)景中,傳統(tǒng)導(dǎo)航系統(tǒng)常依賴人工地標(biāo),如 QR 碼;路徑規(guī)劃又分為全局規(guī)劃和局部規(guī)劃,全局規(guī)劃根據(jù)機(jī)器人位姿和目標(biāo)位姿生成粗略路線,局部規(guī)劃則負(fù)責(zé)在避開障礙物的同時(shí)到達(dá)全局路徑上的中間路點(diǎn)。
為解決這些任務(wù),傳統(tǒng)導(dǎo)航系統(tǒng)通常由多個(gè)模塊組成,包含多個(gè)小模型或基于規(guī)則的系統(tǒng)。近年來,基礎(chǔ)模型的出現(xiàn)促使人們將小模型集成到更大的模型中以解決更多任務(wù),但所需模型數(shù)量及如何有效整合仍有待探索。
為了突破傳統(tǒng)導(dǎo)航系統(tǒng)的瓶頸,字節(jié)跳動(dòng)研發(fā)了一種創(chuàng)新的雙模型架構(gòu) Astra。
- 論文標(biāo)題:Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning
- 網(wǎng)站:https://astra-mobility.github.io/
通過兩大子模型:Astra-Global 與 Astra-Local,在環(huán)境理解感知與實(shí)時(shí)規(guī)劃決策之間建立通路,為下一代智能體的 “通用導(dǎo)航能力” 打下基礎(chǔ)。Astra 遵循 System 1/System 2 理念,Astra-Global 負(fù)責(zé)低頻任務(wù),如目標(biāo)和自我定位;Astra-Local 管理高頻任務(wù),包括局部路徑規(guī)劃和里程計(jì)估計(jì)。這種架構(gòu)的出現(xiàn),為移動(dòng)機(jī)器人導(dǎo)航領(lǐng)域帶來了新的希望,有望徹底改變機(jī)器人在復(fù)雜室內(nèi)環(huán)境中的導(dǎo)航方式。
圖1: Astra模型概述
二、Astra 雙模型架構(gòu)揭秘,賦能機(jī)器人高效導(dǎo)航
1. Astra-Global:全局定位的智慧大腦
Astra-Global 作為 Astra 架構(gòu)中的重要組成部分,猶如智慧大腦,承擔(dān)著關(guān)鍵的低頻任務(wù),即自我定位和目標(biāo)定位。它是一個(gè)多模態(tài)大語言模型(MLLM),能夠巧妙地處理視覺和語言輸入,在全局地圖中實(shí)現(xiàn)精準(zhǔn)定位。其核心在于利用混合拓?fù)湔Z義圖,將其作為上下文輸入,使得模型能夠依據(jù)查詢圖像或文本提示,在地圖中準(zhǔn)確找到對(duì)應(yīng)的位置。
圖2: Astra-Global 架構(gòu)
在構(gòu)建這個(gè)強(qiáng)大的定位系統(tǒng)時(shí),離線映射是關(guān)鍵的第一步。研究團(tuán)隊(duì)提出了一種離線方法來構(gòu)建混合拓?fù)湔Z義圖 G=(V,E,L)。在這個(gè)圖中,V 代表節(jié)點(diǎn)集合,通過對(duì)輸入視頻進(jìn)行時(shí)間下采樣,并利用 SfM 估計(jì)近似的 6 自由度(DoF)相機(jī)位姿,將關(guān)鍵幀設(shè)為節(jié)點(diǎn),這些節(jié)點(diǎn)編碼了相機(jī)位姿和地標(biāo)引用;E 是基于節(jié)點(diǎn)相對(duì)位姿關(guān)系建立的無向邊集合,對(duì)于全局路徑規(guī)劃至關(guān)重要,它代表了幾何連通性;L 則是地標(biāo)信息集合,通過 Astra-Global 從每個(gè)節(jié)點(diǎn)的視覺數(shù)據(jù)中提取語義地標(biāo),豐富了地圖的語義理解,地標(biāo)存儲(chǔ)了語義屬性,并通過共視關(guān)系與多個(gè)節(jié)點(diǎn)相連。例如,在一個(gè)辦公室場(chǎng)景中,拓?fù)涞貓D構(gòu)建確定了各個(gè)房間、走廊等位置的節(jié)點(diǎn)和連接關(guān)系,地標(biāo)語義豐富則為這些節(jié)點(diǎn)添加了如 “會(huì)議室”“辦公桌區(qū)域” 等地標(biāo)信息。地標(biāo)共視圖表的構(gòu)建進(jìn)一步確保了不同節(jié)點(diǎn)間關(guān)于地標(biāo)信息的一致性,使得機(jī)器人能夠更全面地理解場(chǎng)景。
在實(shí)際定位過程中,Astra-Global 的自定位與目標(biāo)定位功能展現(xiàn)出獨(dú)特的優(yōu)勢(shì)。視覺 - 語言定位采用粗到精的兩階段過程。在粗定位階段,模型分析輸入圖像和定位提示,檢測(cè)地標(biāo)并與預(yù)建地標(biāo)地圖建立對(duì)應(yīng)關(guān)系,同時(shí)通過視覺一致性過濾,依據(jù)圖像相似性進(jìn)一步優(yōu)化匹配結(jié)果,確定最終候選節(jié)點(diǎn)。如在一個(gè)倉庫環(huán)境中,機(jī)器人通過攝像頭獲取圖像,Astra-Global 能夠識(shí)別出貨架、叉車等地標(biāo),并與地圖中的地標(biāo)信息匹配,篩選出可能的位置。在精定位階段,模型利用查詢圖像和粗定位輸出的候選節(jié)點(diǎn),從離線地圖中采樣參考地圖節(jié)點(diǎn),通過比較參考節(jié)點(diǎn)的視覺和位置信息,直接輸出查詢圖像的預(yù)測(cè)位姿,實(shí)現(xiàn)高精度定位?;谡Z言的目標(biāo)定位同樣出色,模型根據(jù)自然語言指令,利用地圖中地標(biāo)已有的功能描述,識(shí)別相關(guān)地標(biāo),再通過地標(biāo)到節(jié)點(diǎn)的關(guān)聯(lián)機(jī)制,定位相關(guān)節(jié)點(diǎn),獲取目標(biāo)位置的圖像和 6 自由度位姿。比如,當(dāng)用戶發(fā)出 “找到打印機(jī)” 的指令時(shí),Astra-Global 能迅速在地圖中找到與 “打印機(jī)” 相關(guān)的地標(biāo)節(jié)點(diǎn),從而確定打印機(jī)的位置。
為了讓 Astra-Global 具備強(qiáng)大的定位能力,研究團(tuán)隊(duì)采用了精心設(shè)計(jì)的訓(xùn)練方法。以 Qwen2.5-VL 為骨干,結(jié)合監(jiān)督微調(diào)(SFT)和組相對(duì)策略優(yōu)化(GRPO)。在 SFT 階段,準(zhǔn)備包含不同任務(wù)的多樣化數(shù)據(jù)集,除了粗定位和精定位數(shù)據(jù)集外,還構(gòu)建了如共視檢測(cè)、共視圖像選擇、運(yùn)動(dòng)趨勢(shì)估計(jì)等輔助任務(wù)數(shù)據(jù)集,以提升模型的空間理解能力。在 GRPO 階段,針對(duì)視覺 - 語言定位任務(wù),利用基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練,獎(jiǎng)勵(lì)函數(shù)包括格式獎(jiǎng)勵(lì)、地標(biāo)提取獎(jiǎng)勵(lì)、地圖匹配獎(jiǎng)勵(lì)和額外地標(biāo)獎(jiǎng)勵(lì)等,通過不斷優(yōu)化獎(jiǎng)勵(lì)函數(shù),提升模型在定位任務(wù)中的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,GRPO 顯著提升了 Astra-Global 在零樣本場(chǎng)景下的泛化能力,如在未見過的家庭環(huán)境中,SFT + GRPO 方法的定位準(zhǔn)確率達(dá)到 99.9%,超過同等數(shù)據(jù)量下 SFT-only 方法的 93.7% 。
2. Astra-Local:本地規(guī)劃的智能助手
Astra-Local 則是 Astra 架構(gòu)中負(fù)責(zé)高頻任務(wù)的智能助手,它是一個(gè)多任務(wù)網(wǎng)絡(luò),能夠從傳感器數(shù)據(jù)中高效地生成局部路徑并準(zhǔn)確估計(jì)里程計(jì)。其架構(gòu)包含三個(gè)核心組件:4D 時(shí)空編碼器、規(guī)劃頭和里程計(jì)頭,每個(gè)組件都發(fā)揮著不可或缺的作用。
圖3: Astra-Local 架構(gòu)
4D 時(shí)空編碼器是 Astra-Local 的基礎(chǔ)組件,它旨在取代傳統(tǒng)移動(dòng)性堆棧中的感知和預(yù)測(cè)模塊。首先是 3D 空間編碼器,它以 N 個(gè)環(huán)視圖像為輸入,通過 Vision Transformer(ViT)將圖像編碼為判別性特征表示,再利用 Lift-Splat-Shoot 將 2D 圖像特征轉(zhuǎn)換為 3D voxel 特征。為了訓(xùn)練 3D 空間編碼器,采用自監(jiān)督學(xué)習(xí)方式,通過 3D 體積可微神經(jīng)渲染,利用深度和顏色圖像進(jìn)行監(jiān)督。對(duì)于缺乏深度標(biāo)簽的情況,借助大尺度單目深度估計(jì)模型對(duì)齊稀疏深度傳感器數(shù)據(jù)后生成偽深度標(biāo)簽。接著,4D 時(shí)空編碼器在 3D 編碼器的基礎(chǔ)上進(jìn)行訓(xùn)練,它以過去的 voxel 特征和未來時(shí)間戳為輸入,通過 ResNet 和 DiT 模塊預(yù)測(cè)未來 voxel 特征。經(jīng)過預(yù)訓(xùn)練的 4D 時(shí)空編碼器能夠生成當(dāng)前和未來的環(huán)境狀態(tài)表示,為后續(xù)的路徑規(guī)劃和里程計(jì)估計(jì)提供有力支持。
規(guī)劃頭基于預(yù)訓(xùn)練的 4D 特征,結(jié)合機(jī)器人速度和任務(wù)信息(如目標(biāo)位姿),通過基于 Transformer 的流匹配來生成可執(zhí)行的軌跡。在復(fù)雜環(huán)境中,軌跡具有多模態(tài)特性,流匹配因其高效率成為實(shí)時(shí)系統(tǒng)中路徑規(guī)劃的理想方法。為了避免與各種障礙物發(fā)生碰撞,規(guī)劃頭引入了掩碼 ESDF 損失。通過計(jì)算 3D 占用地圖的歐幾里得空間距離場(chǎng)(ESDF)圖,并在 ESDF 圖上添加 2D 地面真實(shí)軌跡掩碼,有效地減少了碰撞率。實(shí)驗(yàn)結(jié)果顯示,在包含許多未見擁擠場(chǎng)景的 OOD 數(shù)據(jù)集上,使用掩碼 ESDF 損失的方法在碰撞率和綜合得分方面都優(yōu)于其他方法,充分證明了其在生成高質(zhì)量軌跡方面的有效性。
里程計(jì)頭的主要任務(wù)是利用當(dāng)前和過去的 4D 特征以及額外的傳感器數(shù)據(jù)(如 IMU、車輪數(shù)據(jù))來預(yù)測(cè)機(jī)器人的相對(duì)位姿。它通過訓(xùn)練一個(gè) Transformer 模型來融合不同傳感器的信息,每個(gè)傳感器模態(tài)的數(shù)據(jù)都經(jīng)過特定的 tokenizer 處理,再結(jié)合模態(tài)嵌入和時(shí)間位置嵌入,輸入到 Transformer 編碼器中,最后利用 CLS token 預(yù)測(cè)相對(duì)位姿。在實(shí)驗(yàn)中,與基于兩幀的基線方法相比,Astra-Local 的里程計(jì)頭在多傳感器融合和位姿估計(jì)方面表現(xiàn)出色,如在加入 IMU 數(shù)據(jù)后,旋轉(zhuǎn)估計(jì)精度大幅提升,整體軌跡誤差降低到約 2%,進(jìn)一步加入車輪數(shù)據(jù)后,尺度穩(wěn)定性和估計(jì)精度進(jìn)一步增強(qiáng),展示了其在多傳感器數(shù)據(jù)融合方面的優(yōu)勢(shì)。
三、實(shí)驗(yàn)數(shù)據(jù)見證實(shí)力
為了全面評(píng)估 Astra 的性能,研究團(tuán)隊(duì)在多種不同的室內(nèi)環(huán)境中展開了廣泛且深入的實(shí)驗(yàn),涵蓋了倉庫、辦公樓和家庭等場(chǎng)景。這些實(shí)驗(yàn)不僅驗(yàn)證了 Astra 在理論上的創(chuàng)新架構(gòu)和算法的有效性,更展示了其在實(shí)際應(yīng)用中的潛力和可靠性。
1. 多模態(tài)定位能力
Astra-Global 的多模態(tài)定位能力通過一系列實(shí)驗(yàn)得到了驗(yàn)證。在處理文本和圖像定位查詢時(shí),Astra-Global 表現(xiàn)出色。對(duì)于目標(biāo)定位任務(wù),它能夠準(zhǔn)確地根據(jù)文本指令在地圖中識(shí)別出匹配的圖像和位姿,例如當(dāng)接收到 “找到休息的地方” 這樣的指令時(shí),Astra-Global 能夠迅速定位到地圖中沙發(fā)等休息區(qū)域的位置信息。與傳統(tǒng)的視覺位置識(shí)別(VPR)方法相比,Astra-Global 具有較大優(yōu)勢(shì)。在細(xì)節(jié)捕捉方面,傳統(tǒng) VPR 方法常依賴全局特征,容易忽略像房間號(hào)這樣的精細(xì)細(xì)節(jié),而 Astra-Global 能夠精準(zhǔn)捕捉這些關(guān)鍵信息,避免在相似場(chǎng)景中出現(xiàn)定位錯(cuò)誤。在視點(diǎn)變化的魯棒性上,Astra-Global 基于語義地標(biāo)進(jìn)行定位,即使相機(jī)角度發(fā)生較大變化,地標(biāo)之間的相對(duì)位置關(guān)系保持不變,使其能夠更穩(wěn)定地進(jìn)行定位,而傳統(tǒng) VPR 方法在面對(duì)大的視點(diǎn)變化時(shí)往往會(huì)出現(xiàn)定位偏差。在位姿精度上,當(dāng)存在多個(gè)相似候選位置時(shí),Astra-Global 能夠利用地標(biāo)空間關(guān)系選擇最佳匹配位姿,在 1 米距離誤差和 5 度角誤差范圍內(nèi)的位姿精度顯著高于傳統(tǒng) VPR 方法,在倉庫環(huán)境中的位姿精度比傳統(tǒng)方法提升了近 30%+。
圖4: 不同場(chǎng)景下Astra Global的定位精度都顯著高于傳統(tǒng)VPR方法
2. 規(guī)劃與里程計(jì)性能
Astra-Local 中規(guī)劃頭和里程計(jì)頭的性能同樣在實(shí)驗(yàn)中得到了充分的評(píng)估。在規(guī)劃頭方面,研究團(tuán)隊(duì)將其與 ACT 和擴(kuò)散策略(DP)等方法進(jìn)行了對(duì)比。在碰撞率、速度和得分等指標(biāo)上,使用基于 Transformer 的流匹配和掩碼 ESDF 損失的 Astra-Local 規(guī)劃頭表現(xiàn)良好。在包含許多未見擁擠場(chǎng)景的 OOD 數(shù)據(jù)集上,Astra-Local 的碰撞率明顯低于其他方法,同時(shí)能夠保持較高的速度和綜合得分,充分證明了掩碼 ESDF 損失在減少碰撞風(fēng)險(xiǎn)方面的有效性。在里程計(jì)頭方面,通過在包含同步圖像序列、IMU 和車輪數(shù)據(jù)以及地面真實(shí)位姿的多模態(tài)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果顯示,與基于兩幀 BEV-ODOM 的基線方法相比,Astra-Local 的里程計(jì)頭在多傳感器融合和位姿估計(jì)方面具有較大優(yōu)勢(shì)。加入 IMU 數(shù)據(jù)后,旋轉(zhuǎn)估計(jì)精度大幅提升,整體軌跡誤差降低到約 2%,進(jìn)一步加入車輪數(shù)據(jù)后,尺度穩(wěn)定性和估計(jì)精度進(jìn)一步增強(qiáng),有效提升了機(jī)器人在復(fù)雜環(huán)境中的運(yùn)動(dòng)控制和導(dǎo)航能力。
圖5: 通過掩碼esdf loss可以顯著降低規(guī)劃頭的碰撞率
圖6: 里程計(jì)任務(wù)頭通過transformer有效的融合多傳感器信息
四、未來展望
展望未來,Astra 有著廣闊的發(fā)展前景和應(yīng)用潛力。在更廣泛的場(chǎng)景部署方面,Astra 有望拓展到更多復(fù)雜的室內(nèi)環(huán)境,如大型商場(chǎng)、醫(yī)院、圖書館等。在大型商場(chǎng)中,Astra 可幫助機(jī)器人快速定位商品位置,為顧客提供精準(zhǔn)的導(dǎo)購服務(wù);在醫(yī)院里,能協(xié)助醫(yī)療機(jī)器人高效地運(yùn)送藥品和物資,提高醫(yī)療服務(wù)效率;在圖書館中,可助力機(jī)器人整理書籍、引導(dǎo)讀者查找資料。
然而,Astra 目前也存在一些需要改進(jìn)的地方。對(duì)于 Astra-Global 模塊,當(dāng)前的地圖表示雖在信息損失和 token 長度上取得了一定平衡,但在某些情況下仍可能缺乏關(guān)鍵的語義細(xì)節(jié),影響定位的準(zhǔn)確性。未來,研究團(tuán)隊(duì)計(jì)劃深入研究替代地圖壓縮方法,在優(yōu)化效率的同時(shí),最大限度地保留重要語義信息,以提升定位精度。此外,現(xiàn)有的定位僅依賴單幀觀測(cè),在特征缺失或高度重復(fù)的環(huán)境中可能會(huì)失效。為解決這一問題,后續(xù)將引入主動(dòng)探索機(jī)制,讓機(jī)器人能夠主動(dòng)感知周圍環(huán)境,并將時(shí)間推理融入模型,利用序列觀測(cè)實(shí)現(xiàn)更穩(wěn)健的定位,使機(jī)器人在復(fù)雜環(huán)境中也能準(zhǔn)確找到自身和目標(biāo)的位置。
在本地導(dǎo)航與控制方面,Astra-Local 模塊也有提升空間。在實(shí)際機(jī)器人部署中,受限于模型的泛化能力以及基于規(guī)則的回退系統(tǒng)在邊緣情況下容易誤觸發(fā),導(dǎo)致回退率不可忽視。為了增強(qiáng)對(duì)分布外(OOD)場(chǎng)景的魯棒性,團(tuán)隊(duì)將通過改進(jìn)模型架構(gòu)和訓(xùn)練方法,使其能夠更好地應(yīng)對(duì)各種未知情況。同時(shí),重新設(shè)計(jì)回退系統(tǒng),使其更緊密地集成到整個(gè)系統(tǒng)中,實(shí)現(xiàn)更無縫的切換,提高系統(tǒng)的穩(wěn)定性和可靠性。此外,還計(jì)劃將指令跟隨能力集成到模型中,使機(jī)器人能夠理解和執(zhí)行人類的自然語言指令,進(jìn)一步拓展其在動(dòng)態(tài)、以人為中心的環(huán)境中的可用性,實(shí)現(xiàn)更自然、高效的人機(jī)交互。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.