成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

斯坦福大學(xué)提出RTR框架,讓機(jī)械臂助力人形機(jī)器人真機(jī)訓(xùn)練

0
分享至



人形機(jī)器人的運(yùn)動控制,正成為強(qiáng)化學(xué)習(xí)(RL)算法應(yīng)用的下一個(gè)熱點(diǎn)研究領(lǐng)域。當(dāng)前,主流方案大多遵循 “仿真到現(xiàn)實(shí)”(Sim-to-Real)的范式。研究者們通過域隨機(jī)化(Domain Randomization)技術(shù),在成千上萬個(gè)具有不同物理參數(shù)的仿真環(huán)境中訓(xùn)練通用控制模型,期望它能憑借強(qiáng)大的泛化能力,直接適應(yīng)動力學(xué)特性未知的真實(shí)世界。盡管這類 “零樣本遷移”(Zero-Shot Transfer)方案在多種運(yùn)動任務(wù)上取得了卓越表現(xiàn),但其本質(zhì)目標(biāo)是訓(xùn)練一種在任何環(huán)境下都 “能用” 的保守策略。這種策略犧牲了機(jī)器人在特定真實(shí)環(huán)境中的性能上限,因?yàn)閷τ谧罱K落地而言,真實(shí)世界的表現(xiàn)才是唯一重要的標(biāo)準(zhǔn)。

為了突破這一瓶頸,近期一些工作開始探索在仿真預(yù)訓(xùn)練后,利用少量真實(shí)數(shù)據(jù)對模型進(jìn)行微調(diào)。例如,來自英偉達(dá)和 CMU 等機(jī)構(gòu)的研究者提出的ASAP[1],通過訓(xùn)練一個(gè)殘差網(wǎng)絡(luò)來快速補(bǔ)償仿真與現(xiàn)實(shí)的動態(tài)差異;而學(xué)界經(jīng)典的RMA(Rapid Motor Adaptation) 算法 [2] 也被應(yīng)用于雙足機(jī)器人,通過一個(gè)適配模塊從歷史動作中推斷環(huán)境動力學(xué)信息 [3]。然而,這些工作大多仍著眼于對動態(tài)偏差進(jìn)行一次性補(bǔ)償,交互范式也更偏向于離線學(xué)習(xí),并未在真實(shí)環(huán)境中對模型本身進(jìn)行持續(xù)的在線調(diào)整。由于人形機(jī)器人本身極不穩(wěn)定,任何微小的失誤都可能導(dǎo)致昂貴的硬件損壞,因此在真實(shí)環(huán)境中直接進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,長期以來被視為一個(gè)難以逾越的障礙。

從人類父母教授嬰兒學(xué)步的過程中汲取靈感,我們創(chuàng)造性地提出,使用一個(gè) “教師” 機(jī)械臂在現(xiàn)實(shí)世界中 “手把手” 地指導(dǎo) “學(xué)生” 人形機(jī)器人進(jìn)行在線強(qiáng)化學(xué)習(xí)。

在這一過程中,教師機(jī)械臂扮演了多重關(guān)鍵角色:它既是保護(hù)安全的 “吊索”,防止學(xué)生摔倒 ;也是自動重置的 “幫手”,可以在失敗后迅速扶起學(xué)生繼續(xù)訓(xùn)練;它還是敏銳的 “信號源”,通過力傳感器收集寶貴的訓(xùn)練數(shù)據(jù),為學(xué)生提供在真實(shí)環(huán)境中不易獲得的獎(jiǎng)勵(lì)信號;更是智慧的 “教練”,通過設(shè)置課程學(xué)習(xí)(Curriculum Learning)進(jìn)度和施加對抗性擾動,在訓(xùn)練初期幫助學(xué)生快速適應(yīng)環(huán)境,再循序漸進(jìn)地提升訓(xùn)練難度,增強(qiáng)學(xué)生的學(xué)習(xí)效率和策略的魯棒性。

我們將這一創(chuàng)新的軟硬件協(xié)同系統(tǒng)命名為 RTR (Robot-Trains-Robot),凸顯了由機(jī)器人教師提供主動物理輔助,對于實(shí)現(xiàn)人形機(jī)器人真機(jī)強(qiáng)化學(xué)習(xí)有重要意義。同時(shí),為解決真實(shí)世界數(shù)據(jù)采集成本高昂的難題,團(tuán)隊(duì)還提出了一種新穎的強(qiáng)化學(xué)習(xí)算法,通過僅優(yōu)化一個(gè)與環(huán)境動力學(xué)相關(guān)的低維隱變量來快速調(diào)整機(jī)器人的行為,極大地提升了樣本效率。這一算法上的貢獻(xiàn)進(jìn)一步解放了真機(jī)強(qiáng)化學(xué)習(xí)的潛力,在評測中顯著超越了 RMA 等傳統(tǒng)的在線系統(tǒng)識別基準(zhǔn)。



論文標(biāo)題:Robot Trains Robot: Automatic Real-World Policy Adaptation and Learning for Humanoids

論文地址:https://arxiv.org/abs/2508.12252

方法

具體來說,RTR 系統(tǒng)由硬件和算法兩部分構(gòu)成:

硬件設(shè)置:教師與學(xué)生的協(xié)同生態(tài)系統(tǒng)

RTR 的硬件系統(tǒng)由 “教師” 和 “學(xué)生” 兩組機(jī)器人組成。

教師系統(tǒng):核心是一臺帶有力 - 矩(Force / Torque)傳感器的 UR5 六軸機(jī)械臂。四根彈性纜繩將機(jī)械臂的末端與人形機(jī)器人的肩部相連,這種柔性連接可以平滑地傳遞輔助力,避免剛性連接帶來的沖擊。在行走任務(wù)中,一臺可編程的跑步機(jī)作為輔助,確保學(xué)生始終在教師的臂展范圍內(nèi)。一臺迷你 PC 作為教師系統(tǒng)的 “大腦”,統(tǒng)一處理力反饋信號并控制機(jī)械臂與跑步機(jī)的行為。

學(xué)生系統(tǒng):學(xué)生基于開源的 ToddlerBot 人形機(jī)器人 [4],它擁有 30 個(gè)自由度,體型緊湊且硬件堅(jiān)固,適合長時(shí)間的連續(xù)訓(xùn)練。開源的機(jī)器人設(shè)計(jì)使得根據(jù)需要對其進(jìn)行修改更加便捷,一臺獨(dú)立的工作站則負(fù)責(zé)運(yùn)行強(qiáng)化學(xué)習(xí)算法,并在學(xué)生手機(jī)數(shù)據(jù)的同時(shí)持續(xù)將最新的策略模型發(fā)送給學(xué)生執(zhí)行。



算法設(shè)計(jì):三階段式高效 Sim-to-Real 微調(diào)

為了最大化數(shù)據(jù)效率,RTR 提出 Sim-to-Real 過程分為三個(gè)階段:

1. 仿真訓(xùn)練具有環(huán)境適應(yīng)性的策略。在大量域隨機(jī)化的仿真環(huán)境中,訓(xùn)練一個(gè)接受編碼了環(huán)境物理參數(shù)(如摩擦力、阻尼等)的隱變量 z 作為輸入的控制策略。該隱變量通過 FiLM (Feature-wise Linear Modulation) [5] 層融入策略網(wǎng)絡(luò),使得機(jī)器人的策略能夠根據(jù)不同的動力學(xué)環(huán)境進(jìn)行自適應(yīng)調(diào)整。



實(shí)驗(yàn)驗(yàn)證

我們通過行走和 “蕩秋千” 兩個(gè)任務(wù),全面驗(yàn)證了 RTR 系統(tǒng)的有效性。

仿真到現(xiàn)實(shí)微調(diào)的行走任務(wù)中,我們是讓機(jī)器人在跑步機(jī)上精準(zhǔn)地追蹤目標(biāo)速度。消融實(shí)驗(yàn)證明了 RTR 系統(tǒng)設(shè)計(jì)的優(yōu)越性:

教師的輔助效果:與固定的吊架相比,能夠主動順應(yīng)機(jī)器人運(yùn)動的 “柔性” 機(jī)械臂(XY Compliant)顯著提升了學(xué)習(xí)效果。同時(shí),從高額輔助逐漸過渡到零輔助的 “課程學(xué)習(xí)” 策略(Z Schedule),優(yōu)于全程高輔助或全程低輔助的固定策略。

微調(diào)算法的數(shù)據(jù)效率:RTR 提出的 “微調(diào)隱變量” 方法,在數(shù)據(jù)效率和最終性能上均優(yōu)于微調(diào)整個(gè)策略網(wǎng)絡(luò)或微調(diào)殘差網(wǎng)絡(luò)的基線方法。僅需 20 分鐘的真實(shí)世界訓(xùn)練,RTR 就能將在仿真中預(yù)訓(xùn)練的行走策略速度提升一倍。



我們還進(jìn)一步設(shè)計(jì)了對比實(shí)驗(yàn),驗(yàn)證了使用 FiLM 層向策略網(wǎng)絡(luò)添加關(guān)于環(huán)境動態(tài)的隱變量條件輸入,其效果優(yōu)于直接將環(huán)境動態(tài)變量拼接到策略網(wǎng)絡(luò)的觀測中。基于 RTR 提出方法的真機(jī)微調(diào)效果,也要強(qiáng)于 RMA 為代表的在線參數(shù)識別基線。



除了 Sim-to-Real 任務(wù),我們還設(shè)計(jì)了純真實(shí)環(huán)境強(qiáng)化學(xué)習(xí)的 “蕩秋千” 實(shí)驗(yàn),以展示 RTR 系統(tǒng)在直接強(qiáng)化學(xué)習(xí)任務(wù)中的潛力。在這個(gè)任務(wù)中,人形機(jī)器人需要學(xué)會協(xié)調(diào)雙腿,像孩子一樣蕩起秋千,以最大化擺動幅度。教師機(jī)械臂通過實(shí)時(shí)力反饋感知學(xué)生的擺動相位,在適當(dāng)時(shí)機(jī)給予 “推動”(幫助)或 “阻尼”(擾動)。實(shí)驗(yàn)結(jié)果表明,有教師主動參與的 “幫助” 和 “擾動” 課程學(xué)習(xí),其效率高于教師僅作為固定吊架的方案,同時(shí)教師感知到的力信息,始終作為重要的獎(jiǎng)勵(lì)信號指導(dǎo)學(xué)生訓(xùn)練。整個(gè)學(xué)習(xí)過程從零開始,在 20 分鐘內(nèi)就學(xué)會了幅度明顯的周期性擺蕩動作。



總結(jié)與展望

RTR 框架的提出,不僅為解決當(dāng)前人形機(jī)器人真機(jī)部署與訓(xùn)練的瓶頸提供了切實(shí)可行的方案,更重要的是,它引入了主動力輔助這一全新的范式來幫助機(jī)器人在真實(shí)世界學(xué)習(xí)。這一極具擴(kuò)展性的框架在未來可以通過使用承載能力更強(qiáng)的工業(yè)機(jī)械臂或帶有力傳感的龍門吊系統(tǒng),將 RTR 的成功經(jīng)驗(yàn)推廣到全尺寸人形機(jī)器人,乃至其他各類復(fù)雜機(jī)器人系統(tǒng)的真實(shí)世界強(qiáng)化學(xué)習(xí)任務(wù)中。

作者介紹

本文的共同第一作者為清華大學(xué)交叉信息研究院許華哲組博士生胡開哲,與斯坦福大學(xué) C. Karen Liu 和 Shuran Song 組博士生史浩辰。文章在胡開哲于斯坦福大學(xué)訪問期間完成。共同通訊作者為斯坦福大學(xué)計(jì)算機(jī)系教授 C. Karen Liu,與斯坦福大學(xué)電子工程系助理教授 Shuran Song。RTR 已被 CoRL 2025 會議接收,項(xiàng)目代碼已全部開放,更多信息可以參考項(xiàng)目網(wǎng)站:robot-trains-robot.github.io,

參考文獻(xiàn):

[1] He, Tairan, et al. "Asap: Aligning simulation and real-world physics for learning agile humanoid whole-body skills." arXiv preprint arXiv:2502.01143 (2025).

[2] Kumar, Ashish, et al. "Rma: Rapid motor adaptation for legged robots." arXiv preprint arXiv:2107.04034 (2021).

[3] Kumar, Ashish, et al. "Adapting rapid motor adaptation for bipedal robots." 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022.

[4] Shi, Haochen, et al. "Toddlerbot: Open-source ml-compatible humanoid platform for loco-manipulation." arXiv preprint arXiv:2502.00893 (2025).

[5] Perez, Ethan, et al. "Film: Visual reasoning with a general conditioning layer." Proceedings of the AAAI conference on artificial intelligence. Vol. 32. No. 1. 2018.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
事實(shí)證明,曾經(jīng)為安倍晉三哭喪的影后呂麗萍,如今已成為“笑話”

事實(shí)證明,曾經(jīng)為安倍晉三哭喪的影后呂麗萍,如今已成為“笑話”

阿器談史
2025-09-06 05:02:19
調(diào)查發(fā)現(xiàn):那些每天吃點(diǎn)酸奶的人,到70歲以后,大多出現(xiàn)這些情況

調(diào)查發(fā)現(xiàn):那些每天吃點(diǎn)酸奶的人,到70歲以后,大多出現(xiàn)這些情況

素衣讀史
2025-08-29 14:46:02
中國縣級市最大高鐵站,就在浙江!

中國縣級市最大高鐵站,就在浙江!

城市生態(tài)圈
2025-09-05 18:00:09
7名候選人接連離世,德政客:“令人震驚”

7名候選人接連離世,德政客:“令人震驚”

環(huán)球時(shí)報(bào)國際
2025-09-05 12:01:26
曼晚:曼城多名后衛(wèi)從國家隊(duì)傷退,瓜帥擔(dān)心防線危機(jī)再現(xiàn)

曼晚:曼城多名后衛(wèi)從國家隊(duì)傷退,瓜帥擔(dān)心防線危機(jī)再現(xiàn)

雷速體育
2025-09-06 00:35:14
反向抄作業(yè)?美軍看完閱兵,即刻簽署命令,凡是中國有的,全都抄

反向抄作業(yè)?美軍看完閱兵,即刻簽署命令,凡是中國有的,全都抄

大道無形我有型
2025-09-05 12:39:12
她是漢武帝一生的白月光,有三個(gè)成語典故出自她,她就是李夫人!

她是漢武帝一生的白月光,有三個(gè)成語典故出自她,她就是李夫人!

蜉蝣說
2025-09-05 16:50:58
正式退出,前往中國打球,張本美和薪水有多少?日本隊(duì)意外

正式退出,前往中國打球,張本美和薪水有多少?日本隊(duì)意外

東球弟
2025-09-05 13:40:49
崩了,陳皮市場暴雷了

崩了,陳皮市場暴雷了

李光滿說
2025-09-05 19:54:38
廣州長隆旁一棟豪宅別墅拍賣,被人底價(jià)1111萬就買下

廣州長隆旁一棟豪宅別墅拍賣,被人底價(jià)1111萬就買下

天天話事
2025-09-06 08:12:07
宮魯鳴:張子宇亞洲杯遭遇的壞動作已到極致 個(gè)性化訓(xùn)練寧慢不急

宮魯鳴:張子宇亞洲杯遭遇的壞動作已到極致 個(gè)性化訓(xùn)練寧慢不急

直播吧
2025-09-05 22:38:05
丈夫退伍的第10年,我強(qiáng)制他退了戰(zhàn)友群,原因是這五件事太煩人

丈夫退伍的第10年,我強(qiáng)制他退了戰(zhàn)友群,原因是這五件事太煩人

小馬達(dá)情感故事
2025-08-06 18:35:03
49歲舒淇“哭”上熱搜!穿西裝顧不上打扮,卻真實(shí)到令人動容

49歲舒淇“哭”上熱搜!穿西裝顧不上打扮,卻真實(shí)到令人動容

木子愛娛樂大號
2025-09-05 19:12:28
杜海濤不只2cm???

杜海濤不只2cm???

八卦瘋叔
2025-09-05 11:09:16
湖北省發(fā)布干部任前公示,涉及多個(gè)重要崗位!

湖北省發(fā)布干部任前公示,涉及多個(gè)重要崗位!

硒都身邊事兒
2025-09-05 22:34:14
美網(wǎng)爆大冷!前世界第一轟然倒下,薩巴倫卡惡戰(zhàn),大阪直美遺憾

美網(wǎng)爆大冷!前世界第一轟然倒下,薩巴倫卡惡戰(zhàn),大阪直美遺憾

知軒體育
2025-09-05 17:43:50
堅(jiān)持跑步等于“整容”!看看這些素人運(yùn)動前后的對比,你就知道了

堅(jiān)持跑步等于“整容”!看看這些素人運(yùn)動前后的對比,你就知道了

馬拉松跑步健身
2025-09-03 15:42:00
要是馬寅初沒提“人口論”,我國沒搞計(jì)劃生育,如今會怎樣?

要是馬寅初沒提“人口論”,我國沒搞計(jì)劃生育,如今會怎樣?

大千世界觀
2025-09-03 20:13:45
來了!曝6500萬頂級中衛(wèi)正式同意加盟皇馬!天才中場或遭放棄

來了!曝6500萬頂級中衛(wèi)正式同意加盟皇馬!天才中場或遭放棄

頭狼追球
2025-09-05 17:50:19
天安門旗臺下為啥要裝一臺空調(diào)?明明哨兵都享受不到,看完才明白

天安門旗臺下為啥要裝一臺空調(diào)?明明哨兵都享受不到,看完才明白

削桐作琴
2025-09-03 12:41:49
2025-09-06 09:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11240文章數(shù) 142442關(guān)注度
往期回顧 全部

科技要聞

超1萬億參數(shù)!阿里最大最強(qiáng)模型免費(fèi)上線

頭條要聞

專家:看完中國閱兵美國人破防 自己騙自己"這是AI"

頭條要聞

專家:看完中國閱兵美國人破防 自己騙自己"這是AI"

體育要聞

西甲最窮的“草臺班子”,竟然打進(jìn)歐戰(zhàn)了

娛樂要聞

!被罵“戀愛腦”的董璇玩脫了?

財(cái)經(jīng)要聞

人民幣,這次變聰明了

汽車要聞

科技加持 BMW R 1300 GS Adv依舊標(biāo)桿實(shí)力

態(tài)度原創(chuàng)

健康
藝術(shù)
教育
旅游
家居

內(nèi)分泌科專家破解身高八大謠言

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

《中學(xué)生學(xué)習(xí)力》課程宣講會 | 麥田推薦

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

家居要聞

親子空間 舒適家居氛圍

無障礙瀏覽 進(jìn)入關(guān)懷版