成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

研究人員提出并行時(shí)序編碼器架構(gòu),提升人形機(jī)器人訓(xùn)練的穩(wěn)定性

0
分享至

當(dāng)前,人形機(jī)器人正處于由基礎(chǔ)可行性驗(yàn)證向早期應(yīng)用與智能化演進(jìn)的過(guò)渡階段。其已具備相對(duì)成熟的能力,包括雙足穩(wěn)定行走、跳躍、轉(zhuǎn)向、多關(guān)節(jié)協(xié)調(diào)控制,以及多模態(tài)感知集成等。這些能力的實(shí)現(xiàn),在很大程度上依賴于先驗(yàn)工程干預(yù)。在硬件層面,設(shè)計(jì)者通過(guò)增大足底支撐面積、降低重心、引入冗余結(jié)構(gòu)等手段提升本體的物理穩(wěn)定性;在軟件控制層面,則普遍采用以人類經(jīng)驗(yàn)為核心的控制方法,如 PID 控制、軌跡規(guī)劃、模型預(yù)測(cè)控制等,強(qiáng)化學(xué)習(xí)僅作為優(yōu)化模塊輔助使用。這些方法雖能實(shí)現(xiàn)高性能控制,但對(duì)特定任務(wù)和平臺(tái)高度依賴、泛化能力弱、難以適應(yīng)變化環(huán)境,且對(duì)專家知識(shí)依賴程度高、獲取成本大。

在人形機(jī)器人向智能化演進(jìn)的過(guò)程中,一個(gè)核心問(wèn)題是如何逐步擺脫上述工程依賴,轉(zhuǎn)向更靈活、通用的“學(xué)習(xí)驅(qū)動(dòng)的智能控制”范式。其中,端到端智能控制成為關(guān)鍵研究方向之一,其目標(biāo)是使機(jī)器人能夠從原始感知輸入(如傳感器數(shù)據(jù))直接輸出控制命令(如關(guān)節(jié)力矩或速度),無(wú)需顯式建?;蛉斯ぴO(shè)定的控制邏輯。這種方式具有自動(dòng)學(xué)習(xí)復(fù)雜行為的潛力,可更自然地適應(yīng)任務(wù)變化,顯著減少先驗(yàn)知識(shí)對(duì)系統(tǒng)設(shè)計(jì)的限制。

在機(jī)器人領(lǐng)域,Gymnasium 是一個(gè)廣泛使用的強(qiáng)化學(xué)習(xí)環(huán)境工具庫(kù),它為開(kāi)發(fā)者和研究者提供了標(biāo)準(zhǔn)化的虛擬環(huán)境。Gymnasium 中的 MuJoCo Humanoid 環(huán)境為研究端到端控制提供了理想測(cè)試平臺(tái)。該環(huán)境模擬一個(gè)雙足人形機(jī)器人在平坦地面上行走的任務(wù),是復(fù)雜連續(xù)控制問(wèn)題中的經(jīng)典強(qiáng)化學(xué)習(xí)基準(zhǔn)。與現(xiàn)實(shí)機(jī)器人不同,仿真模型在結(jié)構(gòu)上有意簡(jiǎn)化,缺乏腳掌、助力機(jī)制和動(dòng)態(tài)平衡輔助裝置,重心較高,穩(wěn)定性較差,從而最大程度減少了硬件層面的工程干預(yù)。這種設(shè)計(jì)使該環(huán)境成為評(píng)估“純策略控制”能力的典型平臺(tái),有助于更直接反映策略本身的智能水平與適應(yīng)能力。

在此環(huán)境中訓(xùn)練出的策略,可通過(guò)獎(jiǎng)勵(lì)驅(qū)動(dòng)自動(dòng)學(xué)習(xí)出如髖關(guān)節(jié)協(xié)調(diào)擺動(dòng)以維持平衡、利用上肢輔助緩沖摔倒沖擊、上下肢協(xié)同提速行走等行為。這些能力并非由設(shè)計(jì)者預(yù)設(shè),而是策略在訓(xùn)練過(guò)程中自然涌現(xiàn),有效降低了對(duì)人工規(guī)則和模型的依賴,減少了算法層面的工程干預(yù)。

然而,現(xiàn)有端到端策略大多建立在完全可觀測(cè)環(huán)境的假設(shè)之上,即可獲取環(huán)境的完整狀態(tài)。在實(shí)際系統(tǒng)中,機(jī)器人通常處于部分可觀測(cè)狀態(tài),常面臨傳感器受限、觀測(cè)噪聲、信息缺失(如質(zhì)量分布、外力等)等問(wèn)題。在此背景下,如何在信息不完全的條件下仍實(shí)現(xiàn)高效的控制策略,成為當(dāng)前研究的核心挑戰(zhàn)。

為應(yīng)對(duì)觀測(cè)不全的問(wèn)題,一些方法引入了遞歸神經(jīng)網(wǎng)絡(luò)(如 RNN、LSTM)以捕捉歷史信息,以及彌補(bǔ)瞬時(shí)觀測(cè)的不足。然而,在高維、連續(xù)控制任務(wù)中,這類方法普遍面臨訓(xùn)練不穩(wěn)定、泛化能力差等難題。例如,在 MuJoCo Humanoid 環(huán)境中,目前尚缺乏在部分觀測(cè)條件下有效的強(qiáng)化學(xué)習(xí)方法。

因此,澳大利亞紐卡斯?fàn)柎髮W(xué)教授陳智勇和團(tuán)隊(duì)在近期一項(xiàng)研究中聚焦于以下問(wèn)題:在不依賴完整狀態(tài)觀測(cè)的前提下,能否設(shè)計(jì)出一種穩(wěn)定、結(jié)構(gòu)簡(jiǎn)潔、具擴(kuò)展性的策略架構(gòu),以提升人形機(jī)器人在部分可觀測(cè)環(huán)境中的控制能力?研究人員希望通過(guò)構(gòu)建新的機(jī)制,使強(qiáng)化學(xué)習(xí)策略能夠從有限的觀測(cè)中提取關(guān)鍵動(dòng)態(tài)信息,從而完成復(fù)雜的運(yùn)動(dòng)控制任務(wù)。該方向的探索將有助于推動(dòng)人形機(jī)器人從依賴結(jié)構(gòu)和規(guī)則的工程化控制體系,邁向更具泛化性和自主性的智能控制系統(tǒng)。


圖 | 陳智勇(來(lái)源:陳智勇)

在部分可觀測(cè)環(huán)境中,智能體無(wú)法直接獲取完整的環(huán)境狀態(tài),通常需要依賴有限長(zhǎng)度的歷史觀測(cè)來(lái)重構(gòu)當(dāng)前狀態(tài)。在可觀性條件滿足時(shí),這種方式可將原本的部分可觀測(cè)馬爾可夫決策過(guò)程(POMDP,Partially Observable Markov Decision Process)轉(zhuǎn)化為完全可觀測(cè)的馬爾可夫決策過(guò)程(FOMDP,F(xiàn)ully Observable Markov Decision Process)。然而,由于歷史觀測(cè)之間存在大量冗余信息,直接拼接歷史輸入將顯著膨脹狀態(tài)空間維度,增加策略學(xué)習(xí)的復(fù)雜度與不穩(wěn)定性。因此,如何從冗余的歷史觀測(cè)中有效提取關(guān)鍵特征,成為實(shí)現(xiàn)高效策略學(xué)習(xí)的核心挑戰(zhàn)。

針對(duì)該問(wèn)題,本研究提出了一種并行時(shí)序編碼器架構(gòu),結(jié)合多頭注意力機(jī)制(Multi-Head Attention),對(duì)歷史觀測(cè)序列進(jìn)行高效建模與信息聚合。該方法在不依賴遞歸結(jié)構(gòu)(如 RNN、LSTM)的前提下,能夠從有限歷史中恢復(fù)缺失的狀態(tài)信息,顯著提升策略訓(xùn)練的穩(wěn)定性與最終性能。多頭注意力機(jī)制作為現(xiàn)代深度學(xué)習(xí)的核心結(jié)構(gòu),已經(jīng)廣泛應(yīng)用于自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別與強(qiáng)化學(xué)習(xí)等領(lǐng)域。其基本思想是從多個(gè)子空間維度并行關(guān)注輸入序列的不同部分,從而提取豐富的上下文信息與特征關(guān)聯(lián)。在本研究中,多頭注意力被用于從歷史觀測(cè)中自動(dòng)篩選與當(dāng)前決策最相關(guān)的信息、學(xué)習(xí)時(shí)間依賴性與關(guān)鍵感知特征。


(來(lái)源:https://arxiv.org/pdf/2507.18883)

研究人員在 MuJoCo Humanoid 環(huán)境中對(duì)該方法進(jìn)行了系統(tǒng)實(shí)證。該環(huán)境的狀態(tài)空間維度為 348,包含身體各部位的位置、速度、質(zhì)量、慣性參數(shù)、執(zhí)行器力以及外部作用力等信息。實(shí)驗(yàn)結(jié)果表明,即使僅使用原始觀測(cè)的三分之一至三分之二維度,所提出的方法仍可達(dá)到甚至超過(guò)完整狀態(tài)輸入下的強(qiáng)化學(xué)習(xí)基線性能(如 TD3)。尤其值得強(qiáng)調(diào)的是,在移除質(zhì)量、慣性與力信息,僅保留約三分之一狀態(tài)維度的設(shè)定下,策略仍能憑借位置與速度等部分觀測(cè)有效建構(gòu)控制模型、快速收斂,并最終超越完整觀測(cè)策略的性能。這也是首次在該環(huán)境的部分可觀測(cè)設(shè)定下,通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)穩(wěn)定有效控制的成功案例。

此外,研究人員進(jìn)一步評(píng)估了該策略在物理參數(shù)變化下的泛化能力。在測(cè)試中,研究人員對(duì)雙手、小腿、大腿、上臂、骨盆和軀干等部位的質(zhì)量進(jìn)行 ±50% 的獨(dú)立擾動(dòng)。結(jié)果顯示,訓(xùn)練策略在多種質(zhì)量配置下依然保持穩(wěn)定性能,展現(xiàn)出良好的魯棒性與適應(yīng)性,驗(yàn)證了其對(duì)物理參數(shù)變化的容忍度與廣泛適用性。

本研究在部分可觀測(cè)條件下提出了一種純學(xué)習(xí)驅(qū)動(dòng)的人形機(jī)器人控制方法,推動(dòng)機(jī)器人從“規(guī)則執(zhí)行”邁向“行為智能”,擺脫對(duì)工程干預(yù)與人類經(jīng)驗(yàn)的依賴,為類腦智能與具身智能方法體系的演進(jìn)提供了有益探索。在實(shí)踐層面,該方法有助于降低對(duì)專家知識(shí)的依賴,提升系統(tǒng)的通用性與自主性。未來(lái),該方法可與大語(yǔ)言模型和多模態(tài)感知系統(tǒng)融合,構(gòu)建具備認(rèn)知、感知與行動(dòng)能力的類人自主體。本研究的最終目標(biāo)不僅在于實(shí)現(xiàn)穩(wěn)定的人形行走控制,更在于建立一種通用、穩(wěn)定、可擴(kuò)展的控制學(xué)習(xí)范式,以應(yīng)對(duì)具備復(fù)雜時(shí)序結(jié)構(gòu)的任務(wù)需求。

陳智勇告訴 DeepTech:“這些工作是我?guī)ьI(lǐng)博士生王吳皓完成的。他于 2023 年獲得瑞典林雪平大學(xué)的碩士學(xué)位,目前是紐卡斯?fàn)柎髮W(xué)二年級(jí)的博士生,展現(xiàn)出極強(qiáng)的學(xué)習(xí)能力和科研潛力。這些成果來(lái)源于我們?cè)谧詣?dòng)控制、強(qiáng)化學(xué)習(xí)和機(jī)器人技術(shù)這三個(gè)領(lǐng)域不斷交叉探索的過(guò)程,體現(xiàn)了輸出反饋、狀態(tài)估計(jì)和自適應(yīng)控制等經(jīng)典控制理念在強(qiáng)化學(xué)習(xí)框架下的融合與演化,并成功應(yīng)用于人形機(jī)器人平臺(tái)?!?/p>

本研究主要聚焦于算法層面,提出了一種在部分可觀測(cè)條件下實(shí)現(xiàn)穩(wěn)定人形機(jī)器人控制的純學(xué)習(xí)方法。下一步,研究人員將繼續(xù)拓展該算法框架,進(jìn)一步提升其性能與泛化能力,并在更具多樣性的人形機(jī)器人模型中進(jìn)行系統(tǒng)評(píng)估,逐步推廣至其他類型的高維連續(xù)控制環(huán)境。同時(shí),研究人員也計(jì)劃推動(dòng)該方法向現(xiàn)實(shí)系統(tǒng)遷移,探索其在真實(shí)人形機(jī)器人平臺(tái)上的部署與驗(yàn)證可行性。目前,現(xiàn)實(shí)人形機(jī)器人在關(guān)鍵控制環(huán)節(jié)仍高度依賴工程化干預(yù)、人類經(jīng)驗(yàn)和手動(dòng)調(diào)參。研究人員希望本研究能夠?yàn)槎说蕉藢W(xué)習(xí)控制在實(shí)際機(jī)器人系統(tǒng)中的落地應(yīng)用提供算法基礎(chǔ)與技術(shù)支持,進(jìn)而推動(dòng)人形機(jī)器人向更高自主性、更低人工依賴的方向演進(jìn)。

參考資料:

https://arxiv.org/pdf/2507.18883

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
撕毀鐵路合同倒向日本,拒賠361億違約金,7年后的今天情況反轉(zhuǎn)

撕毀鐵路合同倒向日本,拒賠361億違約金,7年后的今天情況反轉(zhuǎn)

星辰夜語(yǔ)
2025-08-25 13:09:05
“京城四少”汪雨結(jié)婚,二婚迎娶小18歲白富美,曾把李鈺當(dāng)摯愛(ài)

“京城四少”汪雨結(jié)婚,二婚迎娶小18歲白富美,曾把李鈺當(dāng)摯愛(ài)

跳跳歷史
2025-08-30 12:04:39
無(wú)刪減《權(quán)利的游戲》,震撼超出你的想象

無(wú)刪減《權(quán)利的游戲》,震撼超出你的想象

暖心萌阿菇?jīng)?/span>
2025-08-12 16:45:55
1元的冰露和4元的百歲山差在哪?

1元的冰露和4元的百歲山差在哪?

IC實(shí)驗(yàn)室
2025-08-29 16:24:47
戴嬌倩自曝被女兒氣瘋,9歲安欣出現(xiàn)“草莓舌” 身高136體重42斤

戴嬌倩自曝被女兒氣瘋,9歲安欣出現(xiàn)“草莓舌” 身高136體重42斤

花心電影
2025-08-28 17:12:27
長(zhǎng)得“歪瓜裂棗”,整得“美若天仙”?這幾位女星靠臉“改命”?

長(zhǎng)得“歪瓜裂棗”,整得“美若天仙”?這幾位女星靠臉“改命”?

煙潯渺渺
2025-08-26 19:10:09
朱棣寵幸徐皇后初夜,打破大明多項(xiàng)律法,從此十幾位皇帝無(wú)人效仿

朱棣寵幸徐皇后初夜,打破大明多項(xiàng)律法,從此十幾位皇帝無(wú)人效仿

今天說(shuō)故事
2025-08-29 17:54:10
費(fèi)內(nèi)巴切高層稱穆帥一貫將自己置于俱樂(lè)部之上,足球水平并無(wú)提升

費(fèi)內(nèi)巴切高層稱穆帥一貫將自己置于俱樂(lè)部之上,足球水平并無(wú)提升

直播吧
2025-08-30 11:39:32
劉強(qiáng)東:富貴歸故鄉(xiāng)

劉強(qiáng)東:富貴歸故鄉(xiāng)

澎湃新聞
2025-08-31 00:24:02
薩拉赫:和?;倏诉€在磨合;我告訴恩古莫哈不要碰社交媒體

薩拉赫:和?;倏诉€在磨合;我告訴恩古莫哈不要碰社交媒體

懂球帝
2025-08-31 09:08:12
丹麥也終于發(fā)飆了:要么你除掉頭巾、要么你離開(kāi)我的國(guó)家!

丹麥也終于發(fā)飆了:要么你除掉頭巾、要么你離開(kāi)我的國(guó)家!

翻開(kāi)歷史和現(xiàn)實(shí)
2025-07-23 00:05:51
蘇有朋這次翻車(chē),再一次證明,王晶奉勸大家的話一點(diǎn)都不假!

蘇有朋這次翻車(chē),再一次證明,王晶奉勸大家的話一點(diǎn)都不假!

小娛樂(lè)悠悠
2025-08-31 07:39:44
鞏俐身材驚艷,胸圍接近肚臍,網(wǎng)友驚呼:太美了?

鞏俐身材驚艷,胸圍接近肚臍,網(wǎng)友驚呼:太美了?

娛樂(lè)領(lǐng)航家
2025-08-28 21:00:03
國(guó)臺(tái)辦重磅邀請(qǐng)4類臺(tái)灣同胞參加九三閱兵!民進(jìn)黨算盤(pán)落空!

國(guó)臺(tái)辦重磅邀請(qǐng)4類臺(tái)灣同胞參加九三閱兵!民進(jìn)黨算盤(pán)落空!

阿柒的訊
2025-08-28 19:07:23
黃紫昌亮相蘇超或引爆更大爭(zhēng)議 中國(guó)足協(xié)該不該管?這是根導(dǎo)火索!

黃紫昌亮相蘇超或引爆更大爭(zhēng)議 中國(guó)足協(xié)該不該管?這是根導(dǎo)火索!

勁爆體壇
2025-08-31 08:28:16
瓜帥:永遠(yuǎn)不會(huì)改變我們的踢球理念,我就是喜歡無(wú)數(shù)次無(wú)聊的傳球

瓜帥:永遠(yuǎn)不會(huì)改變我們的踢球理念,我就是喜歡無(wú)數(shù)次無(wú)聊的傳球

直播吧
2025-08-31 09:29:14
劉強(qiáng)東滿面春風(fēng)現(xiàn)身宿遷!在京東旗艦店參觀,身旁女秘書(shū)漂亮出鏡

劉強(qiáng)東滿面春風(fēng)現(xiàn)身宿遷!在京東旗艦店參觀,身旁女秘書(shū)漂亮出鏡

火山詩(shī)話
2025-08-30 05:59:13
重磅!國(guó)產(chǎn)“偉哥”獲批!源自傳統(tǒng)藥物,10分鐘起效,安全性更高

重磅!國(guó)產(chǎn)“偉哥”獲批!源自傳統(tǒng)藥物,10分鐘起效,安全性更高

中醫(yī)燕麗娜醫(yī)生
2025-08-30 12:05:02
連克強(qiáng)敵!陳柏陽(yáng)/劉毅2-1擊敗對(duì)手,首戰(zhàn)世錦賽便闖入男雙決賽

連克強(qiáng)敵!陳柏陽(yáng)/劉毅2-1擊敗對(duì)手,首戰(zhàn)世錦賽便闖入男雙決賽

直播吧
2025-08-31 04:36:10
即將Here we go,羅馬諾:維拉接近租借后強(qiáng)制買(mǎi)斷簽下帕奎塔

即將Here we go,羅馬諾:維拉接近租借后強(qiáng)制買(mǎi)斷簽下帕奎塔

懂球帝
2025-08-31 05:28:26
2025-08-31 09:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15583文章數(shù) 514036關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)京東拼搶"線下折扣店",劉強(qiáng)東現(xiàn)身"助陣"

頭條要聞

牛彈琴:有意思 美國(guó)總統(tǒng)跟一塊石頭干上了

頭條要聞

牛彈琴:有意思 美國(guó)總統(tǒng)跟一塊石頭干上了

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂(lè)要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

罕見(jiàn)熱鬧的8月之后,A股將迎怎樣的9月

汽車(chē)要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬(wàn)起

態(tài)度原創(chuàng)

時(shí)尚
本地
家居
藝術(shù)
房產(chǎn)

我發(fā)現(xiàn)朋友圈吸引人的女生,都有這個(gè)特點(diǎn)!

本地新聞

換個(gè)城市過(guò)夏天 | 夏末狂歡,浪在阜新黃家溝!

家居要聞

提升功能 靈活居住環(huán)境

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌罚K于出現(xiàn)了!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版