上周末,全球首個(gè)以人形機(jī)器人為參賽主體的綜合性體育盛會(huì)“2025世界人形機(jī)器人運(yùn)動(dòng)會(huì)”在國(guó)家速滑館“冰絲帶”正式開幕。
來自16個(gè)國(guó)家的280支參賽隊(duì)伍齊聚北京,為大家展現(xiàn)了當(dāng)代人形機(jī)器人的未來黑歷史發(fā)展盛況。(多gif預(yù)警~)
古風(fēng)小機(jī)器人來也
5v5足球賽也會(huì)疊羅漢嗎
疊羅漢和再起不能
機(jī)器人撞人事件
哎呦這地兒是不是不平啊
我頭呢我頭呢
我倒了 大家加油
在田徑、足球、拳擊等項(xiàng)目中,最引人注目的無疑是百米短跑。當(dāng)發(fā)令槍響,一臺(tái)名為“具身天公Ultra”的人形機(jī)器人從起跑線上沖出,它由北京人形機(jī)器人創(chuàng)新中心自主研發(fā)的機(jī)器人,最終以21.50秒的成績(jī)奪冠。而在所有硅基運(yùn)動(dòng)員中,“天公Ultra”是唯一一臺(tái)采用全自主導(dǎo)航系統(tǒng),全程無需人工遙控在賽場(chǎng)奔跑的選手。
宇樹科技王興興賽后總結(jié)
相信大家在看完運(yùn)動(dòng)會(huì)中機(jī)器人的諸多洋相精彩表現(xiàn)之后,會(huì)產(chǎn)生和小編相似的疑問:
為什么學(xué)會(huì)奔跑——這個(gè)人類幼童即可掌握的技能——對(duì)機(jī)器人而言如此困難?為什么不讓輪胎機(jī)器人參賽,著重于“人形”機(jī)器人?
這些問題,將我們引向一個(gè)重新審視“智能”本質(zhì)的概念:具身智能。這意味著AI試著從虛擬的數(shù)字空間回歸物理現(xiàn)實(shí),從抽象的符號(hào)處理走向與世界互動(dòng)的真實(shí)存在。
莫拉維克悖論
要理解機(jī)器人奔跑的意義,我們必須首先面對(duì)人工智能領(lǐng)域一個(gè)基本難題,即 “莫拉維克悖論”(Moravec's Paradox)。
這是由人工智能和機(jī)器人學(xué)者所發(fā)現(xiàn)的一個(gè)和常識(shí)相左的現(xiàn)象,在1980年代提出,其核心是:人類所獨(dú)有的高階智慧能力只需要非常少的計(jì)算能力,例如推理,但是無意識(shí)的技能和直覺卻需要極大的運(yùn)算能力。
如莫拉維克所說,要讓電腦如成人般地下棋是相對(duì)容易的,但是要讓電腦有如一歲小孩般的感知和行動(dòng)能力卻是相當(dāng)困難甚至是不可能的。
莫拉維克曾經(jīng)根據(jù)自己的研究,繪制了一張“人類能力景觀圖”。
在這張圖中,被海洋所淹沒的部分就是當(dāng)時(shí)已經(jīng)可以被人工智能和機(jī)器人所取代的工作,而隨著海平面的上升,岸邊、平原和高原的技能對(duì)AI來說難度逐漸上升。
莫拉維克悖論的根源來自于生物演化的漫長(zhǎng)歷史。人類引以為傲的抽象推理能力,如邏輯和數(shù)學(xué),從演化的時(shí)間尺度上看,是最近幾千年才發(fā)展出的新能力。莫拉維克將其形容為“人類思想最薄的一層表皮” 。
與之相反,感知和運(yùn)動(dòng)控制這些我們幾乎不假思索就能完成的“簡(jiǎn)單”技能,是歷經(jīng)數(shù)億年自然選擇精心雕琢和優(yōu)化的結(jié)果。大腦皮層中,有大量區(qū)域用于視覺、聽覺、運(yùn)動(dòng)控制等感知與行動(dòng)。我們低估了這些任務(wù)的復(fù)雜性,正是因?yàn)樗鼈冄莼梅浅8咝В灾劣诖蟛糠诌^程在我們無意識(shí)時(shí)就已完成了。
不是這個(gè),后空翻小編也做不到
但隨著深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和傳感器技術(shù)的發(fā)展,某些“莫拉維克難題”已經(jīng)被部分攻克,“具身智能”也逐漸在現(xiàn)實(shí)世界嶄露頭角。
具身智能
具身智能(Embodied Intelligence)是一種強(qiáng)調(diào)智能系統(tǒng)必須擁有物理身體,并通過這個(gè)身體與動(dòng)態(tài)、復(fù)雜的真實(shí)環(huán)境進(jìn)行實(shí)時(shí)交互,從而在交互中學(xué)習(xí)、優(yōu)化并展現(xiàn)其智能的理論。
具身智體的典型架構(gòu)
其實(shí)質(zhì)是人工智能與機(jī)器人技術(shù)的深度融合:AI為機(jī)器人提供“大腦”,使其具備感知、思考和決策的能力;而機(jī)器人則為AI提供“身體”,使其能夠與真實(shí)世界互動(dòng),獲取經(jīng)驗(yàn)和知識(shí) 。
AI領(lǐng)域著名大佬李飛飛曾指出:“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能?!?/p>
具身智能的體系架構(gòu)
早在1950年,艾倫?圖靈發(fā)表了經(jīng)典的《Computing Machinery and Intelligence》一文,標(biāo)志著人工智能理論的奠基。
在這篇論文的最后兩個(gè)段落里,圖靈展望了人工智能未來可能的兩種發(fā)展途徑。一種是比較抽象的、比如算術(shù)所需的智能,一種則是擁有感官、能學(xué)習(xí)甚至能說英語的智能。而后者,正是具身智能。
1986年,美國(guó)計(jì)算機(jī)科學(xué)家羅德尼?布魯克斯從控制論角度出發(fā),強(qiáng)調(diào)智能是具身化 (Embodied) 和情境化的。換言之,智能體必須擁有“身體”才能由虛擬世界進(jìn)入到真實(shí)世界,并通過與真實(shí)世界的交互來發(fā)育或進(jìn)化出智能。
1991年,布魯克斯提出了“行為智能”,認(rèn)為智能系統(tǒng)應(yīng)直接通過與環(huán)境互動(dòng)來體現(xiàn)其高度的適應(yīng)性,而非依賴內(nèi)部模型。這一工作引導(dǎo)研究者從計(jì)算能力轉(zhuǎn)向身體與環(huán)境的交互。
羅德尼?布魯克斯
2023年,英偉達(dá)創(chuàng)始人黃仁勛在半導(dǎo)體大會(huì)上指出,具身智能是能夠理解、推理并與物理世界互動(dòng)的智能系統(tǒng),預(yù)示著其將成為人工智能的下一波浪潮。
2025年,“具身智能”首次被寫入政府工作報(bào)告,成為未來產(chǎn)業(yè)發(fā)展的重點(diǎn)方向之一。
今年舉辦的全球機(jī)器人馬拉松、世界機(jī)器人大會(huì)、世界人形機(jī)器人運(yùn)動(dòng)會(huì),都讓最新的機(jī)器人乃至具身智能“幼兒”們一個(gè)亮相的機(jī)會(huì)。
沒斷奶也可以來比賽!
具身認(rèn)知
如前文所言,圖靈對(duì)人工智能未來的展望,除了具身智能,它的對(duì)立面則是我們更為熟悉的——離身智能(Disembodied Intelligence)。
像ChatGPT或AlphaGo這樣的模型,就是離身智能的典型代表。它們存在于服務(wù)器的虛擬世界中,處理的是抽象的符號(hào)數(shù)據(jù)(文字、圖片、棋盤狀態(tài)),能夠輸出信息,但無法直接作用于物理世界。
AlphaGo雖然精于棋局推演,但面對(duì)真實(shí)的棋盤,它可能連一顆棋子都拿不穩(wěn)。
但具身智能與離身智能并不相互排斥, 特別是在方法層面上, 包括深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法都已成為解決離身智能和具身智能問題的重要工具。
具身智能的核心機(jī)制,是感知-行動(dòng)循環(huán)。
這與傳統(tǒng)AI線性的“輸入數(shù)據(jù)-輸出答案”模式截然不同。具身智能體在一個(gè)持續(xù)不斷的閉環(huán)中運(yùn)作:它通過傳感器(如攝像頭、觸覺傳感器)感知世界;這種感知信息經(jīng)過處理,形成決策,并驅(qū)動(dòng)執(zhí)行器(如馬達(dá)、機(jī)械臂)產(chǎn)生行動(dòng);行動(dòng)改變了智能體自身以及環(huán)境的狀態(tài);這種改變又立刻被智能體感知到,形成新的輸入,從而開始下一輪循環(huán)。
在這個(gè)循環(huán)中,感知與行動(dòng)互為因果,智能體不再是被動(dòng)的決策器,而是能夠主動(dòng)干預(yù)物理世界并實(shí)時(shí)適應(yīng)變化的能動(dòng)主體。
具身形態(tài)計(jì)算的典型信息論分析方法結(jié)構(gòu)
這一循環(huán),與認(rèn)知科學(xué)中的具身認(rèn)知不謀而合。
具身認(rèn)知主張,人類的思維、感知、語言和情感等認(rèn)知活動(dòng)與身體的物理結(jié)構(gòu)、感官體驗(yàn)和動(dòng)作密切相關(guān)。認(rèn)知不僅僅是大腦內(nèi)的信息處理,而是身體與外部世界動(dòng)態(tài)互動(dòng)的產(chǎn)物。其包含了幾個(gè)概念:
1.具身認(rèn)知:認(rèn)知不是抽象的符號(hào)操作,是通過身體和環(huán)節(jié)的互動(dòng)實(shí)現(xiàn)的。身體不僅是認(rèn)知的工具,更是認(rèn)知內(nèi)容的塑造者。
2.感知-行動(dòng)循環(huán):認(rèn)知過程不僅依賴大腦的計(jì)算,還與身體的動(dòng)作和感官反饋形成動(dòng)態(tài)循環(huán)。若感知和行動(dòng)被人為分離,認(rèn)知能力會(huì)顯著下降。
3.身體形態(tài):身體的物理結(jié)構(gòu)和動(dòng)作模式在認(rèn)知中起著至關(guān)重要的作用,人類的思維和概念受到身體形態(tài)的深刻影響。比如“抓握”這一概念就是來源于人類手指形態(tài)。
4.情景化:認(rèn)知活動(dòng)并非孤立,而是嵌入在具體的身體和環(huán)境背景中的。同樣的動(dòng)作在不同文化中可能具有不同的涵義。
在生物學(xué)驗(yàn)證上,通過著名的“小貓實(shí)驗(yàn)”(kittens experiment),驗(yàn)證了視覺、發(fā)展和運(yùn)動(dòng)之間的關(guān)系。
科學(xué)家把兩只小貓放進(jìn)了圓筒內(nèi),圓筒內(nèi)壁上畫著豎條紋,兩只小貓都在圓筒內(nèi)部繞圈,稱作“小貓旋轉(zhuǎn)木馬”,得到了相同的視覺輸入。但它們的區(qū)別是——第一只小貓是自己走的,第二只小貓則被放在與中心軸相連的盒子里,被盒子帶著移動(dòng)。
結(jié)果發(fā)現(xiàn),主動(dòng)移動(dòng)的小貓能夠發(fā)展出正常的感官-運(yùn)動(dòng)系統(tǒng),而被動(dòng)移動(dòng)的小貓則表現(xiàn)出嚴(yán)重的感官-運(yùn)動(dòng)障礙。這說明了自我運(yùn)動(dòng)與環(huán)境主動(dòng)互動(dòng)在視覺感知和協(xié)調(diào)的關(guān)鍵作用。
隨著新的具身認(rèn)知的發(fā)展,認(rèn)知科學(xué)也能幫助具身智能更好的描摹這個(gè)世界,認(rèn)識(shí)這個(gè)世界。
競(jìng)爭(zhēng)對(duì)手也可以抱一抱~
最后,讓我們回到開頭的世界人形機(jī)器人運(yùn)動(dòng)會(huì),試想,為什么要用人形機(jī)器人?
(說起來,今年舉辦的機(jī)器人大會(huì)中,只有“運(yùn)動(dòng)會(huì)”的名字里加上了“人形”呢)
首先,我們的世界——從建筑、工具到社會(huì)規(guī)范——都是為人類的身體形態(tài)量身定做的。因此,制造人形機(jī)器人,擁有兩只手兩條腿,讓它們能夠無縫地融入我們的環(huán)境,是一個(gè)非常務(wù)實(shí)的選擇。
人 不要阻擋我的跳舞之魂
其次,機(jī)器人學(xué)習(xí)現(xiàn)實(shí)世界中的技能,能夠直接學(xué)習(xí)現(xiàn)成的人類行為。比如對(duì)機(jī)器人學(xué)習(xí)打打乒乓球,可以直接觀察人類動(dòng)作進(jìn)行多模態(tài)學(xué)習(xí),分析人類的技巧、速度、肌肉等等。
還有,人們對(duì)具有人形的機(jī)器人有更多親近感,也能更好理解彼此的動(dòng)作信號(hào)——比如點(diǎn)頭、比ok等等。
good!
當(dāng)然,這些并不意味著非人形機(jī)器人的弱勢(shì)。無論是宇樹的四足機(jī)器人,還是場(chǎng)景賽中的分揀機(jī)器人,都以非人的方式呈現(xiàn)。根據(jù)具體的需要,能夠以不同的形態(tài)更好地滿足。
真正的、通用的、擁有常識(shí)并能適應(yīng)我們這個(gè)混亂且不可預(yù)測(cè)的世界的智能,不可能在純粹抽象的數(shù)字真空中誕生。它需要被具身化、它需要擁有一個(gè)身體,去與世界互動(dòng),去將其知識(shí)植根于物理經(jīng)驗(yàn),去在永不停歇的感知與行動(dòng)的循環(huán)中學(xué)習(xí)和進(jìn)化。
機(jī)器人,幸會(huì)
參考資料
[1]陳思維(2024). 具身認(rèn)知研究進(jìn)展綜述.心理學(xué)進(jìn)展, 14(1), 387-394. DOI: 10.12677/ap.2024.141054
[2]https://zhuanlan.zhihu.com/p/1920853960635450532
[3]https://www.simplypsychology.org/held-and-hein-1963.html
[4] Huaping Liu, Di Guo, and Angelo Cangelosi. 2025. Embodied Intelligence: A Synergy of Morphology, Action, Perception and Learning. ACM Comput. Surv. 57, 7, Article 186 (March 2025), 36 pages.
[5] https://www.zhihu.com/question/398460589
[6] https://news.qq.com/rain/a/20250821A03OGO00
[7] https://mp.weixin.qq.com/s/lZH4oM3WJPfpsFG8D6hrtA
[8] https://mp.weixin.qq.com/s/Sw6FPYlVM6DCWTCCInKgyA
[9] https://mp.weixin.qq.com/s/aNbIV7sa7G-97axStFtE7Q
編輯:花卷
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.