成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

統(tǒng)一框架下的具身多模態(tài)推理:自變量機(jī)器人讓AI放下海德格爾錘子

0
分享至



機(jī)器之心報(bào)道

自變量機(jī)器人

當(dāng) AI 放下海德格爾的錘子時(shí),意味著機(jī)器人已經(jīng)能夠熟練使用工具,工具會(huì)“隱退”成為本體的延伸,而不再是需要刻意思考的對(duì)象。

當(dāng)一位熟練的木匠抓起錘子時(shí),錘子消失了 —— 不是物理上的消失,而是無(wú)需思考便可自如使用。然而,當(dāng)前最先進(jìn)的機(jī)器人仍然無(wú)法“放下”這把“錘子”,它們被困在循環(huán)中 —— 識(shí)別錘子、規(guī)劃如何使用錘子,每一次交互都需要重新“拿起”工具作為認(rèn)知對(duì)象,這種割裂式的處理方式讓 AI 永遠(yuǎn)無(wú)法達(dá)到人類那種直覺(jué)的工具使用境界。

具身智能的突破,不會(huì)來(lái)自對(duì)現(xiàn)有基于視覺(jué) - 語(yǔ)言基礎(chǔ)模型的修補(bǔ),而將源于一場(chǎng)架構(gòu)革命。

自變量機(jī)器人主張,必須放棄以“多模態(tài)模塊融合”為核心的拼湊式范式,轉(zhuǎn)向一個(gè)端到端的統(tǒng)一架構(gòu)。該架構(gòu)旨在徹底消解視覺(jué)、語(yǔ)言和行動(dòng)之間的人為邊界,將它們還原為單一信息流進(jìn)行處理。

當(dāng)前范式的根本局限

現(xiàn)有主流方法將不同模態(tài)視為獨(dú)立模塊,如預(yù)訓(xùn)練的 ViT 處理視覺(jué)信息,LLM 處理語(yǔ)言理解,然后通過(guò)融合層進(jìn)行連接。這種“委員會(huì)”式的設(shè)計(jì)存在著本質(zhì)缺陷。

首先是表征瓶頸問(wèn)題。信息在不同模態(tài)的專屬編碼器之間傳遞時(shí),會(huì)產(chǎn)生不可避免的壓縮損失,就像將一幅油畫描述給盲人,再讓盲人向聾人傳達(dá)畫面內(nèi)容一樣,每次轉(zhuǎn)換都會(huì)丟失關(guān)鍵的細(xì)節(jié)和關(guān)聯(lián)。這種損失阻礙了模型對(duì)物理世界進(jìn)行深層次的跨模態(tài)理解。

最關(guān)鍵的是無(wú)法涌現(xiàn)的問(wèn)題。結(jié)構(gòu)上的割裂使得模型難以學(xué)習(xí)到物理世界中跨越模態(tài)的、直覺(jué)式的因果規(guī)律。就像一個(gè)人無(wú)法僅通過(guò)閱讀教科書就學(xué)會(huì)騎自行車一樣,真正的物理智能需要的是整體性的、具身的理解,而不是模塊化的知識(shí)拼接。

統(tǒng)一架構(gòu):從分治到整合

自變量機(jī)器人提出的統(tǒng)一模態(tài)架構(gòu)源于一個(gè)核心洞察:真正的具身智能不應(yīng)該是多個(gè)專門模塊的協(xié)作,而應(yīng)該像人類認(rèn)知一樣,在統(tǒng)一的計(jì)算框架內(nèi)同時(shí)處理感知、推理和行動(dòng)。

架構(gòu)的核心是統(tǒng)一表示學(xué)習(xí)。自變量機(jī)器人將所有模態(tài)信息 —— 視覺(jué)、語(yǔ)言、觸覺(jué)、動(dòng)作 —— 轉(zhuǎn)換為共享的高維 token 序列,消除模態(tài)間的人為邊界。

關(guān)鍵突破在于采用多任務(wù)多模態(tài)生成作為監(jiān)督機(jī)制:系統(tǒng)必須學(xué)會(huì)從任一模態(tài)生成其他模態(tài)的內(nèi)容,這迫使模型建立起深層的跨模態(tài)對(duì)應(yīng)關(guān)系。



具體而言,將所有輸入模態(tài),包括多視角圖像、文本指令與機(jī)器人實(shí)時(shí)狀態(tài),通過(guò)各自的編碼器轉(zhuǎn)化為統(tǒng)一的 token 序列,該序列被送入一個(gè) Transformer 核心。其中,預(yù)訓(xùn)練多模態(tài)理解模型負(fù)責(zé)整合信息以完成空間感知理解與任務(wù)推理規(guī)劃,而生成專家 (Gen. Expert) 則預(yù)測(cè)未來(lái)的圖像與視頻,以及直接生成可執(zhí)行的機(jī)器人動(dòng)作。兩者通過(guò)一個(gè)跨模態(tài)注意力 (Cross-Modal Attention) 層深度耦合,使得感知、推理和行為的信息流在每一個(gè)計(jì)算層都能無(wú)損地雙向交互與共同演進(jìn),從而實(shí)現(xiàn)了端到端的統(tǒng)一學(xué)習(xí)。

這種架構(gòu)實(shí)現(xiàn)了具身多模態(tài)推理的涌現(xiàn)。當(dāng)面對(duì)新任務(wù)時(shí),系統(tǒng)能夠像人類一樣進(jìn)行整體性認(rèn)知處理 —— 視覺(jué)理解、語(yǔ)義推理、物理預(yù)測(cè)和動(dòng)作規(guī)劃在統(tǒng)一空間內(nèi)并行發(fā)生、相互影響,而非串行處理。

通過(guò)這種端到端的統(tǒng)一學(xué)習(xí),系統(tǒng)最終能夠像人類一樣思考和工作:不再依賴模塊化的信息傳遞,而是在深層表示空間中直接進(jìn)行跨模態(tài)的因果推理和行動(dòng)決策。

涌現(xiàn)能力:具身多模態(tài)推理

這種統(tǒng)一架構(gòu)旨在解鎖當(dāng)前模塊化系統(tǒng)無(wú)法實(shí)現(xiàn)的全方位具身多模態(tài)推理能力。

第一個(gè)是符號(hào)-空間推理能力

當(dāng)人類隨意畫出幾何形狀時(shí),機(jī)器人首先通過(guò)理解復(fù)雜幾何圖案,然后在統(tǒng)一的表示空間中進(jìn)行多層次推理:將抽象的二維圖形解構(gòu)為具體的字母組合,理解這些字母的空間排列邏輯,并推斷出它們組合成的完整單詞。同時(shí),機(jī)器人能夠?qū)⑦@種抽象的符號(hào)理解直接轉(zhuǎn)化為三維空間中的物理操作,用積木塊精確地重現(xiàn)字母的空間排布。

整個(gè)過(guò)程體現(xiàn)了視覺(jué)感知、因果推理和空間操作的深度融合。



視頻演示 1:機(jī)器人根據(jù)手繪圖形拼出對(duì)應(yīng)單詞

第二個(gè)是物理空間推理能力。

當(dāng)向機(jī)器人展示積木的操作步驟時(shí),機(jī)器人能夠在其統(tǒng)一的潛在空間中直接進(jìn)行視覺(jué)的空間邏輯推理和因果關(guān)系推演。這個(gè)過(guò)程中,機(jī)器人理解每個(gè)積木的放置如何影響整體結(jié)構(gòu)的穩(wěn)定性,推斷操作順序背后的工程邏輯,并預(yù)測(cè)不同操作路徑可能導(dǎo)致的結(jié)果。同時(shí),機(jī)器人能夠?qū)⑦@種物理推理過(guò)程外化為語(yǔ)言思考鏈,清晰地表達(dá)其對(duì)空間關(guān)系、重力約束和構(gòu)建策略的理解。

最終,機(jī)器人能夠基于這種深層的物理理解,獨(dú)立完成復(fù)雜的三維結(jié)構(gòu)搭建,展現(xiàn)了物理直覺(jué)與推理能力的有機(jī)結(jié)合。



視頻演示 2:觀察積木操作步驟并搭建對(duì)應(yīng)空間形狀

第三個(gè)突破是具備推理鏈的自主探索能力。

面對(duì)復(fù)雜的環(huán)境,系統(tǒng)能夠整合視覺(jué)觀察、空間記憶和常識(shí)知識(shí),構(gòu)建出連貫的推理鏈條。整個(gè)過(guò)程體現(xiàn)了感知、記憶、推理和行動(dòng)的無(wú)縫整合,以及基于常識(shí)知識(shí)的靈活決策能力。

這種推理過(guò)程是端到端學(xué)習(xí)的自然涌現(xiàn)。



視頻演示 3:帶有推理過(guò)程的物品搜索

以上三個(gè)視頻, 機(jī)器人需要在操作中實(shí)時(shí)輸出推理過(guò)程,這要求模型在統(tǒng)一架構(gòu)中實(shí)現(xiàn)物理操作、視覺(jué)和語(yǔ)言推理的精確同步。

最后一個(gè)展示了機(jī)器人從視頻中學(xué)習(xí)能力和協(xié)作推理能力。

當(dāng)觀察人類的操作視頻時(shí),機(jī)器人從視頻中推斷行為背后的深層意圖和目標(biāo)狀態(tài)。這種能力超越了簡(jiǎn)單的動(dòng)作模仿,體現(xiàn)了視頻學(xué)習(xí)、對(duì)人類意圖的理解、對(duì)協(xié)作目標(biāo)的推斷,以及自主的協(xié)作決策能力,展現(xiàn)了真正的自主學(xué)習(xí)和人機(jī)協(xié)同能力。



視頻演示 4:從視頻中推斷動(dòng)作意圖并自主執(zhí)行

結(jié)語(yǔ)

這些演示背后體現(xiàn)的是一個(gè)根本性的范式轉(zhuǎn)換。

傳統(tǒng)的多模態(tài)系統(tǒng)將世界分解為獨(dú)立的表征模塊,但物理世界的交互是連續(xù)的、實(shí)時(shí)的、多模態(tài)耦合的 —— 當(dāng)機(jī)器人抓取一個(gè)易碎物品時(shí),視覺(jué)判斷、力度控制和安全預(yù)測(cè)必須同時(shí)發(fā)生,任何模塊間的延遲或信息損失都可能導(dǎo)致失敗。自變量機(jī)器人的統(tǒng)一架構(gòu)正是為滿足這種具身交互的要求生的。

這種轉(zhuǎn)變的意義在于,它讓機(jī)器人能夠像海德格爾描述的熟練工匠一樣,將感知、理解和行動(dòng)無(wú)縫融合。

機(jī)器人不再需要經(jīng)歷 “視覺(jué)識(shí)別→語(yǔ)言規(guī)劃→動(dòng)作執(zhí)行” 的冗長(zhǎng)串行處理,而是在統(tǒng)一的表征空間中被直接理解為實(shí)現(xiàn)特定意圖的媒介 —— 機(jī)器人能夠同時(shí) “看到” 物理屬性、“理解” 其在任務(wù)中的作用、“感知” 操作的空間約束,并 “規(guī)劃” 相應(yīng)的動(dòng)作序列。

正是這種多模態(tài)信息的并行融合處理,使得具身多模態(tài)推理能力得以自然涌現(xiàn),讓機(jī)器人最終能夠像人類一樣流暢地與物理世界交互。

自變量機(jī)器人主張,具身智能的未來(lái)路徑是從設(shè)計(jì)“割裂式表征”的系統(tǒng),轉(zhuǎn)向構(gòu)建能夠進(jìn)行真正具身多模態(tài)推理的統(tǒng)一系統(tǒng)。這并非一次增量改進(jìn),而是讓 AI 具備跨模態(tài)因果推理、空間邏輯推演和實(shí)現(xiàn)通用操作的具身智能所必需的架構(gòu)進(jìn)化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
投訴“魯迅夾煙墻畫”當(dāng)事人,被封號(hào)

投訴“魯迅夾煙墻畫”當(dāng)事人,被封號(hào)

極目新聞
2025-08-30 16:08:04
外交部發(fā)言人就泰國(guó)憲法法院裁決佩通坦總理解職答記者問(wèn)

外交部發(fā)言人就泰國(guó)憲法法院裁決佩通坦總理解職答記者問(wèn)

界面新聞
2025-08-30 09:17:17
律師張紅兵在文革時(shí)舉報(bào)母親致其被槍決,40年后申請(qǐng)母墓地為文物

律師張紅兵在文革時(shí)舉報(bào)母親致其被槍決,40年后申請(qǐng)母墓地為文物

深度報(bào)
2025-08-29 16:24:32
全世界媒體束手無(wú)策,為什么楊蘭蘭的信息都挖掘不到?

全世界媒體束手無(wú)策,為什么楊蘭蘭的信息都挖掘不到?

李昕言溫度空間
2025-08-30 22:10:33
哈馬斯證實(shí)其軍事領(lǐng)導(dǎo)人穆罕默德·辛瓦爾已死亡

哈馬斯證實(shí)其軍事領(lǐng)導(dǎo)人穆罕默德·辛瓦爾已死亡

極目新聞
2025-08-31 07:26:46
“內(nèi)鬼”郭志新,被查

“內(nèi)鬼”郭志新,被查

新京報(bào)政事兒
2025-08-30 22:14:03
韓網(wǎng)友熱議安洗瑩出局:安女皇太善良,看陳雨菲受傷動(dòng)了惻隱之心

韓網(wǎng)友熱議安洗瑩出局:安女皇太善良,看陳雨菲受傷動(dòng)了惻隱之心

楊華評(píng)論
2025-08-30 23:59:26
切爾西鬧巨大笑話!5000萬(wàn)歐神鋒被羞辱:拒絕歸隊(duì) 賴在拜仁不走

切爾西鬧巨大笑話!5000萬(wàn)歐神鋒被羞辱:拒絕歸隊(duì) 賴在拜仁不走

風(fēng)過(guò)鄉(xiāng)
2025-08-31 07:49:18
山東蓬萊二中男老師與女學(xué)生丑聞,老師被辭退!網(wǎng)友:學(xué)生也不冤

山東蓬萊二中男老師與女學(xué)生丑聞,老師被辭退!網(wǎng)友:學(xué)生也不冤

恪守原則和底線
2025-08-31 05:25:03
重磅!胡塞武裝“總理”和多位“部長(zhǎng)”在以軍空襲中身亡,該組織此前宣布已開(kāi)始制造多彈頭導(dǎo)彈

重磅!胡塞武裝“總理”和多位“部長(zhǎng)”在以軍空襲中身亡,該組織此前宣布已開(kāi)始制造多彈頭導(dǎo)彈

每日經(jīng)濟(jì)新聞
2025-08-30 23:03:05
又內(nèi)訌了!德云社元老人物離開(kāi),發(fā)文內(nèi)涵郭德綱,徹底撕開(kāi)遮羞布

又內(nèi)訌了!德云社元老人物離開(kāi),發(fā)文內(nèi)涵郭德綱,徹底撕開(kāi)遮羞布

有范又有料
2025-08-30 15:51:20
人民幣在朝鮮的購(gòu)買力,顛覆了我的想象!平壤售貨員的手在發(fā)抖…

人民幣在朝鮮的購(gòu)買力,顛覆了我的想象!平壤售貨員的手在發(fā)抖…

熊貓君點(diǎn)評(píng)
2025-08-30 19:40:55
安徽夫婦自駕送兒子去新疆石河子上大學(xué):6天穿越3700公里,沿途打卡景點(diǎn)每天還直播7小時(shí),剛到校就被粉絲認(rèn)出

安徽夫婦自駕送兒子去新疆石河子上大學(xué):6天穿越3700公里,沿途打卡景點(diǎn)每天還直播7小時(shí),剛到校就被粉絲認(rèn)出

極目新聞
2025-08-30 18:45:57
葡萄牙總統(tǒng)爆出猛料,特朗普是蘇聯(lián)特工,他威脅普京的話從未兌現(xiàn)

葡萄牙總統(tǒng)爆出猛料,特朗普是蘇聯(lián)特工,他威脅普京的話從未兌現(xiàn)

碳基生物關(guān)懷組織
2025-08-30 18:55:28
郭金友,任上被查

郭金友,任上被查

新京報(bào)
2025-08-30 20:09:30
金正恩會(huì)見(jiàn)援俄朝軍烈士遺屬 表示“深感內(nèi)疚”

金正恩會(huì)見(jiàn)援俄朝軍烈士遺屬 表示“深感內(nèi)疚”

看看新聞Knews
2025-08-30 15:12:05
難以置信,陳雨菲親述受傷對(duì)比賽的影響,以及最新傷情

難以置信,陳雨菲親述受傷對(duì)比賽的影響,以及最新傷情

真理是我親戚
2025-08-30 23:52:43
1-1!28歲前國(guó)腳黃紫昌蘇超首秀 造點(diǎn)+命中斬首球 率常州2輪不敗

1-1!28歲前國(guó)腳黃紫昌蘇超首秀 造點(diǎn)+命中斬首球 率常州2輪不敗

我愛(ài)英超
2025-08-30 21:39:08
吳京為何淪為全網(wǎng)群嘲的對(duì)象?編劇王海林曝光真相,言語(yǔ)一針見(jiàn)血

吳京為何淪為全網(wǎng)群嘲的對(duì)象?編劇王海林曝光真相,言語(yǔ)一針見(jiàn)血

小徐講八卦
2025-08-29 15:54:48
胡塞高層開(kāi)會(huì)被團(tuán)滅,奉勸一些人別爬上泥沙堆積的“道德高地”

胡塞高層開(kāi)會(huì)被團(tuán)滅,奉勸一些人別爬上泥沙堆積的“道德高地”

近距離
2025-08-30 17:25:12
2025-08-31 08:23:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來(lái)四季度必須盈利

頭條要聞

高校被指強(qiáng)制學(xué)生辦校園電話卡:不辦卡無(wú)法開(kāi)宿舍門

頭條要聞

高校被指強(qiáng)制學(xué)生辦校園電話卡:不辦卡無(wú)法開(kāi)宿舍門

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂(lè)要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國(guó)靜態(tài)品鑒開(kāi)啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

教育
時(shí)尚
藝術(shù)
游戲
本地

教育要聞

離譜!老師上課要求學(xué)生交東西,學(xué)生不從竟還舉凳砸老師

伊姐周六熱推:電視劇《十二封信》;電影《死神來(lái)了:血脈詛咒》......

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

魔獸懷舊服:HICC活躍角色下降,AFK潮出現(xiàn),隱藏內(nèi)容會(huì)開(kāi)放嗎

本地新聞

換個(gè)城市過(guò)夏天 | 夏末狂歡,浪在阜新黃家溝!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版