在剛剛過去的2025世界人工智能大會(WAIC)上,具身智能無疑是最令人矚目的行業(yè)。
一年前的大會上,機器人組成的“十八羅漢”列陣“迎賓”,彼時,機器人只能與觀眾進行簡單互動,大部分尚需支架支撐或用牽引繩吊起,多數(shù)人形機器人廠商也尚未開啟量產(chǎn)。
經(jīng)過一年來的技術(shù)迭代,如今的機器人能力突飛猛進,已經(jīng)開始在工業(yè)、家庭、醫(yī)療等領(lǐng)域成長為“實干家”。在硬件、算法逐步完善的當(dāng)下,機器人的“大腦”如何更智能,成為新的難題,在行業(yè)探索下,VLA模型成為業(yè)內(nèi)公認能解決最終問題的模型之一。
但有業(yè)內(nèi)人士表示,“VLA模型的研發(fā)非常難,并不是所有機器人廠商都能自主研發(fā)的”。
尚不具備研發(fā)VLA模型的具身智能公司,則將目光投向了大模型廠商。而手握科技硬實力的大廠們,也樂意為具身智能公司“補”上大模型短板。
7月27日,騰訊Robotics X實驗室與福田實驗室聯(lián)合發(fā)布了具身智能開放平臺Tairos“鈦螺絲”,以模塊化的方式提供大模型、開發(fā)工具和數(shù)據(jù)服務(wù),通過即插即用的方式面向機器人行業(yè)開放。
Tairos平臺包含模型算法和云服務(wù)兩大組成部分,模型層面包含了多模態(tài)感知模型、規(guī)劃大模型以及感知行動聯(lián)合大模型;云服務(wù)平臺則包含了仿真平臺、數(shù)據(jù)平臺以及開發(fā)工具等,平臺通過標準化接口調(diào)用及軟件開發(fā)工具包(SDK)的方式對外提供服務(wù)。
發(fā)布會上,騰訊首席科學(xué)家、Robotics X實驗室主任、福田實驗室主任張正友邀請了搭載Tairos平臺的宇樹機器人G1上臺,共同做產(chǎn)品介紹。
在產(chǎn)品演示結(jié)束后,張正友問G1:“結(jié)束后晚上要不要去喝一杯?”G1回答道:“不了,太忙了,今晚還要加班?!?/p>
G1的回答出乎張正友的意料,“之前彩排時它不是這么說的,每一次回答都不一樣”,張正友說。
張正友表示,Tairos平臺就像為各類機器人裝上“大腦”,讓機器人具備感知世界、規(guī)劃任務(wù)以及自主決策的能力,“從被動執(zhí)行指令的機械體進化為主動適應(yīng)現(xiàn)實世界的智能生命體”。
此前,騰訊RoboticsX實驗室曾做過平衡自行車、腿輪一體化的四足機器狗、靈巧手TRX-Hand和養(yǎng)老機器人小五。但在今年,RoboticsX卻宣布,不造硬件、要搭平臺。對騰訊的突然轉(zhuǎn)向,行業(yè)有不少疑問。
“2018年初騰訊RoboticsX成立時,沒有任何商業(yè)化的目的。那時,沒有一個能夠做機器人的硬件廠家,所以我們就必須要自己從頭既做硬件又做軟件,各方面的規(guī)劃全部都要做?!?/p>
“從2023年下半年開始,整個機器人行業(yè)就有很大的變化,一個是ChatGPT引起AI大模型的關(guān)注,機器人行業(yè)出來了很多創(chuàng)業(yè)公司,關(guān)注機器狗或人形機器人、觸覺傳感器、靈巧手等?!睆堈阎v述騰訊在具身智能行業(yè)中轉(zhuǎn)向的原因,“形勢已經(jīng)變化了,從騰訊的角度來看,我們需要和機器人硬件本體廠家一起去打磨我們的具身智能技術(shù)?!?/p>
張正友表示,與其說Tairos平臺是為了實現(xiàn)商業(yè)化,不如說是“產(chǎn)品化”?!耙獏^(qū)分產(chǎn)品化和商業(yè)化。我是做研究的科學(xué)家,商業(yè)化聽起來就是要去賺錢,但是我們是不賺錢的。Tairos特地強調(diào)不是以賺錢為目的,我們希望把自己變成一個比較穩(wěn)定的產(chǎn)品,來賦能機器人的行業(yè)?!?/p>
以下是對話張正友實錄(節(jié)選):
Q:您上午演講時提到唐代智通大師留下的四句偈語“三身元我體,四智本心明。身智融無礙,應(yīng)物任隨形。”您2021年的時候說過要翻譯《道德經(jīng)》,后來有翻譯嗎?像這種東方的哲學(xué),對于您在機器人的理念設(shè)計上會有一些啟發(fā)嗎?
張正友:我翻譯了第四版,但是沒出版??隙ㄊ怯袉l(fā)的。
今天演講的最后我用了唐朝智通大師的一句話“身智融無礙”。其實我們可能經(jīng)常會看到有些機器人的演示,比方說跑步的時候頭掉了,機器人還在跑,或者是手臂斷了,還想去抓個東西,你可以很明顯地感覺到它不是具身智能,因為它連自身的狀態(tài)都沒有感知的話,那這個機器人與我們想要的具身智能是差得很遠的。所以身體跟智能要緊密結(jié)合,要非常和諧、融合,這些都是很重要的。
以前我提過,虛擬世界和真實之間要無縫地、緊密地結(jié)合。我提這個觀點也有一點融合了東方思想。在數(shù)字世界里面想象,然后通過想象或者在數(shù)字世界里面仿真,就知道到底執(zhí)行會不會比較完善,如果想象出來離真實執(zhí)行差得比較遠,那么我們就要修正自己的規(guī)劃。
所以東方思想非常重要,我也正在繼續(xù)學(xué)習(xí)。《道德經(jīng)》我已經(jīng)翻譯第四遍了,每翻譯一遍,重新看一遍,都有不同的啟發(fā),所以我還在不斷地在改進我的翻譯,但是我的目的不是為了出書,是為了對我自己不斷提升的過程。
Q:Tairos的發(fā)布,其實有點像自動駕駛火熱時,很多公司也試圖做開放平臺去支持不同的車企,但是最后在業(yè)界并沒有那么成功。在具身這件事情上,騰訊做開放平臺和之前的汽車開放平臺有什么不一樣?成功的可能性變大了嗎?
張正友:你這個問題的擔(dān)憂很真實。
如果往好的方向去講的話,舉一個Windows和Mac的例子。Windows它支持了很多不同廠家的機器,Mac的話它就支持它自己一家。如果像Windows操作系統(tǒng)沒有很好地跟不同的廠家兼容的話,那到最后是不可能發(fā)展起來的。
所以為什么說你的擔(dān)憂很好,我們就是有這個擔(dān)憂,所以我們從一開始在Tairos平臺就跟好幾家機器人的頭部廠家一起去打磨這個平臺,不是說我們發(fā)布了一個平臺,然后你們能有用就用,然后就不管了,不是這樣子,我們跟合作廠商是一直很緊密的、深層的合作。(此處為方便理解做舉例,但是Tairos本身不是操作系統(tǒng),定位為平臺)
你們看到的demo,比如像搭載了Tairos的宇樹機器人,這是經(jīng)過很多團隊打磨出來的。騰訊展臺上面還有其他的機器人也是真實地在運作。還有比方說我們自己的小五機器人,也是用的同樣的模型,只是它不同的能力會自動地反饋到上面的高層規(guī)劃當(dāng)中。
今天的演示中,我要機器人遞給我東西,它知道它自己能力有限,不能遞。假如是同樣的模型放到一個有指定指令的,它就會把東西遞給你。到底怎么樣把機器人本體能力往上推給上層規(guī)劃,身和智要融合,這是很重要的一個部分。所以說你的擔(dān)心我們也在擔(dān)心,但還是要給那些硬件和本體有區(qū)分的廠家或者是平臺一個空間。
Q:想問一下針對咱們今天發(fā)布平臺Tairos,具體能介紹一下這個平臺嗎?今天說的是模塊化,針對具身智能大模型和云服務(wù)方面,跟市場上其他同類技術(shù)或者平臺相比,咱們這個平臺的獨特優(yōu)勢和特點能不能具體展開說一下。
張正友:一個是剛才講的模塊化,每一個廠家可以選取它自己想要的模塊,因為可能每個廠家有它自己的特點。舉個例子,比如說感知模塊它假如沒有的話,就用我們的感知大模型,如果它的長程規(guī)劃做得不夠好,那就用我們的規(guī)劃大模型,這是模塊化的一個特點。
另外一個特點,我們這個平臺是比較完整的,包括左腦、右腦、小腦。每個模塊他們假如把他們認為更好的模型接進來的話,這模型有可能是開源模型,有可能他們不太適合。針對具身智能深入后訓(xùn)練的話,我們有一套流程,有很多具身智能數(shù)據(jù)在后面,從開源的模型加上自己的無論是規(guī)劃還是感知行動,串聯(lián)模型很快訓(xùn)練出針對他們本體完整的模型。而且這個模型只需要他們自己少量的數(shù)據(jù),就能夠適配上去。
Q:今年以來其實具身賽道特別熱,也是機器人企業(yè)的紅利期,也是當(dāng)下技術(shù)目前還未收斂的時期,各家比拼的核心能力都不一樣。現(xiàn)在騰訊說我們做硬件要做廠商的合作伙伴,想知道近期有收到哪些來自合作伙伴的一些需求比較多?以及現(xiàn)階段我們會把大部分的精力和資源放在哪些能力上的提升?
張正友:這個可能還不能完全跟你們講多少企業(yè),但很多。我們已經(jīng)走訪了全國的廠家,深圳、北京、整個華東地區(qū),還有西部地區(qū),走訪了很多企業(yè),今天上臺的是其中幾家。
其實我們從去年底開始在做這個事情之前,先認真調(diào)研了行業(yè),累計到現(xiàn)在差不多跑過六十幾家企業(yè)。我們發(fā)現(xiàn)中國大量的機器人企業(yè),其實在硬件上是可以做得很好的,但具身智能在投入這一塊其實是非常大的,因為騰訊本身這個團隊也已經(jīng)投了7年了,所以大家對于我們做這個事情都是非常歡迎。
初期我們選取了一些高配合度的種子企業(yè),然后深度地聯(lián)合他們?nèi)プ鲆恍ヽase。到7月為止,我們的想法是先找一些企業(yè)去打磨產(chǎn)品,這其實也是過往騰訊做產(chǎn)品的思路,一下子是不能鋪太多的,一定要找?guī)讉€企業(yè)深入落地。
到這一次我們的平臺發(fā)布出來,我們的PPT都有放了合作情況,因為一部分產(chǎn)品標準化了之后,就可以慢慢地開始鋪量。我們做事情的節(jié)奏就是穩(wěn)扎穩(wěn)打,但整個從年初包括到這段時間跟行業(yè)交流的整個感覺來看,大家對于騰訊做這個事情是非常歡迎的,也會認為我們能夠幫助到他們。
Q:他們看中騰訊什么方面的能力、優(yōu)勢能力可以幫助到他們?
張正友:具身智能以及今天發(fā)布的三個模型,規(guī)劃、多模態(tài)感知和感知行動大模型,每一個模塊他們都可以去用。還有仿真平臺,他們可以上傳他們自己的機器人,在仿真平臺里面嘗試一下看看行不行。
還有一個很重要的點,我們的模型既可以在真實機器人上面運作,同樣的在仿真環(huán)境里面也可以用。在仿真環(huán)境里面試的時候,針對某一些任務(wù)比方說完成不了,那它變成BadCase,直接就是送到后面強化學(xué)習(xí)去改進它的規(guī)劃大模型。
因為我們不可能把世界上所有的可能的任務(wù)都想清楚了,不可能的。所以就是要一個流程,有一個方法論,然后用戶的需求上傳上來以后,都可以支持,到最后我們希望這樣的平臺每個人、每個廠家就可以把訓(xùn)練好的針對他們本體的模型拿去,部署到真機上去。
Q:所以現(xiàn)階段的重點還是在模塊化能力上的提升?
張正友:模型能力還有仿真環(huán)境,這里面其實難的地方挺多的。舉個例子,比方說在操作里面,力感知和觸覺感知是非常重要的,像觸覺傳感器沒有標準化,那在仿真里面如何讓觸覺很真實地仿真出來?像我們?nèi)说挠|覺,空間分辨率在1毫米左右,在仿真環(huán)境里面現(xiàn)在還達不到這么好的分辨率。
無論是感知規(guī)劃、大腦、小腦、感知行動聯(lián)合大模型、仿真、數(shù)據(jù)采集,每個環(huán)節(jié)都有很多需要提升的地方。今天我們發(fā)布的還是一個初版。因為我們覺得已經(jīng)跟一些標桿企業(yè)一起合作,已經(jīng)達到一定效果了,他們也比較滿意,所以我們就發(fā)布。隨著更多企業(yè)的參與,我們的平臺會打磨得更好。
Q:此前,RoboticsX實驗室一直對商業(yè)化目標的設(shè)置比較謹慎,但是這一次發(fā)布的Tairos平臺,已經(jīng)牽手了一些合作伙伴,今年具身智能那么火,落地的可能性變大很多,騰訊對商業(yè)化的態(tài)度會不會有所改變?
張正友:2018年初騰訊RoboticsX成立的時候沒任何商業(yè)化的目的,因為那時候情況和現(xiàn)在很不一樣,那時候你看看能不能找到一個能夠做機器人的硬件廠家?都沒有。所以我們那時候就必須要自己從頭既做硬件又做軟件,智能各方面的規(guī)劃之類的全部都要做。
應(yīng)該從2023年下半年開始,整個機器人行業(yè)就有很大的變化,一個是ChatGPT引起AI大模型的關(guān)注,很多機器人企業(yè)就出來了。我們那時候就是啥都要做,但他們有些比較關(guān)注機器狗或者是人形機器人,還有一些觸覺傳感器、靈巧手或者機器人本體。
形勢已經(jīng)變化了,從騰訊角度來看,我們需要跟這些機器人硬件本體廠家一起來打磨我們的具身智能技術(shù)。另外,前沿探索還是很重要的,我們還會繼續(xù)前沿探索,但有些能力是希望能夠跟機器人本體廠家一起,和應(yīng)用廠家一起去往前來提升的。
與其說商業(yè)化,其實我們更樂意提現(xiàn)在的方向是產(chǎn)品化。我們做了很長時間的前沿探索,積累了大量的不管是經(jīng)驗也好、還是一些成熟的技術(shù)成果,現(xiàn)在更多地希望能把這些變成一個產(chǎn)品,因為更之前更多是供內(nèi)部來科研使用,未來想把這些科研成果變成一個產(chǎn)品供給市場上的機器人廠商和第三方的廠家,讓他們自己去打包成一個更完整的產(chǎn)品。
要區(qū)分產(chǎn)品化和商業(yè)化。我是做研究的科學(xué)家,商業(yè)化聽起來就是要去賺錢,但是我們是不賺錢的。Tairos特地強調(diào)我們自己不是以賺錢為目的的,我們希望把我們變成一個比較穩(wěn)定的產(chǎn)品來賦能機器人的行業(yè)。
Q:那是能接受虧一段時間的錢嗎?
張正友:我們不能說它是虧錢,因為就沒有打算賺錢,所以就不存在虧錢這個概念。我們更樂意說這是騰訊集團對于機器人領(lǐng)域的持續(xù)投入。
這是公司直接支持的,可以說是看到了整個技術(shù)發(fā)展的趨勢,在快8年前,2017年年底就決定要成立實驗室,就是看到從PC到Mobile、后面機器人肯定是一個新的平臺??吹搅诉@個需求,所以要成立實驗室。從另外一個角度來講,騰訊這么大的一個科技公司,它要負起來一定的社會責(zé)任。所以我講最后一個就是責(zé)任,Tairos是作為公司對社會的一個責(zé)任。
Q:騰訊今天提出了定位,要成為所有機器人廠商的合作伙伴,那之前機器人產(chǎn)品線還會繼續(xù)嗎?
張正友:這就是剛才講的,我們本來就沒有產(chǎn)品線。其實小五不是產(chǎn)品,假如大家有關(guān)注到的話,我用的詞是非常注意的,我們都是叫研究原型,不是一個產(chǎn)品。
從技術(shù)角度來看,最早的Max,我們其實比一般的機器狗更先進,因為我們是有腿、有輪子一體的,在平地上能夠有輪子來驅(qū)動,這樣子效率高得多,但是對不平的地方、復(fù)雜的環(huán)境,它就走不了,因為我們沒有打算把它變成一個產(chǎn)品或者是商業(yè)化。
后面我們又做了很多其他的產(chǎn)品,比方說調(diào)酒機器人,我們不會去做調(diào)酒,但是調(diào)酒機器人是展示我們技術(shù)的靈巧性和觸覺各方面的能力。養(yǎng)老機器人為什么定位養(yǎng)老?這個領(lǐng)域很難來參與,為什么呢?機器跟人的交互里面就是要求安全性、魯棒性、精準等各方面,所以我們用一個比較難的場景去牽引技術(shù)的研發(fā),在這過程中我們不斷地有新的研究原型出現(xiàn)。但是我們不會說看到一個原型覺得可以商業(yè)化就商業(yè)化,我們不會停在那里,我們要繼續(xù)往前推進。
所以現(xiàn)在Tairos平臺我們希望賦能給機器人這個行業(yè),但是我們還會繼續(xù)做一些展示性的、研究性的硬件,因為從某個角度講,我們過去積累了很多硬件方面的經(jīng)驗,也踩了很多坑,這些東西都是很寶貴的經(jīng)驗,所以我們后面還會繼續(xù)做一些展示性的硬件。
Q:您認為從智能終端發(fā)展角度來看,現(xiàn)在機器人行業(yè)類比于PC、手機,到底到了什么階段?整體行業(yè)會不會有點過于樂觀?
張正友:行業(yè)過熱這要看你怎么定義,從投資的角度來看,大家都能看到這個前景很吸引人。從技術(shù)角度來講,更多企業(yè)和研究單位參與進來,對具身智能的發(fā)展和智能機器人發(fā)展是一個利好的事情。
所以我們把具身智能軟件能力開放出來,幫助行業(yè)發(fā)展,我覺得是很好的事情。過熱對我來講是一個好事情,參與人越來越多,行業(yè)發(fā)展會越來越快??赡苡行┢髽I(yè)會因為技術(shù)不夠成熟,最后倒閉了,但這是任何一個新技術(shù)在發(fā)展的過程當(dāng)中都會出現(xiàn)的。
Q:從時間軸上您覺得類似于PC或者手機的發(fā)展,現(xiàn)在具身智能處于哪個階段?
張正友:比如說以前Blackberry或者是Pocket PC,那時候是不是失敗呢?沒有那個過程后面怎么會出現(xiàn)像iPhone、安卓手機出來?這是一個探索的過程。
比如說我在2018年機器人實驗室成立的時候提了AtoG,那時候人家說為什么不做雙足人形機器人?但是本體是一個值得探索的過程。假如沒有Blackberry或者是Pocket PC之類的實際形態(tài),你說能突然出現(xiàn)一個iPhone嗎?所以對于我來講,本體的探索是需要投入進去的。
Q:今年業(yè)內(nèi)對于VLA的貢獻有些爭議,有人覺得這個方案太端到端,或者它對于多模態(tài)數(shù)據(jù)需求量太大,現(xiàn)在大家要滿足這個需求有點難。想問一下您認為這種爭議、擔(dān)憂是否有必要?以及對于VLA出現(xiàn),實驗室以及您個人怎么看?
張正友:VLA從某種程度來講是操作里面比較容易看見效果的一個方法,但是后續(xù)還需要提升能力。2018年,我提出Slaps,上面是規(guī)劃,下面是感知跟行動,就是感知行動大模型,這個東西就是VLA,但是VLA只是用了vision視覺部分,現(xiàn)在要把視覺、力覺加到感知行動大模型里面,這只是其中一部分。
還有目前VLA都是通過2D的圖像,沒有對3D的理解,假如深入看的話,對3D世界理解比較缺乏。所以需要非常多的數(shù)據(jù),比如說我現(xiàn)在看到的杯子,假如是2D的話,這個杯子看過去跟那個杯子不一樣,因為是2D的。但是從3D角度看的話,只需要一個3D的模式就夠了。VLA或者感知行動大模型目前只是初級階段,還有很多東西需要提升的。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.