文|富充
編輯|蘇建勛
“機器人運動會結(jié)束以來,公司的400咨詢電話一直沒有停過,比賽后第二周就有十幾家酒店客戶來公司參觀?!眱?yōu)理奇(Unix AI)的創(chuàng)始人、CEO楊豐瑜告訴《智能涌現(xiàn)》。
在8月上旬的世界人形機器人運動會上,優(yōu)理奇機器人取得了酒店清潔與迎賓服務(wù)項目的兩金一銀。在酒店
這促成了酒店、養(yǎng)老院等經(jīng)營方對優(yōu)理奇的關(guān)注。
這兩個項目均考驗機器人的泛化能力、手部精細操作與運動速度——清潔項目要求機器人在最短時間內(nèi)拾取散落在房間的多種物品,迎賓項目則需抓住“客人”的行李箱并快速運送至終點。
能在比賽中取得獎牌,在于優(yōu)理奇機器人賽前已進入包括酒店在內(nèi)的“類C端”清潔作為機器人的落地場景,邊干活邊積累數(shù)據(jù)及場景中的作業(yè)能力。
在客房中,優(yōu)理奇機器人完成清潔、整理、收垃圾等工作。雖然速度仍比不上人類保潔員,但清潔場景相對容錯率高,可以讓機器人關(guān)起門來慢慢干。
在楊豐瑜看來,“類C端”場景里鍛煉的技能,未來還可以被遷移到家庭、餐廳、快餐店、咖啡廳等B端和C端任務(wù)中。
目前,優(yōu)理奇機器人已進入小規(guī)?;桓峨A段,與多家酒店集團、物業(yè)公司與養(yǎng)老社區(qū)簽訂訂單。
基于當(dāng)前缺少數(shù)據(jù)的行業(yè)現(xiàn)狀,優(yōu)理奇沒有選擇目前較為主流的VLA(Vision-Language-Action,視覺-語言-動作)端到端路線。
優(yōu)理奇的技術(shù)路徑,是把場景中所需動作分解成關(guān)鍵點和運動軌跡,并進行模仿學(xué)習(xí)。
這樣一來,經(jīng)過少量的動作數(shù)據(jù),機器人可以學(xué)會該類動作軌跡。此后,先進入能落地的場景鋪量應(yīng)用,并在實際干活中,再通過數(shù)據(jù)飛輪不斷迭代。
這也是優(yōu)理奇的商業(yè)策略。
優(yōu)理奇Wanda二代機、三代機在機器人運動會上接受頒獎,圖片:采訪人提供
楊豐瑜出生于2000年,本科畢業(yè)于密歇根大學(xué)計算機專業(yè),并于耶魯大學(xué)攻讀計算機專業(yè)博士學(xué)位。2024年,楊豐瑜暫停博士課業(yè),創(chuàng)立了優(yōu)理奇。
在他看來,過去20年中,凡是跟硬件相關(guān)的領(lǐng)域,最終都是中國公司的天下。這也是他抓緊眼前具身智能窗口期,歸國進行創(chuàng)業(yè)的原因。
近日,《智能涌現(xiàn)》對楊豐瑜進行了采訪,進一步交流了優(yōu)理奇在商業(yè)化、技術(shù)等方面的看法。他也向《智能涌現(xiàn)》透露了尚未上市的Wanda三代機的情況。
以下內(nèi)容來自對話,經(jīng)作者整理。
優(yōu)理奇創(chuàng)始人兼CEO楊豐瑜,圖片:采訪人提供
在“類C端”場景中探索“數(shù)據(jù)飛輪”
智能涌現(xiàn): 優(yōu)理奇機器人在機器人運動會上取得了兩金一銀。這給公司帶來了什么后續(xù)影響?
楊豐瑜: 比賽一結(jié)束,我們的400咨詢電話就被打爆了,比賽后的第二周有十幾家酒店客戶組團來公司參觀。
雖然干活類的比賽并未在現(xiàn)場引起太多的流量,我們連大屏幕都沒撈到,但結(jié)果還是在客戶層面行成了發(fā)酵。
同時,備賽過程中我們也提升了機器人的能力。
比如酒店迎賓的項目,原定的規(guī)則是,機器人提起行李箱后放到行李車上,再把行李車推到指定地點。這個動作的難點,是機器人前進方向跟拖拽行李車的方向可能不在一條直線,包含很多待解決的硬件問題。
為此,我們花了一個多月的時間去迭代硬件。雖然拉行李車的任務(wù)后來被取消了,但我非常感謝它提高了我們的機器人。
Wanda三代機在酒店迎賓項目中,雙手協(xié)同拉行李箱,圖片:采訪人提供
智能涌現(xiàn): 你提到優(yōu)理奇機器人已經(jīng)進入酒店場景邊干活邊采集數(shù)據(jù),為什么聚焦這個場景?
楊豐瑜:酒店清潔被我們認為是一種“類C端”的技能,掌握好該場景中清潔、整理、收垃圾等原子動作,就能遷移到家庭、養(yǎng)老院、餐廳、快餐店、咖啡廳場景。
酒店清潔場景中的數(shù)據(jù)也可以回傳,不像工業(yè)場景的保密性那么高,這對訓(xùn)練機器人模型幫助很大。
酒店清潔場景的好處還包括容錯率高,可以讓機器人關(guān)門慢慢干,也沒有那么多人機交互的隱患。
智能涌現(xiàn): 所以取得比賽成績,更多是源于平時的積累?
楊豐瑜:對。酒店清潔比賽是機器人進入模擬場景,撿拾散落的瓶子、盒子等物品,這是優(yōu)理奇機器人本來就擅長的事。
事實上,我們的機器人可以完成比賽事更難的任務(wù),比如收拾垃圾、收拾垃圾袋、鋪床,打掃洗手間等。
智能涌現(xiàn): 優(yōu)理奇的技術(shù)路徑是邊量產(chǎn)、出貨,邊在實際工作中收集數(shù)據(jù)。這么做的理由是什么?
楊豐瑜:優(yōu)理奇是走特斯拉路線的機器人公司,就是先在實際場景鋪足夠量的機器人,然后再通過“數(shù)據(jù)飛輪”積累足夠的數(shù)據(jù)。
這樣的好處是訓(xùn)練門檻很低,我們甚至不需要算法工程師,部署工程師就能搞定。
我相信大語言模型中,數(shù)據(jù)量變引起質(zhì)變的Scaling Law也可以在具身智能領(lǐng)域復(fù)現(xiàn)。但這很講究Scale的方法。
首先是數(shù)據(jù)的質(zhì)量和多樣性很重要,多樣性甚至更重要。我寧愿要符合“自然分布”的一億條數(shù)據(jù),也不要在人為分布里的“一小撮”數(shù)據(jù)。為了盡可能在自然分布里采到數(shù)據(jù),不可能天天雇人去采,只能去真實場景里采。
其次,數(shù)量要夠大。在圖像領(lǐng)域和文本領(lǐng)域,訓(xùn)練一個多模態(tài)的大語言模型,是按照十億級進行數(shù)據(jù)積累。
在與具身智能最相近的自動駕駛領(lǐng)域,想跑一個L4或者準L4級別的模型,需要至少小幾十萬臺車在路上跑。這還是在所有數(shù)據(jù)都是干凈的理想狀態(tài)下。
在機器人領(lǐng)域,我覺得至少需要一個跟自動駕駛相近的數(shù)量級。沒有幾十萬臺機器人在路上跑,不要想說做出一個非常好的模型。
為了減少比賽時間,Wanda二代機在酒店清潔項目中可使用雙手作業(yè),圖片:采訪人提供
不押注VLA,但堅持全棧自研
智能涌現(xiàn): 聽說你們在比賽中的“關(guān)門”動作上遇到了難題,但很快解決了??焖俳鉀Q問題的原因是什么?
楊豐瑜: 關(guān)門對于機器人來說本來就是難點,這個鉸鏈動作要同時考慮側(cè)身、全身運動角度配合、門把手抓握等。
開幕式當(dāng)晚,我們到現(xiàn)場模擬時發(fā)現(xiàn),酒店清潔項目的門有一米寬。
這個尺寸是為了方便一些底盤大的機器人進出,但寬于日常酒店、家庭用的門。而我們的機器人底盤沒有那么大,平時也是針對常規(guī)酒店75-80厘米的門訓(xùn)練的模型和算法。所以我們的雙機械臂關(guān)門策略并不適用于比賽的門。
當(dāng)天晚上,我們就在現(xiàn)場用VR設(shè)備重新采集數(shù)據(jù),重新訓(xùn)練這個原子技能。第二天一早又是首個上場比賽的團隊,根本沒有第二次調(diào)試機會。
好在有驚無險贏得了比賽。我們自研的模仿學(xué)習(xí)平臺UniFlex起到了很大作用,它最大的優(yōu)勢是數(shù)據(jù)利用效率極高,只靠5到10次的數(shù)據(jù)采集就能學(xué)會一個新的任務(wù)。
智能涌現(xiàn): 具體介紹一下UniFlex?
楊豐瑜: 這是一套感知操作解耦模型,它的核心是基于關(guān)鍵點的模仿學(xué)習(xí)。
我們把一個動作分解成幾個關(guān)鍵點和運動軌跡,在拓撲空間里學(xué)習(xí)。
這是和機器人運動生成主要學(xué)派DMP(Dynamic Movement Primitives,動態(tài)運動基元)、VMP(Variational Movement Primitives,變分運動基元)相關(guān)的流派,這兩年對于它們提及的少了,但在結(jié)合大模型之后煥發(fā)了“第二春”。
所以你可以理解成,我們是通過少量的幾次動作,學(xué)會了那一類動作的軌跡。例如,執(zhí)行開門動作時,即使換成了別的門,或者導(dǎo)航左偏了兩厘米、右偏了三厘米,都可以完成。
(作者注: “拓撲”作為數(shù)學(xué)概念,比起精確的距離和形狀,更關(guān)注物體之間的相對關(guān)系。對于開門這個動作,拓撲關(guān)系就是:“手”和“門把手”的相對位置關(guān)系。只要“握住”這個核心關(guān)系不變,無論門把手的顏色、形狀、材質(zhì),機器人都能識別出它并完成“握住”這個關(guān)鍵點。)
智能涌現(xiàn): 所以從核心技術(shù)來講,優(yōu)理奇的技術(shù)路徑是怎樣的?你們似乎不像其他公司一樣押注VLA?
楊豐瑜: 我們短期內(nèi)在落地場景中不使用VLA。
從長期而言,我看好VLA技術(shù)路徑,但在當(dāng)前缺乏海量機器人數(shù)據(jù)的情況下,端到端VLA的時機還不成熟。
智能涌現(xiàn):現(xiàn)在一些團隊在VLA的基礎(chǔ)上加入了Tactile(觸覺),組成VTLA。你對它怎么看?
楊豐瑜:觸覺非常重要,我們的UniTouch是基于視覺與觸覺融合的大模型系統(tǒng),用于提升機器人對材質(zhì)與接觸反饋的理解,使操作行為更接近人類處理方式。
但我們沒有使用VTLA的方式。究其原因,視覺和觸覺是兩大復(fù)雜感知源,在具體實現(xiàn)上,許多做VTLA的團隊采用了一種近乎“黑盒”的端到端模式。
他們將觸覺、視覺等多模態(tài)信息在模型底層編碼為一個復(fù)雜的隱含向量(Latent Vector),然后直接將這個向量拋給下游的動作解碼器或身體控制模塊作為輸入。
然而,這種做法的核心問題在于其不可解釋性。舉個例子,它有點類似煉丹,把需要的元素都扔進去,但觸覺與視覺究竟以何種機制實現(xiàn)融合,缺乏透明性。
我們的UniTouch更多的是把觸覺作為一個多模態(tài)關(guān)鍵點和我們的UniFlex模仿學(xué)習(xí)框架直接結(jié)合在一起。在預(yù)訓(xùn)練階段,我們是先把視覺和觸覺的數(shù)據(jù)關(guān)系通過預(yù)訓(xùn)練模型建立起來,讓機器人“看”到物體就能想象出“接觸”的感受,從而再由此來判斷抓取的力和方式。
智能涌現(xiàn): 所以現(xiàn)階段,優(yōu)理奇的機器人上使用了視觸覺傳感器嗎?
楊豐瑜: 目前優(yōu)理奇的機器人上并沒有安裝實體的高精度視觸覺傳感器。
是因為在觸覺傳感器上,從信號的密度、耐久性、價格三個維度上,業(yè)內(nèi)還沒有找到很好的解決方法能夠讓傳感器兼具這三個特性。
現(xiàn)在我的模型用于視觸覺傳感器肯定會得到好的效果,但是成本在于,一個手指就要增加6000-8000元的視觸覺傳感器,而且不耐用,還會增加夾爪的厚度。目前視觸覺的性價比不高。
全棧自研Wanda二代機,圖片:采訪人提供
智能涌現(xiàn): 硬件的重要性對你而言是怎樣的?
楊豐瑜: 今年是機器人的量產(chǎn)元年,我認為硬件穩(wěn)定具有壓倒一切的重要性。
智能涌現(xiàn):為什么要堅持全棧自研硬件?難點在哪?
楊豐瑜:第一個原因是,現(xiàn)在機器人沒有標品,找上游供應(yīng)商開發(fā)的時間很慢,自己做在時間上更好控制;而且找供應(yīng)商做的話技術(shù)上會存在黑盒,出了錯都不知道是哪里的問題。
第二點,就是沒有中間商賺差價,成本可控。全棧自研讓我們能極致地控制成本。比如,別人用諧波減速器,一個就要一兩千,我們用自己的方案,整個關(guān)節(jié)加起來都沒它貴。二代機8萬8的定價,仍有非??捎^的毛利。
第三,也是最關(guān)鍵的,為了未來的數(shù)據(jù)一致性和模型遷移。如果硬件不是自研,第二代、第三代機器人的數(shù)據(jù)可能無法復(fù)用,模型就廢了。
全棧自研的難點在于供應(yīng)鏈的穩(wěn)定性和生產(chǎn)品控,這是最難的“硬骨頭”,我們上半年就在啃這個。
智能涌現(xiàn): 似乎這次機器人大賽中使用到了尚未公開發(fā)布的Wanda新機型“三代機”。能否透露一下?它和量產(chǎn)的二代機有什么區(qū)別?
楊豐瑜: 這次運動會我們采取了雙機并行的策略,參賽的是我們的系列通用人形機器人Wanda系列的二代機和三代機。
其中Wanda三代機是性能擔(dān)當(dāng),雖然還沒有發(fā)布,但是在這里可以簡單透露一下。
三代機完全是為干活而生,長得沒那么像人,但性能更強。它有全向四驅(qū)底盤,移動更快,負載更高,對于機器人高度的控制也更好。
但實際上,現(xiàn)在的這款是實驗機,剛做好就套上外殼拉到WRC參展去了,然后又參加了機器人運動會,到現(xiàn)在才回家。
因此,事實上,三代機在比賽時,算法上的策略還沒有被驗證得特別多。但從比賽結(jié)果來看,性能還是讓我們滿意的。
Wanda二代機是已經(jīng)量產(chǎn)的版本,雖然性能不如新機型,但已經(jīng)很穩(wěn)定了,我們把它作為保底選項。
Wanda三代機在酒店迎賓場景中搬運行李箱,圖片:采訪人提供
年輕人的驅(qū)動力比“00后”標簽重要
智能涌現(xiàn): 作為一位“00后”的CEO,你覺得自己的優(yōu)勢是什么?
楊豐瑜: 我只是正好在2000年出生,這一波有很多非常年輕的具身的創(chuàng)業(yè)者,“00后”和他們沒有本質(zhì)的不同。
但作為年輕創(chuàng)業(yè)者來說,我們沒有歷史包袱,不受傳統(tǒng)觀念的束縛。
我自己是一線技術(shù)出身,代碼是自己敲的,我知道什么東西Work,什么東西不Work,距離技術(shù)非常近。
這件事歸根結(jié)底還是技術(shù)驅(qū)動的,我們相信年輕人是驅(qū)動這波具身智能發(fā)展的核心力量。
智能涌現(xiàn): 這么年輕就開始創(chuàng)業(yè),你大致的經(jīng)歷是怎樣的?
楊豐瑜: 我一直想創(chuàng)業(yè),而且我是正經(jīng)八百拿到了金融和商科學(xué)位的。我的博士生導(dǎo)師自己也創(chuàng)業(yè),所以他非常支持我。
我覺得在學(xué)術(shù)界是“為了解決問題而創(chuàng)造問題”,我更想解決真實世界的問題。
過去20年凡是跟硬件相關(guān)的領(lǐng)域,最終都是中國公司的天下,我非常長期地看好中國供應(yīng)鏈和市場的優(yōu)勢。
所以目前博士學(xué)位還沒有修完,但文章已經(jīng)發(fā)夠了,就先抓住眼前的窗口期創(chuàng)立了優(yōu)理奇。
智能涌現(xiàn): 如此年輕的團隊,如何吸引到有經(jīng)驗的產(chǎn)業(yè)老兵加入?包括優(yōu)理奇首席科學(xué)家王賀升教授這樣的資深專家?
楊豐瑜: 大家找的是互補。一群老炮在一起還是老炮的打法。我們年輕團隊有沖勁和技術(shù)前沿的敏銳度,老兵們有豐富的產(chǎn)業(yè)經(jīng)驗和資源,兩者結(jié)合能產(chǎn)生巨大的化學(xué)反應(yīng)。
Wanda三代機在運動會中完成酒店清潔任務(wù),圖片:采訪人提供
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.