車東西(公眾號(hào):chedongxi)
作者 | 張睿
編輯 | 志豪
VLA模型領(lǐng)域又來(lái)了一位新玩家。
車東西8月27日消息,日前,元戎啟行發(fā)布了全新一代輔助駕駛平臺(tái)——DeepRoute IO 2.0。
▲元戎啟行發(fā)布DeepRoute IO 2.0
該平臺(tái)搭載元戎啟行自研的VLA(Vision-Language-Action,視覺(jué)-語(yǔ)言-動(dòng)作)模型,融合視覺(jué)感知、語(yǔ)義理解與動(dòng)作決策三大能力,對(duì)比傳統(tǒng)端到端模型,VLA模型更擅長(zhǎng)應(yīng)對(duì)復(fù)雜路況。
▲VLA(Vision-Language-Action)模型
據(jù)介紹,元戎啟行DeepRoute IO 2.0平臺(tái)以“多模態(tài)+多芯片+多車型”適配為核心設(shè)計(jì)理念,支持激光雷達(dá)與純視覺(jué)版本,可面向多種主流乘用車平臺(tái)開(kāi)展定制化部署。
元戎啟行方面表示,截至目前基于DeepRoute IO 2.0平臺(tái)已達(dá)成5個(gè)車型的定點(diǎn)合作項(xiàng)目,首批量產(chǎn)車也即將進(jìn)入市場(chǎng)。
元戎啟行CEO周光表示,“VLA模型融合了語(yǔ)言模型,具備強(qiáng)大的思維鏈能力,能擺脫傳統(tǒng)端到端模型的黑盒難題,并將信息串聯(lián)、分析,從而推理出因果關(guān)系。此外,它天然集成海量知識(shí)庫(kù),泛化能力更強(qiáng),能夠更好地適應(yīng)復(fù)雜多變的真實(shí)道路環(huán)境?!?/p>
另外,周光還表示,VLA模型的表現(xiàn)目前處于持續(xù)提升階段,但VLA模型的下限已超過(guò)端到端上限,未來(lái)會(huì)越來(lái)越好。
一、VLA模型帶來(lái)4大功能 支持防御性駕駛策略
在此次發(fā)布會(huì)上,元戎啟行展示了其VLA模型的4大功能:空間語(yǔ)義理解、異形障礙物識(shí)別、文字類引導(dǎo)牌理解、記憶語(yǔ)音控車。
▲元戎啟行DeepRoute IO 2.0平臺(tái)4大功能
空間語(yǔ)義理解是元戎啟行VLA模型的重點(diǎn)能力。該功能可在視野受限的動(dòng)態(tài)或靜態(tài)盲區(qū)環(huán)境中(如公交車遮擋、復(fù)雜路口、橋洞等)感知潛在風(fēng)險(xiǎn),主動(dòng)對(duì)盲區(qū)進(jìn)行 “預(yù)防性預(yù)判”。
▲DeepRoute IO 2.0系統(tǒng)空間語(yǔ)義理解能力
系統(tǒng)可在風(fēng)險(xiǎn)出現(xiàn)前提前減速、穩(wěn)妥通行,具備擬人化的防御性駕駛策略。周光表示:“必須讓AI學(xué)會(huì)害怕,這才是對(duì)安全真正的重視。”
▲DeepRoute IO 2.0系統(tǒng)具備防御性駕駛策略
其余三項(xiàng)能力分別是:異形障礙物識(shí)別使系統(tǒng)能夠識(shí)別并應(yīng)對(duì)如施工錐桶、超載小貨車等非結(jié)構(gòu)化障礙;文字類引導(dǎo)牌識(shí)別讓系統(tǒng)“看懂路標(biāo)”,可解析潮汐車道、公交專用道等文字信息;記憶語(yǔ)音控車功能支持自然語(yǔ)言指令交互,并逐步學(xué)習(xí)用戶偏好。
▲DeepRoute IO 2.0系統(tǒng)異形障礙物識(shí)別能力
此外,元戎啟行方面表示,已獲得超過(guò)10款車型的定點(diǎn)合作,并已經(jīng)有近10萬(wàn)輛具備城市領(lǐng)航輔助系統(tǒng)的量產(chǎn)車型交付,涵蓋SUV、MPV、越野車等多個(gè)車型。
▲元戎啟行已交付近10萬(wàn)輛具備城市領(lǐng)航輔助系統(tǒng)車型
二、VLA模型幻覺(jué)現(xiàn)象已經(jīng)很少 將拓展至人形機(jī)器人
在發(fā)布會(huì)后,元戎啟行CEO周光接受了車東西在內(nèi)媒體的采訪,回答了有關(guān)VLA模型等方面的問(wèn)題,以下是部分重點(diǎn)問(wèn)題的整理,在不改變?cè)獾那闆r下有刪減。
▲元戎啟行CEO周光
1、激光雷達(dá)短期仍有其價(jià)值
關(guān)于特斯拉CEO馬斯克提到的“激光雷達(dá)會(huì)讓自動(dòng)駕駛越來(lái)越不安全”的觀點(diǎn),周光表示他認(rèn)為激光雷達(dá)目前對(duì)通用障礙物識(shí)別仍有重要作用,大模型的知識(shí)庫(kù)能力可以識(shí)別很多未知障礙物。
周光相信隨著大模型技術(shù)的發(fā)展,視覺(jué)會(huì)在感知中扮演越來(lái)越重要的角色。短期來(lái)看,激光雷達(dá)受限于技術(shù)發(fā)展和數(shù)據(jù)集的成熟度,仍有其價(jià)值,而長(zhǎng)期來(lái)看,大模型有望逐步解決現(xiàn)在依賴激光雷達(dá)的部分任務(wù)。
2、VLA模型的研發(fā)和訓(xùn)練本身與芯片無(wú)關(guān)
關(guān)于元戎啟行VLA模型針對(duì)不同芯片平臺(tái),在算法和訓(xùn)練上做了哪些優(yōu)化,周光表示VLA模型的研發(fā)和訓(xùn)練本身與芯片無(wú)關(guān),訓(xùn)練完成后才會(huì)進(jìn)行部署適配,不同芯片平臺(tái)主要影響的是工程部署的工作量,并不會(huì)改變訓(xùn)練方式或模型架構(gòu)。
3、VLA模型幻覺(jué)現(xiàn)象已經(jīng)很少
關(guān)于VLA模型是否也會(huì)出現(xiàn)“幻覺(jué)”,周光表示預(yù)訓(xùn)練階段確實(shí)可能產(chǎn)生幻覺(jué),但通過(guò)后訓(xùn)練對(duì)齊技術(shù),已經(jīng)能極大抑制這一現(xiàn)象?,F(xiàn)在主流大模型(如豆包、千問(wèn))幻覺(jué)現(xiàn)象已經(jīng)很少,這方面已有較好的解決方案。
4、VLA模型將拓展至人形機(jī)器人
關(guān)于VLA模型是否會(huì)拓展至人形機(jī)器人,車用和機(jī)器人用的VLA模型是否是同一套,周光表示VLA模型本身是通用架構(gòu),不再為特定場(chǎng)景定制。元戎啟行年初發(fā)布的RoadAGI策略時(shí)就表示,未來(lái)這一技術(shù)可泛化至多種移動(dòng)場(chǎng)景,包括小區(qū)、電梯、辦公室等室內(nèi)外環(huán)境。
周光還提到現(xiàn)在很多機(jī)器人還依賴遙控或巡線技術(shù),而元戎啟行希望能實(shí)現(xiàn)真正自主、通用的移動(dòng)能力。
5、出海的關(guān)鍵在于合規(guī)
關(guān)于元戎啟行在出海方面計(jì)劃和VLA模型對(duì)出海的幫助,周光表示出海的關(guān)鍵在于合規(guī),而隨著AI模型正越來(lái)越通用化,互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練的基礎(chǔ)模型已具備較強(qiáng)泛化能力,不存在“中國(guó)模型只懂中國(guó)”的說(shuō)法。
結(jié)語(yǔ):元戎啟行加速VLA模型上車
在發(fā)布會(huì)上,周光總結(jié)道:“10萬(wàn)是一個(gè)起點(diǎn),隨著高階輔助駕駛市場(chǎng)的加速打開(kāi),我們相信,像元戎啟行這樣具備核心技術(shù)能力的公司將迎來(lái)更大的市場(chǎng)空間?!?/p>
未來(lái),元戎啟行表示將圍繞VLA模型持續(xù)拓展應(yīng)用邊界,在乘用車市場(chǎng)加速量產(chǎn)部署的同時(shí),推進(jìn)基于量產(chǎn)車平臺(tái)的Robotaxi業(yè)務(wù)。
另外,元戎啟行希望VLA模型在更多可移動(dòng)智能體上延展復(fù)用,逐步實(shí)現(xiàn)從單點(diǎn)功能到通用智能體的系統(tǒng)演進(jìn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.