VLA,這是 2025 年最熱的輔助駕駛技術(shù)路線之一,理想 i8 已經(jīng)量產(chǎn),小鵬 P7 緊追不舍,而華為卻說(shuō)我們不用這個(gè)技術(shù)。
就在昨天,VLA 陣營(yíng)又一位新玩家來(lái)了,元戎啟行發(fā)布全新一代輔助駕駛平臺(tái)——DeepRoute IO 2.0,并搭載自研的 VLA(Vision-Language-Action)模型。
元戎啟行 CEO 周光透露,開(kāi)發(fā) VLA 模型的起點(diǎn)是讓 AI 學(xué)會(huì)害怕。傳感器看不見(jiàn),并不代表沒(méi)有危險(xiǎn),這也是在之前端到端時(shí)代輔助駕駛的局限。
經(jīng)常使用輔助駕駛的司機(jī)一定有這樣的體驗(yàn),在駕駛員覺(jué)得危險(xiǎn)的場(chǎng)景(例如遮擋、轉(zhuǎn)彎、車(chē)道合并)之下,輔助駕駛反而信心滿(mǎn)滿(mǎn),快速通過(guò)。更嚴(yán)重的問(wèn)題是,這樣的表現(xiàn)卻通常被駕駛員認(rèn)為輔助駕駛的效率高于人類(lèi),造成過(guò)度信賴(lài)。隨著搭載輔助駕駛車(chē)型的不斷增多,任何問(wèn)題都有可能被放大。
究其原因,AI 沒(méi)有學(xué)會(huì)害怕。
元戎啟行的 VLA 模型就有四大功能,分別是空間語(yǔ)義理解、異形障礙物識(shí)別、文字類(lèi)引導(dǎo)牌理解、記憶語(yǔ)音控車(chē)。
其中,空間語(yǔ)義理解就成為了最核心的功能。在輔助駕駛過(guò)程中,車(chē)輛對(duì)前視攝像頭的畫(huà)面進(jìn)行語(yǔ)義理解(Vision-Language),當(dāng)車(chē)輛行駛到遮擋、復(fù)雜路口、橋洞等視野盲區(qū)時(shí),系統(tǒng)可以進(jìn)行預(yù)防性判斷,最終決策降低車(chē)速(Action)。
異形障礙物識(shí)別使系統(tǒng)能夠識(shí)別并靈活應(yīng)對(duì)如施工錐桶、超載小貨車(chē)等非結(jié)構(gòu)化障礙;文字類(lèi)引導(dǎo)牌識(shí)別讓系統(tǒng)看懂路標(biāo),解析潮汐車(chē)道、公交專(zhuān)用道等文字信息;記憶語(yǔ)音控車(chē)功能支持自然語(yǔ)言指令交互,并逐步學(xué)習(xí)用戶(hù)偏好,實(shí)現(xiàn)個(gè)性化與擬人化的駕駛體驗(yàn)。
周光透露,DeepRoute IO 2.0 平臺(tái)適配「多模態(tài)+多芯片+多車(chē)型」,支持激光雷達(dá)與純視覺(jué)版本。目前,基于 DeepRoute IO 2.0 平臺(tái),元戎啟行已達(dá)成 5 個(gè)車(chē)型的定點(diǎn)合作項(xiàng)目,首批量產(chǎn)車(chē)即將進(jìn)入市場(chǎng)。
對(duì)話(huà)周光:VLA 最大難點(diǎn)在思維鏈和長(zhǎng)時(shí)序推理
一場(chǎng)簡(jiǎn)短的發(fā)布后,元戎啟行 CEO 周光接受了 42 號(hào)車(chē)庫(kù)等多家媒體的共同采訪。
聚焦元戎啟行 VLA 模型的技術(shù)細(xì)節(jié),周光表示,基于英偉達(dá) Thor 芯片,VLA 能夠以每秒幾 Hz 的水平運(yùn)行,可以做到實(shí)時(shí)響應(yīng)。
在 VLA 研發(fā)過(guò)程中,最大的難點(diǎn)是思維鏈(Chain of Thought, CoT)和長(zhǎng)時(shí)序推理。周光認(rèn)為:「這才是 VLA 真正的核心能力。思維鏈?zhǔn)沁@類(lèi)架構(gòu)的基本要求。沒(méi)有它,就不能算是 VLA?!?/p>
最近,業(yè)內(nèi)針輔助駕駛究竟要不要激光雷達(dá),VLA 路線是不是輔助駕駛更優(yōu)的方案展開(kāi)了相當(dāng)多的討論。而發(fā)起這兩個(gè)討論的,一個(gè)是馬斯克,另一個(gè)是華為。
周光認(rèn)為,激光雷達(dá)目前對(duì)通用障礙物識(shí)別仍有重要作用。但隨著大模型技術(shù)的發(fā)展,視覺(jué)會(huì)在感知中扮演越來(lái)越重要的角色,大模型有望逐步解決現(xiàn)在依賴(lài)激光雷達(dá)的部分任務(wù)。
那么輔助駕駛真的需要 VLA 嗎?周光認(rèn)為,真正要實(shí)現(xiàn)思維鏈(COT)就需要走 VLA 方向,除非算力不足,可能會(huì)選擇別的路徑。
在一小時(shí)的深度交流中,周光談到了元戎啟行 VLA 模型的技術(shù)細(xì)節(jié)、VLA 訓(xùn)練,并針對(duì)行業(yè)熱點(diǎn)問(wèn)題進(jìn)行了一一回應(yīng),我們將對(duì)話(huà)全程進(jìn)行了整理,在不改變?cè)敢獾那疤嵯侣杂袆h減,供大家參考。
量產(chǎn) VLA 的其他技術(shù)細(xì)節(jié)
Q:量產(chǎn) VLA 模型的目標(biāo)運(yùn)行幀率是多少?
A:目前是每秒幾赫茲的水平,具體數(shù)值不便透露,但肯定能做到實(shí)時(shí)響應(yīng),不會(huì)出現(xiàn)幾秒一幀的情況。
Q:VLA 模型針對(duì)不同芯片平臺(tái),在算法和訓(xùn)練上做了哪些優(yōu)化?技術(shù)架構(gòu)是否有前瞻性布局?
A:VLA 模型的研發(fā)和訓(xùn)練本身與芯片無(wú)關(guān),訓(xùn)練完成后才會(huì)進(jìn)行部署適配。不同芯片平臺(tái)主要影響的是工程部署的工作量,并不會(huì)反過(guò)來(lái)改變訓(xùn)練方式或模型架構(gòu)。
Q:元戎啟行支持多種芯片平臺(tái),是否有具體范圍?隨著國(guó)產(chǎn)芯片(如地平線)和車(chē)企自研芯片的發(fā)展,這些是否都能適配?車(chē)企能指定芯片嗎?
A:芯片適配有一定要求,比如基礎(chǔ)算力、帶寬等。模型訓(xùn)練完成后會(huì)經(jīng)過(guò)蒸餾和量化,適配需要滿(mǎn)足基本條件。合作中車(chē)廠可以提出芯片需求,適配成本(時(shí)間、資金、數(shù)據(jù))都是可協(xié)商的。我們目前以某款芯片為起點(diǎn),未來(lái)會(huì)支持更多芯片,并不局限于一家。
Q:目前行業(yè)明確走 VLA 路線的似乎只有元戎啟行和理想。也有觀點(diǎn)認(rèn)為,大語(yǔ)言模型雖強(qiáng)于文本推理,但在空間感知上并非強(qiáng)項(xiàng)。您如何看待這種說(shuō)法?
A:更準(zhǔn)確地說(shuō),VLA 本質(zhì)是「基于 GPT 的端到端模型」。目前堅(jiān)持投入大算力的公司,包括小鵬,其實(shí)都在朝這個(gè)方向走。比如特斯拉最新芯片算力達(dá) 2,500 TOPS,CNN 模型根本不需要如此大規(guī)模的算力,只有 GPT 架構(gòu)才需要大參數(shù)和大算力支持。CNN 模型參數(shù)量有限,而 GPT 架構(gòu)天然適合擴(kuò)展,這才是未來(lái)方向。
Q:關(guān)于語(yǔ)音控車(chē),您提到它屬于基礎(chǔ)功能。那么在 VLA 模型中,真正難的是什么?
A:最難的是思維鏈(Chain of Thought, CoT)和長(zhǎng)時(shí)序推理。這才是 VLA 真正的核心能力。
Q:是否可通過(guò)思維鏈的表現(xiàn)來(lái)評(píng)價(jià) VLA 模型的好壞?
A:思維鏈?zhǔn)沁@類(lèi)架構(gòu)的基本要求。沒(méi)有它,就不能算是 VLA。目前行業(yè)還沒(méi)有像 NLP 那樣統(tǒng)一的評(píng)測(cè)基準(zhǔn),但未來(lái)可能會(huì)建立基于物理場(chǎng)景的專(zhuān)用 Benchmark。
Q:從車(chē)機(jī)界面能否直觀判斷 VLA 模型的優(yōu)劣?
A:現(xiàn)階段我們還是聚焦于解決 0 到 1 的問(wèn)題。像特斯拉的交互已經(jīng)做得很成熟,但我們需要先確保核心能力落地,再優(yōu)化用戶(hù)體驗(yàn)。
Q:車(chē)端實(shí)際能跑多大的模型?
A:參數(shù)量暫不方便透露。不過(guò)受車(chē)規(guī)算力和功耗限制,即便是上車(chē)的 GPT 模型,也仍屬于“小模型”范疇。
Q:VLA 模型是否也會(huì)出現(xiàn)幻覺(jué)?如何降低這類(lèi)風(fēng)險(xiǎn)?
A:預(yù)訓(xùn)練階段確實(shí)可能產(chǎn)生幻覺(jué),但通過(guò)后訓(xùn)練對(duì)齊技術(shù),已經(jīng)能極大抑制這一現(xiàn)象?,F(xiàn)在主流大模型(如豆包、千問(wèn))幻覺(jué)現(xiàn)象已經(jīng)很少,這方面已有較好的解決方案。
Q:隨著 VLA、VLM 等技術(shù)推進(jìn),輔助駕駛能力基線普遍提升,各家方案是否會(huì)出現(xiàn)趨同?元戎啟行如何保持自身特色?
A:端到端技術(shù)確實(shí)存在趨同,差別更多體現(xiàn)在推進(jìn)節(jié)奏上。元戎在防御性駕駛等方面布局較早,半年前就已強(qiáng)調(diào)這一方向。技術(shù)判斷的準(zhǔn)確性是關(guān)鍵,尤其在 VLA 這種廣度較大的領(lǐng)域。
Q:VLA 模型幀率目前低于某些端到端方案(10 - 20 幀),這是現(xiàn)階段的限制嗎?是否有補(bǔ)償方式?
A:幀率影響本質(zhì)是延遲問(wèn)題。從 100 毫秒降至 50 毫秒已有明顯收益,VLA 初期幀率稍低是正?,F(xiàn)象。幀率并非越高越好,預(yù)判能力增強(qiáng)也能彌補(bǔ)幀率限制。
Q:如果持續(xù)提升 VLA 的推理(Reasoning)能力,未來(lái)可能帶來(lái)哪些突破?
A:VLA 目前還未完全實(shí)現(xiàn)思維鏈(COT),這是關(guān)鍵差距。長(zhǎng)遠(yuǎn)來(lái)看,語(yǔ)言和推理能力是實(shí)現(xiàn)完全無(wú)人化自動(dòng)駕駛的核心。比如遇到「左轉(zhuǎn)不受燈控」這種臨時(shí)標(biāo)識(shí),依賴(lài)地圖更新是不夠的,第一次遇到就需實(shí)時(shí)理解。VLA 在這條路上任重道遠(yuǎn),需要更多技術(shù)沉淀。特斯拉之所以投入十倍算力和參數(shù),正是因?yàn)?GPT 架構(gòu)是明確方向,CNN 無(wú)法支撐這種擴(kuò)展。
Q:請(qǐng)問(wèn) VLA 模型系統(tǒng)最低可適配什么價(jià)位的車(chē)型?哪些車(chē)型能夠應(yīng)用?
A:目前 15 萬(wàn)元以上的車(chē)型都可以適配,10 萬(wàn)元級(jí)別的車(chē)型通過(guò)優(yōu)化也有機(jī)會(huì)搭載。端到端方案成本更低,而 VLA 模型目前更依賴(lài)算力支持。傳感器方面,11 個(gè)攝像頭正成為主流配置,像特斯拉就堅(jiān)持純視覺(jué)路線。行業(yè)整體在提升算力,下一代芯片將達(dá)到 5,000 TOPS,甚至 10,000 TOPS 級(jí)別也不遠(yuǎn)了。
Q:VLA 模型相比端到端方案會(huì)貴多少?成本差距大嗎?
A:主要成本差異在芯片,其余部分基本一致。芯片成本取決于制程工藝,目前千T級(jí)芯片算力時(shí)代已經(jīng)到來(lái),例如特斯拉 2,500 TOPS 芯片,雙芯片即可實(shí)現(xiàn) 5,000 TOPS。
Q:上次車(chē)展聽(tīng)您提到 VLA 模型不止用于車(chē),還會(huì)拓展至機(jī)器人。能否多分享一些?是人形機(jī)器人還是無(wú)人駕駛?是否有相關(guān)合作?車(chē)用和機(jī)器人用的 VLA 模型是同一套嗎?
A:是的,VLA 模型本身是通用架構(gòu),不再為特定場(chǎng)景定制。正如我們年初發(fā)布的 RoadAGI 策略所說(shuō),未來(lái)這一技術(shù)可泛化至多種移動(dòng)場(chǎng)景——包括小區(qū)、電梯、辦公室等室內(nèi)外環(huán)境?,F(xiàn)在的機(jī)器人很多還依賴(lài)遙控或巡線技術(shù),而我們希望能實(shí)現(xiàn)真正自主、通用的移動(dòng)能力。
Q:您給當(dāng)前版本打幾分(滿(mǎn)分10分)?最大挑戰(zhàn)是什么?
A:我個(gè)人打 6 分,剛及格。VLA 模型仍處于早期,相當(dāng)于「幼年期」,但上限遠(yuǎn)高于端到端方案。新一代架構(gòu)需要新一代芯片支持,這不是 CNN 時(shí)代可比的。
Q:非 VLA 架構(gòu)也可實(shí)現(xiàn)防御性駕駛,VLA 是必須的嗎?
A:統(tǒng)計(jì)方法能部分實(shí)現(xiàn)防御策略,但復(fù)雜場(chǎng)景需真正推理能力。VLA 因具備 CoT 和語(yǔ)言推理,能更徹底解決這些問(wèn)題。BEV 在空間理解上存在天然局限。
VLA 是如何訓(xùn)練的?
Q:元戎啟行 VLA 的基礎(chǔ)模型是千問(wèn)嗎?
A:我們會(huì)采用多種模型進(jìn)行蒸餾,千問(wèn)是開(kāi)源模型中比較優(yōu)秀的,我們也嘗試過(guò)基于千問(wèn)以及自研蒸餾的方案。所以并不完全依賴(lài)于某一特定模型,也有來(lái)自千問(wèn)的技術(shù)成分,但不完全一致。
Q:您沒(méi)有提到云端世界模型和仿真數(shù)據(jù)。目前行業(yè)普遍使用仿真路徑,元戎如何應(yīng)對(duì)推理卡資源問(wèn)題?
A:VLA 與第一代端到端最根本的區(qū)別是模型架構(gòu)變了——從 CNN 轉(zhuǎn)向 GPT。訓(xùn)練方法比如是否引入 RL,只是策略問(wèn)題。CNN 架構(gòu)本身無(wú)法實(shí)現(xiàn)類(lèi)似人類(lèi)的推理和泛化能力。
Q:訓(xùn)練數(shù)據(jù)來(lái)源是什么?是否來(lái)自自有測(cè)試車(chē)隊(duì)和長(zhǎng)城?
A:數(shù)據(jù)來(lái)源是多方面的:包括自有測(cè)試車(chē)隊(duì)、量產(chǎn)車(chē)數(shù)據(jù),以及生成數(shù)據(jù)。要實(shí)現(xiàn) GPT 架構(gòu)的預(yù)訓(xùn)練,必須依賴(lài)大規(guī)模、多樣化數(shù)據(jù)集,這是 CNN 模型無(wú)法勝任的。
Q:關(guān)于 VLA 模型對(duì)訓(xùn)練資源的需求,有廠商表示需要數(shù)萬(wàn)張卡。元戎啟行如何看待這種巨大的資源消耗?是否會(huì)帶來(lái)成本壓力?另外,為什么現(xiàn)在行業(yè)都在強(qiáng)調(diào)強(qiáng)化學(xué)習(xí)和 AI 訓(xùn)練?
A:強(qiáng)化學(xué)習(xí)只是模型訓(xùn)練的一種手段,屬于「后訓(xùn)練」階段的一部分。如今行業(yè)已進(jìn)入后訓(xùn)練時(shí)代,但這本身并不值得過(guò)度強(qiáng)調(diào)——就像 GPT 或 Waymo 也不會(huì)單獨(dú)強(qiáng)調(diào)強(qiáng)化學(xué)習(xí)。元戎在技術(shù)選型上一直較為精準(zhǔn),VLA 是一個(gè)全新領(lǐng)域,方向選擇很多,如果有清晰的技術(shù)判斷,資源消耗完全可以更高效。事實(shí)上,輔助駕駛場(chǎng)景的 GPT 模型規(guī)模相對(duì)可控,比如 7B 模型并不需要極端龐大的算力。
Q:仿真測(cè)試方面,有廠商大幅減少實(shí)車(chē)測(cè)試、增加仿真里程,這是行業(yè)趨勢(shì)嗎?
A:我們更專(zhuān)注于自身技術(shù)路線。仿真是數(shù)據(jù)來(lái)源的一種,關(guān)鍵不在于是真實(shí)還是仿真,而在于數(shù)據(jù)質(zhì)量。高質(zhì)量數(shù)據(jù)集才是模型優(yōu)化的核心。
Q:長(zhǎng)期看仿真數(shù)據(jù)在訓(xùn)練中的占比會(huì)達(dá)到多少?仿真數(shù)據(jù)生成能力會(huì)成為壁壘嗎?
A:仿真需基于真實(shí)數(shù)據(jù),否則無(wú)法有效模擬?,F(xiàn)實(shí)數(shù)據(jù)仍是主體,仿真作為補(bǔ)充。從預(yù)訓(xùn)練到后訓(xùn)練階段,仿真比例會(huì)逐漸提升。行業(yè)應(yīng)關(guān)注大模型整體發(fā)展,避免局限在自動(dòng)駕駛領(lǐng)域。技術(shù)本質(zhì)是相通的,就像人腦神經(jīng)元結(jié)構(gòu)并無(wú)太大差異。
對(duì)行業(yè)熱點(diǎn)的看法
Q:最近馬斯克提到「激光雷達(dá)會(huì)讓自動(dòng)駕駛越來(lái)越不安全」,您怎么看?
A:激光雷達(dá)目前對(duì)通用障礙物識(shí)別仍有重要作用,正如之前提到的,大模型的知識(shí)庫(kù)能力可以識(shí)別很多未知障礙物。我相信隨著大模型技術(shù)的發(fā)展,視覺(jué)會(huì)在感知中扮演越來(lái)越重要的角色。短期來(lái)看,激光雷達(dá)受限于技術(shù)發(fā)展和數(shù)據(jù)集的成熟度,仍有其價(jià)值;長(zhǎng)期來(lái)看,大模型有望逐步解決現(xiàn)在依賴(lài)激光雷達(dá)的部分任務(wù)。
Q:如何看待其他車(chē)企推出 VLA 模型?比如小鵬。元戎的差異化優(yōu)勢(shì)在哪里?
A:小鵬的 VLA 進(jìn)展也不錯(cuò),他們基于千問(wèn)模型做出了實(shí)打?qū)嵉某晒?。VLA 涵蓋面很廣,不像端到端那樣直接,更需要精準(zhǔn)的技術(shù)判斷和持續(xù)積累。
Q:從規(guī)則算法、端到端 1.0 到 VLA 模型,如果現(xiàn)在車(chē)企或供應(yīng)商想自研輔助駕駛系統(tǒng),能否可以直接切入 VLA?是否需要完整經(jīng)歷之前的研發(fā)階段?您研發(fā)端到端時(shí)是否預(yù)見(jiàn)到其上限?
A:每個(gè)階段都無(wú)法跳過(guò),從有圖、無(wú)圖、端到端到 VLA 模型,整個(gè)發(fā)展過(guò)程必不可少,最多只能壓縮某些階段的時(shí)間,但不可能完全繞過(guò)。至于 VLA 模型的上限,目前其下限已經(jīng)超過(guò)端到端方案的上限。
Q:過(guò)去幾年,國(guó)內(nèi)外廠商推出的智駕芯片對(duì)于 Transformer 模型的支持都不是很好。既然 VLA 是一個(gè) GPT based E2E 架構(gòu),這是不是意味著:以后各家廠商在研發(fā)高階智能輔助駕駛芯片時(shí),除了做到數(shù)千 TOPS 的算力,還必須將對(duì) Transformer 模型的原生、高效支持作為核心設(shè)計(jì)指標(biāo)?
A:確實(shí)如此。早期芯片主要針對(duì) CNN 設(shè)計(jì),未來(lái)一定會(huì)加強(qiáng)對(duì) Transformer 的支持,尤其是在 FP4、FP6 等精度的優(yōu)化上。
Q:華為不走 VLA 路線,您怎么看?
A:若算力不足,確實(shí)可能選擇其他路徑。但真正要實(shí)現(xiàn)思維鏈(CoT)仍需 VLA 方向。
Q:作為行業(yè)參與者,如何共同將智駕蛋糕做大?除技術(shù)外還需哪些助力?
A:宣傳需理性,避免過(guò)度承諾,尤其在安全方面。技術(shù)發(fā)展需時(shí)間,需正確引導(dǎo)用戶(hù)預(yù)期。監(jiān)管與行業(yè)自律也很重要。
Q:元戎是否會(huì)參與 L4 競(jìng)爭(zhēng)?目前進(jìn)展如何?
A:傳統(tǒng)自動(dòng)駕駛等級(jí)劃分已過(guò)時(shí),真正的無(wú)人駕駛需推理能力,純規(guī)則系統(tǒng)無(wú)法應(yīng)對(duì)「紅燈可左轉(zhuǎn)」這類(lèi)問(wèn)題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.