從年初開始,本土車企便開始宣傳VLA,至今已經過去了半年多的時間,頭部企業(yè)的VLA依然猶抱琵琶半遮面,遲遲不跟大家見面。
為何?許是因為VLA有三大難以克服的缺陷。
話說三遍淡如水。
整個2024年,本土車圈開口端到端,閉口端到端,把本土自動駕駛行業(yè)來了個一鍋端的“端到端”順勢成為當年最大的營銷熱點。
進入2025年,端到端一詞越發(fā)寡淡,越來越難以助力車企的營銷宣傳。
與此同時,資本瘋狂投入、熱潮涌動的本土具身機器人領域,在世界模型和VLA模型之間選擇了算力消耗相對較小的VLA模型架構。
一向標榜跟人形機器人技術同根同源的自動駕駛行業(yè)自然而然地過渡到了VLA這條技術路線,就像24年的端到端那樣,VLA迅速成為25年本土車圈新的營銷熱詞。
欲戴王冠,必承其重。
從視頻V入-軌跡A出的端到端方案進化到引入了大語言模型的VLA,在得益于語言智能帶來的復雜場景理解能力的同時,也必然要承受語言智能最重大的缺陷-幻覺問題。
從本質上看,大語言模型是一種描述自然語言的概率模型,在大量數據的訓練下,給定自然語言數據X,最大化P(X)的概率,實現“熟讀唐詩三百首,不會作詩也會吟”的效果。
但是,既然是基于訓練數據的概率分布進行下一個Token預測,預測下一個Token時就有出錯的可能,幻覺問題在“預測下一個Token”的機制下難以得到根除。
除了基于概率進行預測這個根本的原因,訓練數據中的噪聲、污染、數據覆蓋的不足、上下文窗口的限制、在推理過程中缺乏驗證機制、重在強化語言流暢度而非內容真實性的目標函數錯位等,都會在一定程度上加劇幻覺的出現。
對那些使用大語言模型進行代碼生成、圖片生成、文本生成的用戶而言,大可以對大模型似是而非的輸出莞爾一笑,但人命關天的自動駕駛場景豈能這樣胡鬧?
在人工智能領域,根據具體場景和技術層級的不同,“對齊”一詞有著不同的含義。
在最主流的定義中,對齊指的是給神通廣大堪比孫悟空的AI系統(tǒng)帶上緊箍咒,確保AI系統(tǒng)的目標、行為和輸出符合人類的意圖、倫理與社會規(guī)范。
在多模態(tài)場景中,對齊是指讓圖像、文字、視頻、控制指令、動作軌跡等不同模態(tài)的數據映射到具備統(tǒng)一表征的語義空間內。
具體到VLA模型中,模態(tài)對齊將視覺感知、語言指令與動作執(zhí)行映射到同一語義空間,使模型能夠根據環(huán)境輸入和語言指令生成精確的動作。
結合VLA模型架構,模態(tài)對齊主要涉及視頻+文本編碼器-語言模型的輸入和語言模型-軌跡+文本解碼器的輸出兩個層面。
輸入層面,通過BEV特征提取、OCC特征提取將文本語言描述的目標綁定到空間中的具體實例。
再通過視覺查詢模塊和分層投影機制,將目標實例進一步綁定到三維坐標系。
最終形成語言描述-空間實例-三維坐標的綁定關系,將視覺特征與語言描述在向量空間中對齊,確保模型能夠理解視覺內容與語義的關聯關系。
在之前的端到端+VLM雙系統(tǒng)方案中,理想、小米們使用AI巨頭通過互聯網海量圖文對預訓練出來的VLM做基座模型,再利用駕駛場景數據對基座模型進行后訓練。
圖-文之間的匹配操作主要停留在2D圖像空間,并沒有實現語言描述目標和3D空間坐標系內具體實例的綁定匹配。
所以,到了VLA階段,從業(yè)者們需要再接再厲,解決3D視覺、文本模態(tài)的對齊。
輸出層面,需要將語言模型的推理結果解碼為數值化的軌跡,彌合語言空間和動作空間之間的巨大鴻溝。
如何將語言空間內的場景理解與規(guī)劃轉化成符合車輛動力學和物理規(guī)律的動作序列,也是一個大難題!
500年前,雖未被壓在五行山下卻也在龍場困坐愁城的陽明先生經歷了和現代人一樣的困惑:“懂得這么多道理,為什么我還是過不好這一生?”
悟道之后,陽明先生深刻地洞察到,知和行之間有著十萬八千里的距離,于是反復強調知行合一。
在現代科技領域,“知”指的是算法能力,通過算法的研發(fā)實現認知的突破,“行”講的是工程能力,以工程化的量產完成從技術理論到產品交付的閉環(huán)。
VLA已經完成了從0到1的理論創(chuàng)新,各大巨頭開源的VL基礎模型也驗證了路徑的可行性,留給各個車企或智駕方案供應商的任務實際上是從實驗室跨越到大規(guī)模量產。
或者說,各路自動駕駛玩家在VLA上的創(chuàng)新主要體現在如何做優(yōu)化、適配、迭代的工程能力上面。
VLA的工程落地也的確正面臨多重系統(tǒng)性挑戰(zhàn),除了要靠安全網絡給幻覺兜底,準備海量的模態(tài)對齊標注數據,還要克服算力上的挑戰(zhàn)。
VLA對算力的需求大大超過了之前的端到端和VLM。
從能力上看,端到端能看、會做,VLM能看、會說,VLA能看、會說還能做,實現了真正的“知行合一”。
更高的能力自然需要更高的算力。
據悉,理想汽車去年部署在英偉達Orin X上的VLM參數規(guī)模達22億,通過后訓練量化技術GPTQ、投機采樣、ViT、算子融合和流式視頻編碼器等技術,將運行頻率提高為3Hz。
到了今年的Thor-U上,理想汽車通過混合精度量化(INT8/FP8)和自研MoE架構在40億參數的VLA上實現了10Hz的推理幀率。
有專家指出,70-100億參數的VLA才能具備較強的場景理解和規(guī)劃能力,理想VLA的40億參數規(guī)模低了點。
不僅如此,推理頻率最好能做到20Hz,根據目前已知的消息,理想計劃通過INT4/FP4的極限量化提升推理頻率,工程難度可想而知。
3D視覺與語言語義之間的斷層、語言世界和動作世界之間的鴻溝、幻覺的幽靈和算力的囚籠。
盡管VLA有如此之多的缺陷,小鵬、理想、元戎啟行們依然選擇了果斷亮劍,為他們這種初生牛犢不怕虎的精神點贊!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.