成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁 > 網易號 > 正文 申請入駐

VLA有哪些難以克服的缺陷和挑戰(zhàn)?

0
分享至



從年初開始,本土車企便開始宣傳VLA,至今已經過去了半年多的時間,頭部企業(yè)的VLA依然猶抱琵琶半遮面,遲遲不跟大家見面。

為何?許是因為VLA有三大難以克服的缺陷。

話說三遍淡如水。

整個2024年,本土車圈開口端到端,閉口端到端,把本土自動駕駛行業(yè)來了個一鍋端的“端到端”順勢成為當年最大的營銷熱點。

進入2025年,端到端一詞越發(fā)寡淡,越來越難以助力車企的營銷宣傳。


與此同時,資本瘋狂投入、熱潮涌動的本土具身機器人領域,在世界模型和VLA模型之間選擇了算力消耗相對較小的VLA模型架構。

一向標榜跟人形機器人技術同根同源的自動駕駛行業(yè)自然而然地過渡到了VLA這條技術路線,就像24年的端到端那樣,VLA迅速成為25年本土車圈新的營銷熱詞。


欲戴王冠,必承其重。

從視頻V入-軌跡A出的端到端方案進化到引入了大語言模型的VLA,在得益于語言智能帶來的復雜場景理解能力的同時,也必然要承受語言智能最重大的缺陷-幻覺問題。


從本質上看,大語言模型是一種描述自然語言的概率模型,在大量數據的訓練下,給定自然語言數據X,最大化P(X)的概率,實現“熟讀唐詩三百首,不會作詩也會吟”的效果。

但是,既然是基于訓練數據的概率分布進行下一個Token預測,預測下一個Token時就有出錯的可能,幻覺問題在“預測下一個Token”的機制下難以得到根除。


除了基于概率進行預測這個根本的原因,訓練數據中的噪聲、污染、數據覆蓋的不足、上下文窗口的限制、在推理過程中缺乏驗證機制、重在強化語言流暢度而非內容真實性的目標函數錯位等,都會在一定程度上加劇幻覺的出現。


對那些使用大語言模型進行代碼生成、圖片生成、文本生成的用戶而言,大可以對大模型似是而非的輸出莞爾一笑,但人命關天的自動駕駛場景豈能這樣胡鬧?

在人工智能領域,根據具體場景和技術層級的不同,“對齊”一詞有著不同的含義。

在最主流的定義中,對齊指的是給神通廣大堪比孫悟空的AI系統(tǒng)帶上緊箍咒,確保AI系統(tǒng)的目標、行為和輸出符合人類的意圖、倫理與社會規(guī)范。


在多模態(tài)場景中,對齊是指讓圖像、文字、視頻、控制指令、動作軌跡等不同模態(tài)的數據映射到具備統(tǒng)一表征的語義空間內。

具體到VLA模型中,模態(tài)對齊將視覺感知、語言指令與動作執(zhí)行映射到同一語義空間,使模型能夠根據環(huán)境輸入和語言指令生成精確的動作。


結合VLA模型架構,模態(tài)對齊主要涉及視頻+文本編碼器-語言模型的輸入和語言模型-軌跡+文本解碼器的輸出兩個層面。

輸入層面,通過BEV特征提取、OCC特征提取將文本語言描述的目標綁定到空間中的具體實例。

再通過視覺查詢模塊和分層投影機制,將目標實例進一步綁定到三維坐標系。

最終形成語言描述-空間實例-三維坐標的綁定關系,將視覺特征與語言描述在向量空間中對齊,確保模型能夠理解視覺內容與語義的關聯關系。


在之前的端到端+VLM雙系統(tǒng)方案中,理想、小米們使用AI巨頭通過互聯網海量圖文對預訓練出來的VLM做基座模型,再利用駕駛場景數據對基座模型進行后訓練。

圖-文之間的匹配操作主要停留在2D圖像空間,并沒有實現語言描述目標和3D空間坐標系內具體實例的綁定匹配。

所以,到了VLA階段,從業(yè)者們需要再接再厲,解決3D視覺、文本模態(tài)的對齊。


輸出層面,需要將語言模型的推理結果解碼為數值化的軌跡,彌合語言空間和動作空間之間的巨大鴻溝。

如何將語言空間內的場景理解與規(guī)劃轉化成符合車輛動力學和物理規(guī)律的動作序列,也是一個大難題!

500年前,雖未被壓在五行山下卻也在龍場困坐愁城的陽明先生經歷了和現代人一樣的困惑:“懂得這么多道理,為什么我還是過不好這一生?”

悟道之后,陽明先生深刻地洞察到,知和行之間有著十萬八千里的距離,于是反復強調知行合一。

在現代科技領域,“知”指的是算法能力,通過算法的研發(fā)實現認知的突破,“行”講的是工程能力,以工程化的量產完成從技術理論到產品交付的閉環(huán)。


VLA已經完成了從0到1的理論創(chuàng)新,各大巨頭開源的VL基礎模型也驗證了路徑的可行性,留給各個車企或智駕方案供應商的任務實際上是從實驗室跨越到大規(guī)模量產。

或者說,各路自動駕駛玩家在VLA上的創(chuàng)新主要體現在如何做優(yōu)化、適配、迭代的工程能力上面。


VLA的工程落地也的確正面臨多重系統(tǒng)性挑戰(zhàn),除了要靠安全網絡給幻覺兜底,準備海量的模態(tài)對齊標注數據,還要克服算力上的挑戰(zhàn)。

VLA對算力的需求大大超過了之前的端到端和VLM。

從能力上看,端到端能看、會做,VLM能看、會說,VLA能看、會說還能做,實現了真正的“知行合一”。

更高的能力自然需要更高的算力。

據悉,理想汽車去年部署在英偉達Orin X上的VLM參數規(guī)模達22億,通過后訓練量化技術GPTQ、投機采樣、ViT、算子融合和流式視頻編碼器等技術,將運行頻率提高為3Hz。

到了今年的Thor-U上,理想汽車通過混合精度量化(INT8/FP8)和自研MoE架構在40億參數的VLA上實現了10Hz的推理幀率。


有專家指出,70-100億參數的VLA才能具備較強的場景理解和規(guī)劃能力,理想VLA的40億參數規(guī)模低了點。

不僅如此,推理頻率最好能做到20Hz,根據目前已知的消息,理想計劃通過INT4/FP4的極限量化提升推理頻率,工程難度可想而知。

3D視覺與語言語義之間的斷層、語言世界和動作世界之間的鴻溝、幻覺的幽靈和算力的囚籠。

盡管VLA有如此之多的缺陷,小鵬、理想、元戎啟行們依然選擇了果斷亮劍,為他們這種初生牛犢不怕虎的精神點贊!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1948年大決戰(zhàn)在即,毛主席突然下令槍斃手下大將:誰求情都不行

1948年大決戰(zhàn)在即,毛主席突然下令槍斃手下大將:誰求情都不行

云霄紀史觀
2025-08-30 18:20:27
6年前,被丈夫推下懸崖僥幸生還的王暖暖,如今再次迎來喜訊

6年前,被丈夫推下懸崖僥幸生還的王暖暖,如今再次迎來喜訊

七公子娛樂
2025-09-04 15:40:06
深圳深夜發(fā)文:進一步放寬住房限購 專家:尺度比其他城市大

深圳深夜發(fā)文:進一步放寬住房限購 專家:尺度比其他城市大

南方都市報
2025-09-06 10:19:09
我出差回家,剛抱住妻子,兒子卻說出一句話,我心瞬間涼透骨

我出差回家,剛抱住妻子,兒子卻說出一句話,我心瞬間涼透骨

小卿情感故事
2025-09-04 17:44:17
杭州一酒館疑“擦邊”,古裝女子貼身熱舞互動,門店:因輿論壓力已停舞整改

杭州一酒館疑“擦邊”,古裝女子貼身熱舞互動,門店:因輿論壓力已停舞整改

界面新聞
2025-09-05 19:22:05
全紅嬋哥哥參加廚綜被淘汰,評論區(qū)一邊倒,官媒都“無語”了

全紅嬋哥哥參加廚綜被淘汰,評論區(qū)一邊倒,官媒都“無語”了

小楊侃事
2025-09-03 13:38:30
玄松月:金正恩初戀,金正日反對,丈夫被除,幾年后被張成澤染指

玄松月:金正恩初戀,金正日反對,丈夫被除,幾年后被張成澤染指

阿胡
2024-05-16 10:20:42
102歲老兵ICU看閱兵后安詳離世

102歲老兵ICU看閱兵后安詳離世

大象新聞
2025-09-04 16:47:06
楊蘭蘭賬上的“2700億澳元”,是存的三年期?

楊蘭蘭賬上的“2700億澳元”,是存的三年期?

關爾東
2025-08-09 17:12:05
俄羅斯人不解:為何強大的中國,幾千年都不要西伯利亞?

俄羅斯人不解:為何強大的中國,幾千年都不要西伯利亞?

知鑒明史
2025-08-21 10:30:08
“貴婦超市”,正在變成“窮鬼食堂”?

“貴婦超市”,正在變成“窮鬼食堂”?

陳天宇
2025-09-06 11:40:21
馮德萊恩險中求生,專機空中盤旋數小時,遠在中國的普京又背鍋了

馮德萊恩險中求生,專機空中盤旋數小時,遠在中國的普京又背鍋了

沈言論
2025-09-06 12:50:03
被共產黨、國民黨、日本國三方都記述的許昌抗日保衛(wèi)戰(zhàn)!

被共產黨、國民黨、日本國三方都記述的許昌抗日保衛(wèi)戰(zhàn)!

慧識
2025-09-06 13:21:42
她是國家一級演員,多次給坐輪椅丈夫戴綠帽,如今兒子也是演員

她是國家一級演員,多次給坐輪椅丈夫戴綠帽,如今兒子也是演員

白面書誏
2025-07-16 12:39:12
蓋希轉會鬧劇升級!利物浦錯失后,拜仁皇馬五豪門哄搶英格蘭鐵衛(wèi)

蓋希轉會鬧劇升級!利物浦錯失后,拜仁皇馬五豪門哄搶英格蘭鐵衛(wèi)

野薔薇觀察所
2025-09-05 12:00:11
重磅,CBA拼命三郎也面臨失業(yè),開價太高嚇退群雄,或只能打野球

重磅,CBA拼命三郎也面臨失業(yè),開價太高嚇退群雄,或只能打野球

體壇小快靈
2025-09-06 10:23:41
吳奇隆真是撿到寶了啊,做夢都會笑醒吧

吳奇隆真是撿到寶了啊,做夢都會笑醒吧

小椰的奶奶
2025-08-21 14:16:29
"假愛國"風波3年,51歲吳京人財兩空,而他受邀觀禮閱兵

"假愛國"風波3年,51歲吳京人財兩空,而他受邀觀禮閱兵

白面書誏
2025-09-03 19:36:28
鄭曉龍?zhí)珔柡?!“民間選角”省下千萬宣傳費,新版紅樓夢未拍先火

鄭曉龍?zhí)珔柡?!“民間選角”省下千萬宣傳費,新版紅樓夢未拍先火

小邵說劇
2025-09-05 16:16:11
澤連斯基與特朗普通話討論追加對俄制裁和保護烏領空方案

澤連斯基與特朗普通話討論追加對俄制裁和保護烏領空方案

新京報
2025-09-05 07:56:04
2025-09-06 14:20:49
燃擎頻道 incentive-icons
燃擎頻道
中國汽車自媒體前30強!
8094文章數 231274關注度
往期回顧 全部

汽車要聞

科技加持 BMW R 1300 GS Adv依舊標桿實力

頭條要聞

面館推"茅臺配板面"套餐:點板面加38元喝一杯飛天茅臺

頭條要聞

面館推"茅臺配板面"套餐:點板面加38元喝一杯飛天茅臺

體育要聞

英國籃球,為什么那么菜?

娛樂要聞

易烊千璽被資本市場教育了

財經要聞

原證監(jiān)會主席易會滿,被查

科技要聞

超1萬億參數!阿里最大最強模型免費上線

態(tài)度原創(chuàng)

藝術
房產
旅游
數碼
手機

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

實景驚艷+名校護航!這個項目,正在重新定義白云改善新高度!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數碼要聞

集邦咨詢:預估9月面板價格全面持平 電視面板需求第三季開始回穩(wěn)增強

手機要聞

蘋果“科技春晚”前瞻:一覽 iPhone 17 系列、AirPods Pro 3 等

無障礙瀏覽 進入關懷版