成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频第二页|日本久草天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

VLA有哪些難以克服的缺陷和挑戰(zhàn)？

2025-09-04 18:35:09　來源: 燃擎頻道

北京舉報

0

分享至

從年初開始，本土車企便開始宣傳VLA，至今已經過去了半年多的時間，頭部企業(yè)的VLA依然猶抱琵琶半遮面，遲遲不跟大家見面。

為何？許是因為VLA有三大難以克服的缺陷。

話說三遍淡如水。

整個2024年，本土車圈開口端到端，閉口端到端，把本土自動駕駛行業(yè)來了個一鍋端的“端到端”順勢成為當年最大的營銷熱點。

進入2025年，端到端一詞越發(fā)寡淡，越來越難以助力車企的營銷宣傳。

與此同時，資本瘋狂投入、熱潮涌動的本土具身機器人領域，在世界模型和VLA模型之間選擇了算力消耗相對較小的VLA模型架構。

一向標榜跟人形機器人技術同根同源的自動駕駛行業(yè)自然而然地過渡到了VLA這條技術路線，就像24年的端到端那樣，VLA迅速成為25年本土車圈新的營銷熱詞。

欲戴王冠，必承其重。

從視頻V入-軌跡A出的端到端方案進化到引入了大語言模型的VLA，在得益于語言智能帶來的復雜場景理解能力的同時，也必然要承受語言智能最重大的缺陷-幻覺問題。

從本質上看，大語言模型是一種描述自然語言的概率模型，在大量數據的訓練下，給定自然語言數據X，最大化P(X)的概率，實現“熟讀唐詩三百首，不會作詩也會吟”的效果。

但是，既然是基于訓練數據的概率分布進行下一個Token預測，預測下一個Token時就有出錯的可能，幻覺問題在“預測下一個Token”的機制下難以得到根除。

除了基于概率進行預測這個根本的原因，訓練數據中的噪聲、污染、數據覆蓋的不足、上下文窗口的限制、在推理過程中缺乏驗證機制、重在強化語言流暢度而非內容真實性的目標函數錯位等，都會在一定程度上加劇幻覺的出現。

對那些使用大語言模型進行代碼生成、圖片生成、文本生成的用戶而言，大可以對大模型似是而非的輸出莞爾一笑，但人命關天的自動駕駛場景豈能這樣胡鬧？

在人工智能領域，根據具體場景和技術層級的不同，“對齊”一詞有著不同的含義。

在最主流的定義中，對齊指的是給神通廣大堪比孫悟空的AI系統(tǒng)帶上緊箍咒，確保AI系統(tǒng)的目標、行為和輸出符合人類的意圖、倫理與社會規(guī)范。

在多模態(tài)場景中，對齊是指讓圖像、文字、視頻、控制指令、動作軌跡等不同模態(tài)的數據映射到具備統(tǒng)一表征的語義空間內。

具體到VLA模型中，模態(tài)對齊將視覺感知、語言指令與動作執(zhí)行映射到同一語義空間，使模型能夠根據環(huán)境輸入和語言指令生成精確的動作。

結合VLA模型架構，模態(tài)對齊主要涉及視頻+文本編碼器-語言模型的輸入和語言模型-軌跡+文本解碼器的輸出兩個層面。

輸入層面，通過BEV特征提取、OCC特征提取將文本語言描述的目標綁定到空間中的具體實例。

再通過視覺查詢模塊和分層投影機制，將目標實例進一步綁定到三維坐標系。

最終形成語言描述-空間實例-三維坐標的綁定關系，將視覺特征與語言描述在向量空間中對齊，確保模型能夠理解視覺內容與語義的關聯關系。

在之前的端到端+VLM雙系統(tǒng)方案中，理想、小米們使用AI巨頭通過互聯網海量圖文對預訓練出來的VLM做基座模型，再利用駕駛場景數據對基座模型進行后訓練。

圖-文之間的匹配操作主要停留在2D圖像空間，并沒有實現語言描述目標和3D空間坐標系內具體實例的綁定匹配。

所以，到了VLA階段，從業(yè)者們需要再接再厲，解決3D視覺、文本模態(tài)的對齊。

輸出層面，需要將語言模型的推理結果解碼為數值化的軌跡，彌合語言空間和動作空間之間的巨大鴻溝。

如何將語言空間內的場景理解與規(guī)劃轉化成符合車輛動力學和物理規(guī)律的動作序列，也是一個大難題！

500年前，雖未被壓在五行山下卻也在龍場困坐愁城的陽明先生經歷了和現代人一樣的困惑：“懂得這么多道理，為什么我還是過不好這一生？”

悟道之后，陽明先生深刻地洞察到，知和行之間有著十萬八千里的距離，于是反復強調知行合一。

在現代科技領域，“知”指的是算法能力，通過算法的研發(fā)實現認知的突破，“行”講的是工程能力，以工程化的量產完成從技術理論到產品交付的閉環(huán)。

VLA已經完成了從0到1的理論創(chuàng)新，各大巨頭開源的VL基礎模型也驗證了路徑的可行性，留給各個車企或智駕方案供應商的任務實際上是從實驗室跨越到大規(guī)模量產。

或者說，各路自動駕駛玩家在VLA上的創(chuàng)新主要體現在如何做優(yōu)化、適配、迭代的工程能力上面。

VLA的工程落地也的確正面臨多重系統(tǒng)性挑戰(zhàn)，除了要靠安全網絡給幻覺兜底，準備海量的模態(tài)對齊標注數據，還要克服算力上的挑戰(zhàn)。

VLA對算力的需求大大超過了之前的端到端和VLM。

從能力上看，端到端能看、會做，VLM能看、會說，VLA能看、會說還能做，實現了真正的“知行合一”。

更高的能力自然需要更高的算力。

據悉，理想汽車去年部署在英偉達Orin X上的VLM參數規(guī)模達22億，通過后訓練量化技術GPTQ、投機采樣、ViT、算子融合和流式視頻編碼器等技術，將運行頻率提高為3Hz。

到了今年的Thor-U上，理想汽車通過混合精度量化（INT8/FP8）和自研MoE架構在40億參數的VLA上實現了10Hz的推理幀率。

有專家指出，70-100億參數的VLA才能具備較強的場景理解和規(guī)劃能力，理想VLA的40億參數規(guī)模低了點。

不僅如此，推理頻率最好能做到20Hz，根據目前已知的消息，理想計劃通過INT4/FP4的極限量化提升推理頻率，工程難度可想而知。

3D視覺與語言語義之間的斷層、語言世界和動作世界之間的鴻溝、幻覺的幽靈和算力的囚籠。

盡管VLA有如此之多的缺陷，小鵬、理想、元戎啟行們依然選擇了果斷亮劍，為他們這種初生牛犢不怕虎的精神點贊！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

又一批造車者蠢蠢欲動，“幸存者游戲”有何魔力

經濟觀察報 2025-09-06 13:55:05
0 跟貼 0
齊魯秋季車展：3D數字人“齊齊”與拍報機引關注

齊魯壹點 2025-09-06 13:38:27
0 跟貼 0

為消費者帶來更好的產品！東風卓聯攜6大品牌亮相齊魯車展

齊魯壹點 2025-09-06 13:38:27
0 跟貼 0

前8月銷量目標完成率僅36%，阿維塔07惡補配置短板

經濟觀察報 2025-09-06 13:55:05
0 跟貼 0
發(fā)布“天樞智能”品牌，新央企中國長安汽車交出智能安全新答卷

EV世紀 2025-09-06 13:40:07
0 跟貼 0

AI邊刷視頻邊思考！快手最新多模態(tài)大模型開源

智東西 2025-09-05 09:20:40
3 跟貼 3

多模態(tài)大模型持續(xù)學習，綜述+Benchmark+方法+Codebase一網打盡

機器之心Pro 2025-09-05 14:14:35
0 跟貼 0
三維地圖講解—劉秀在鄗城稱帝，即定都洛陽 #劉秀

地圖里的歷史 2025-09-01 20:41:27
0 跟貼 0

科學家驗證強柏拉圖表征假說，證明模型會收斂于相同通用意義幾何

DeepTech深科技 2025-05-27 18:40:11
1 跟貼 1
三維地圖講解—漢武帝駕崩，及霍光輔政 #漢武帝

地圖里的歷史 2025-09-05 10:20:00
1 跟貼 1
理想公布VLA進展：9月10日全量推送

雷峰網 2025-09-05 17:34:25
2 跟貼 2
時政Vlog丨換個角度看閱兵！“神級鏡頭”是這樣切換的

國際在線 2025-09-05 18:16:48
130 跟貼 130
會「思考」！字節(jié)跳動發(fā)布OmniHuman-1.5，讓虛擬人擁有邏輯靈魂

機器之心Pro 2025-09-05 16:24:44
1 跟貼 1
字節(jié)發(fā)了個機器人全能大模型，帶隊人李航

量子位 2025-09-06 11:57:14
1 跟貼 1
動作熟練的不像第一次

表哥剪輯君 2025-09-02 10:55:03
3 跟貼 3
杭州一面館一碗面賣2188元，食材含黃鱔、紅蝦、鮑魚等，老板：半月內賣出十多碗

極目新聞 2025-09-02 12:36:58
19682 跟貼 19682
極大似然估計與概率圖模型：統(tǒng)計建模的黃金組合

每天五分鐘玩轉人工智能 2025-09-06 00:21:04
0 跟貼 0
不可思議，游戲里沒有的動作！

足球印象CC 2025-09-03 20:31:23
19 跟貼 19
超1萬億參數！阿里最大最強模型免費上線

智東西 2025-09-06 03:21:03
18 跟貼 18
合作崩潰警報響起，埃及指責殲-10技術缺陷，關系突然惡化

一窺究竟 2025-09-04 03:31:41
0 跟貼 0
三維地圖講解——諸葛亮的耕讀之地以及劉備三顧茅廬，到底在哪

地圖里的歷史 2025-09-04 12:23:54
1 跟貼 1
李飛飛的答案：大模型之后，Agent向何處去？

虎嗅APP 2025-09-05 18:33:08
0 跟貼 0
從分布外檢測到代碼生成，這位博士生要讓AI既可靠又好用

DeepTech深科技 2025-09-05 23:07:42
0 跟貼 0
這么厲害還不是有缺陷

海韻影視劇 2025-09-06 08:07:28
1 跟貼 1
我們能監(jiān)聽AI之間的話嗎？Anthropic發(fā)現模型只用隨機數就能溝通

DeepTech深科技 2025-09-05 22:43:52
21 跟貼 21
剛剛，阿里首個超萬億參數新王登基！Qwen3-Max屠榜全SOTA，碾壓DeepSeek V3.1

新智元 2025-09-06 08:24:18
3 跟貼 3
15萬買小米su7，竟是因為車有設計缺陷？

老李講車記 2025-09-02 16:30:42
19 跟貼 19
最后抹一下的動作真的有必要嗎？

楊小浪又在浪 2025-09-06 08:13:12
1 跟貼 1
0903八十年前日本投降簽字儀式，著裝上展現細節(jié)，文本還有差異

知兵堂軍事 2025-09-03 10:32:15
0 跟貼 0
萬能的德國機床，加工巴黎鐵塔模型，看完簡直刷新了我的認知

制造科技 2025-09-05 09:08:28
2 跟貼 2
西方破防了！中國閱兵展出的武器都是假的??！都是模型??！

左允新鮮事 2025-09-06 06:07:45
0 跟貼 0
九三閱兵具體安排來了

央視新聞客戶端 2025-09-01 15:02:53
3059 跟貼 3059
淺談包含算法特征的專利申請的創(chuàng)造性

知產力 2025-09-02 18:22:28
0 跟貼 0
女生展示高難度動作，柔韌又有力量，力量與美的完美結合

重慶科教融媒體 2025-09-03 16:55:35
0 跟貼 0
我也有過愚蠢的時候，我也是后來漸漸明白

記憶承載 2025-09-04 07:25:40
96 跟貼 96
大衣哥與草帽姐的星二代人生軌跡截然不同

初塵綜藝 2025-09-02 11:07:13
0 跟貼 0
32歲升正處、37歲當縣長，陳海波主動交代問題

新京報政事兒 2025-09-06 09:54:02
24 跟貼 24
這幾個小動作太不自信了

今日段評 2025-09-06 10:31:40
3 跟貼 3
以“排序”替代“預測”：Token Order Prediction（TOP）如何改進語言模型訓練

算法與數學之美 2025-09-04 20:43:44
0 跟貼 0
動作越小感覺越好

小6子啊 2025-09-03 17:20:19
0 跟貼 0

1948年大決戰(zhàn)在即，毛主席突然下令槍斃手下大將：誰求情都不行

1948年大決戰(zhàn)在即，毛主席突然下令槍斃手下大將：誰求情都不行

云霄紀史觀

2025-08-30 18:20:27

6年前，被丈夫推下懸崖僥幸生還的王暖暖，如今再次迎來喜訊

6年前，被丈夫推下懸崖僥幸生還的王暖暖，如今再次迎來喜訊

七公子娛樂

2025-09-04 15:40:06

深圳深夜發(fā)文：進一步放寬住房限購專家：尺度比其他城市大

深圳深夜發(fā)文：進一步放寬住房限購專家：尺度比其他城市大

南方都市報

2025-09-06 10:19:09

我出差回家，剛抱住妻子，兒子卻說出一句話，我心瞬間涼透骨

我出差回家，剛抱住妻子，兒子卻說出一句話，我心瞬間涼透骨

小卿情感故事

2025-09-04 17:44:17

杭州一酒館疑“擦邊”，古裝女子貼身熱舞互動，門店：因輿論壓力已停舞整改

杭州一酒館疑“擦邊”，古裝女子貼身熱舞互動，門店：因輿論壓力已停舞整改

界面新聞

2025-09-05 19:22:05

全紅嬋哥哥參加廚綜被淘汰，評論區(qū)一邊倒，官媒都“無語”了

全紅嬋哥哥參加廚綜被淘汰，評論區(qū)一邊倒，官媒都“無語”了

小楊侃事

2025-09-03 13:38:30

玄松月：金正恩初戀，金正日反對，丈夫被除，幾年后被張成澤染指

玄松月：金正恩初戀，金正日反對，丈夫被除，幾年后被張成澤染指

阿胡

2024-05-16 10:20:42

102歲老兵ICU看閱兵后安詳離世

102歲老兵ICU看閱兵后安詳離世

大象新聞

2025-09-04 16:47:06

楊蘭蘭賬上的“2700億澳元”，是存的三年期？

楊蘭蘭賬上的“2700億澳元”，是存的三年期？

關爾東

2025-08-09 17:12:05

俄羅斯人不解：為何強大的中國，幾千年都不要西伯利亞？

俄羅斯人不解：為何強大的中國，幾千年都不要西伯利亞？

知鑒明史

2025-08-21 10:30:08

“貴婦超市”，正在變成“窮鬼食堂”？

“貴婦超市”，正在變成“窮鬼食堂”？

陳天宇

2025-09-06 11:40:21

馮德萊恩險中求生，專機空中盤旋數小時，遠在中國的普京又背鍋了

馮德萊恩險中求生，專機空中盤旋數小時，遠在中國的普京又背鍋了

沈言論

2025-09-06 12:50:03

被共產黨、國民黨、日本國三方都記述的許昌抗日保衛(wèi)戰(zhàn)！

被共產黨、國民黨、日本國三方都記述的許昌抗日保衛(wèi)戰(zhàn)！

慧識

2025-09-06 13:21:42

她是國家一級演員，多次給坐輪椅丈夫戴綠帽，如今兒子也是演員

她是國家一級演員，多次給坐輪椅丈夫戴綠帽，如今兒子也是演員

白面書誏

2025-07-16 12:39:12

蓋希轉會鬧劇升級！利物浦錯失后，拜仁皇馬五豪門哄搶英格蘭鐵衛(wèi)

蓋希轉會鬧劇升級！利物浦錯失后，拜仁皇馬五豪門哄搶英格蘭鐵衛(wèi)

野薔薇觀察所

2025-09-05 12:00:11

重磅，CBA拼命三郎也面臨失業(yè)，開價太高嚇退群雄，或只能打野球

重磅，CBA拼命三郎也面臨失業(yè)，開價太高嚇退群雄，或只能打野球

體壇小快靈

2025-09-06 10:23:41

吳奇隆真是撿到寶了啊，做夢都會笑醒吧

吳奇隆真是撿到寶了啊，做夢都會笑醒吧

小椰的奶奶

2025-08-21 14:16:29

"假愛國"風波3年，51歲吳京人財兩空，而他受邀觀禮閱兵

"假愛國"風波3年，51歲吳京人財兩空，而他受邀觀禮閱兵

白面書誏

2025-09-03 19:36:28

鄭曉龍?zhí)珔柡?！“民間選角”省下千萬宣傳費，新版紅樓夢未拍先火

鄭曉龍?zhí)珔柡?！“民間選角”省下千萬宣傳費，新版紅樓夢未拍先火

小邵說劇

2025-09-05 16:16:11

澤連斯基與特朗普通話討論追加對俄制裁和保護烏領空方案

澤連斯基與特朗普通話討論追加對俄制裁和保護烏領空方案

新京報

2025-09-05 07:56:04

中國汽車自媒體前30強！

8094文章數 231274關注度

往期回顧全部

汽車要聞

科技加持 BMW R 1300 GS Adv依舊標桿實力

頭條要聞

面館推"茅臺配板面"套餐:點板面加38元喝一杯飛天茅臺

頭條要聞

面館推"茅臺配板面"套餐:點板面加38元喝一杯飛天茅臺

體育要聞

英國籃球，為什么那么菜？

娛樂要聞

易烊千璽被資本市場教育了

財經要聞

原證監(jiān)會主席易會滿，被查

科技要聞

超1萬億參數！阿里最大最強模型免費上線

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

房產

旅游

數碼

手機

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

房產要聞

實景驚艷+名校護航！這個項目，正在重新定義白云改善新高度！

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

數碼要聞

集邦咨詢：預估9月面板價格全面持平電視面板需求第三季開始回穩(wěn)增強

手機要聞

蘋果“科技春晚”前瞻：一覽 iPhone 17 系列、AirPods Pro 3 等

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版