科普：智駕系統(tǒng)也有多元路線，從端到端到VLA，誰才是未來？

2025-07-08 18:49:06　來源: 選車偵探

陜西舉報

分享至

隨著自動駕駛技術(shù)不斷發(fā)展，智駕輔助系統(tǒng)正在從高端車型普及到更多消費者可及的主流市場。從城市NOA到高速自動變道，背后的技術(shù)路線卻并不統(tǒng)一。當(dāng)前智駕圈內(nèi)部也存在分歧，不同的工程師、不同的公司，選擇了截然不同的造車思維。比如主流的端到端模型和VLA路線到底有什么不同？還有哪些技術(shù)路線？下面我們來詳細(xì)科普。

什么是“端到端”模型？

端到端，在英文中的表述是End-to-End，這是一種簡單又復(fù)雜的技術(shù)路線，它試圖用一個超大模型接管整套自動駕駛決策流程：從攝像頭、雷達(dá)獲取的數(shù)據(jù)，直接輸入給模型，由模型輸出控制信號，比如打方向盤、踩剎車這類動作。

端到端不再像傳統(tǒng)架構(gòu)那樣分成感知、預(yù)測、規(guī)劃、控制四大模塊，而是希望一步到位學(xué)會駕駛行為。得到車企青睞的原因是架構(gòu)很簡單，越少的模塊意味著出錯的地方也更少；模型可以從真實人類駕駛數(shù)據(jù)中自我學(xué)習(xí)，理論上學(xué)得越久越聰明，模仿人類駕駛的邏輯，而不是像傳統(tǒng)那樣一板一眼。

但另一方面，也存在問題，模型采用黑箱決策，難追溯原因，比如為何突然剎車，一旦出問題，很難知道是哪一步出錯。其次訓(xùn)練成本高，需要成千上萬小時的駕駛數(shù)據(jù)，還有昂貴的算力。當(dāng)然，工程落地也難。簡單來說，端到端就像讓AI從頭學(xué)會開車，但學(xué)得又慢又貴，還容易犯錯，是未來派的路線，比如特斯拉的FSD V12就是端到端，國內(nèi)有華為的ADS3.0。

VLA路線，更穩(wěn)的中間派

VLA，Vision-Language-Action，直譯就是視覺語言動作，是一種介于傳統(tǒng)模塊化和端到端之間的技術(shù)架構(gòu)。它不直接控制車輛，而是先把路況轉(zhuǎn)化為“語義信息”，比如把感知硬件看到的車道、障礙物、紅綠燈等信息做成語義標(biāo)注，包括文本描述+視覺關(guān)聯(lián)，動作生成器綜合視覺+語義信息輸出決策。

簡單來說，它不像端到端那樣盲目，而是先理解場景，再決定行動。優(yōu)點在于更容易理解和調(diào)試，一旦出錯可以發(fā)現(xiàn)錯誤在哪里。同時可以和現(xiàn)有的感知系統(tǒng)搭配，不需要徹底推倒重建，安全性更好，容易通過工程驗證。

缺點則是仍然比傳統(tǒng)架構(gòu)復(fù)雜，尤其語義信息的設(shè)計，算力和數(shù)據(jù)成本仍高，也有人認(rèn)為，VLA模型是端到端的2.0版本。VLA就像是先看清楚再開車，比起端到端更靠譜一點，適合現(xiàn)在這個想開快車但不敢全交給AI的階段。小鵬和理想等品牌采用VLA方案。

VLA還有一些缺點，比如需同時處理視覺、語言和動作的多模態(tài)數(shù)據(jù)，對車端芯片算力要求高。現(xiàn)有主流芯片難以高效運行，需依賴下一代芯片，如Thor 的1000 TOPS，為滿足算力，部分車企采用多芯片方案，導(dǎo)致算力浪費和整車成本上升，成本轉(zhuǎn)嫁到消費者身上。

模塊化路線，老派穩(wěn)妥之選

除了這兩種主流的方案，還有更傳統(tǒng)的模塊化架構(gòu)，這是自動駕駛早期常見的做法，把整個流程拆分成幾個明確的部分，包括感知、越策、規(guī)劃和控制四步，先識別物體、再預(yù)測行為、規(guī)劃路線，最后再控制車輛。

這種架構(gòu)在L2級別的輔助駕駛中被廣泛使用，比如ACC自適應(yīng)巡航、LKA車道保持等。優(yōu)點是結(jié)構(gòu)清晰、可控，每個模塊都能單獨優(yōu)化，此外，歷經(jīng)多年發(fā)展，工具鏈、數(shù)據(jù)體系都很完整。

缺點則是模塊之間協(xié)作不夠聰明，有點像流水線作業(yè)，這意味著缺乏變變通能力，場景適應(yīng)性差，復(fù)雜的城市工況會讓系統(tǒng)懵圈，當(dāng)然用戶體驗往往比較僵硬，和真人駕駛有明顯區(qū)別。換句話說，模塊化的思路是“別出錯就行”，不靈活，但靠得住，目前被廣泛采用。

除了上述三種主流路線，行業(yè)里還有一些新奇但潛力巨大的思路，比如BEV+Transformer，把車周圍信息轉(zhuǎn)成鳥瞰圖BEV，然后用Transformer模型去理解和預(yù)測。另一個方案是圖神經(jīng)網(wǎng)絡(luò)GNN，把路況建模成一個動態(tài)圖，每個車輛、行人都是圖中的節(jié)點，這種方法在城市擁堵路段表現(xiàn)更好。此外，還有智能體對智能體概念，每輛車都像一個思考的機(jī)器人，和其他車輛一起談判怎么走。

選車偵探觀點：總體來說，端到端未來感強(qiáng)，但落地慢、風(fēng)險高。VLA更快見效，技術(shù)先進(jìn)，但不激進(jìn)，同時缺點是成本高。更主流的模塊化更穩(wěn)定、量產(chǎn)無憂，但可能錯過變革。也有車企結(jié)合了端到端模型+VLM視覺語言模型，提升復(fù)雜交通中的判斷能力。在智駕領(lǐng)域，不同公司根據(jù)自己資金實力、人才結(jié)構(gòu)、市場目標(biāo)選擇不同策略。大家覺得哪一種才是更適合智駕的方案？歡迎討論。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.