隨著自動駕駛技術(shù)不斷發(fā)展,智駕輔助系統(tǒng)正在從高端車型普及到更多消費者可及的主流市場。從城市NOA到高速自動變道,背后的技術(shù)路線卻并不統(tǒng)一。當(dāng)前智駕圈內(nèi)部也存在分歧,不同的工程師、不同的公司,選擇了截然不同的造車思維。比如主流的端到端模型和VLA路線到底有什么不同?還有哪些技術(shù)路線?下面我們來詳細(xì)科普。
什么是“端到端”模型?
端到端,在英文中的表述是End-to-End,這是一種簡單又復(fù)雜的技術(shù)路線,它試圖用一個超大模型接管整套自動駕駛決策流程:從攝像頭、雷達(dá)獲取的數(shù)據(jù),直接輸入給模型,由模型輸出控制信號,比如打方向盤、踩剎車這類動作。
端到端不再像傳統(tǒng)架構(gòu)那樣分成感知、預(yù)測、規(guī)劃、控制四大模塊,而是希望一步到位學(xué)會駕駛行為。得到車企青睞的原因是架構(gòu)很簡單,越少的模塊意味著出錯的地方也更少;模型可以從真實人類駕駛數(shù)據(jù)中自我學(xué)習(xí),理論上學(xué)得越久越聰明,模仿人類駕駛的邏輯,而不是像傳統(tǒng)那樣一板一眼。
但另一方面,也存在問題,模型采用黑箱決策,難追溯原因,比如為何突然剎車,一旦出問題,很難知道是哪一步出錯。其次訓(xùn)練成本高,需要成千上萬小時的駕駛數(shù)據(jù),還有昂貴的算力。當(dāng)然,工程落地也難。簡單來說,端到端就像讓AI從頭學(xué)會開車,但學(xué)得又慢又貴,還容易犯錯,是未來派的路線,比如特斯拉的FSD V12就是端到端,國內(nèi)有華為的ADS3.0。
VLA路線,更穩(wěn)的中間派
VLA,Vision-Language-Action,直譯就是視覺語言動作,是一種介于傳統(tǒng)模塊化和端到端之間的技術(shù)架構(gòu)。它不直接控制車輛,而是先把路況轉(zhuǎn)化為“語義信息”,比如把感知硬件看到的車道、障礙物、紅綠燈等信息做成語義標(biāo)注,包括文本描述+視覺關(guān)聯(lián),動作生成器綜合視覺+語義信息輸出決策。
簡單來說,它不像端到端那樣盲目,而是先理解場景,再決定行動。優(yōu)點在于更容易理解和調(diào)試,一旦出錯可以發(fā)現(xiàn)錯誤在哪里。同時可以和現(xiàn)有的感知系統(tǒng)搭配,不需要徹底推倒重建,安全性更好,容易通過工程驗證。
缺點則是仍然比傳統(tǒng)架構(gòu)復(fù)雜,尤其語義信息的設(shè)計,算力和數(shù)據(jù)成本仍高,也有人認(rèn)為,VLA模型是端到端的2.0版本。VLA就像是先看清楚再開車,比起端到端更靠譜一點,適合現(xiàn)在這個想開快車但不敢全交給AI的階段。小鵬和理想等品牌采用VLA方案。
VLA還有一些缺點,比如需同時處理視覺、語言和動作的多模態(tài)數(shù)據(jù),對車端芯片算力要求高。現(xiàn)有主流芯片難以高效運行,需依賴下一代芯片,如Thor 的1000 TOPS,為滿足算力,部分車企采用多芯片方案,導(dǎo)致算力浪費和整車成本上升,成本轉(zhuǎn)嫁到消費者身上。
模塊化路線,老派穩(wěn)妥之選
除了這兩種主流的方案,還有更傳統(tǒng)的模塊化架構(gòu),這是自動駕駛早期常見的做法,把整個流程拆分成幾個明確的部分,包括感知、越策、規(guī)劃和控制四步,先識別物體、再預(yù)測行為、規(guī)劃路線,最后再控制車輛。
這種架構(gòu)在L2級別的輔助駕駛中被廣泛使用,比如ACC自適應(yīng)巡航、LKA車道保持等。優(yōu)點是結(jié)構(gòu)清晰、可控,每個模塊都能單獨優(yōu)化,此外,歷經(jīng)多年發(fā)展,工具鏈、數(shù)據(jù)體系都很完整。
缺點則是模塊之間協(xié)作不夠聰明,有點像流水線作業(yè),這意味著缺乏變變通能力,場景適應(yīng)性差,復(fù)雜的城市工況會讓系統(tǒng)懵圈,當(dāng)然用戶體驗往往比較僵硬,和真人駕駛有明顯區(qū)別。換句話說,模塊化的思路是“別出錯就行”,不靈活,但靠得住,目前被廣泛采用。
除了上述三種主流路線,行業(yè)里還有一些新奇但潛力巨大的思路,比如BEV+Transformer,把車周圍信息轉(zhuǎn)成鳥瞰圖BEV,然后用Transformer模型去理解和預(yù)測。另一個方案是圖神經(jīng)網(wǎng)絡(luò)GNN,把路況建模成一個動態(tài)圖,每個車輛、行人都是圖中的節(jié)點,這種方法在城市擁堵路段表現(xiàn)更好。此外,還有智能體對智能體概念,每輛車都像一個思考的機(jī)器人,和其他車輛一起談判怎么走。
選車偵探觀點:總體來說,端到端未來感強(qiáng),但落地慢、風(fēng)險高。VLA更快見效,技術(shù)先進(jìn),但不激進(jìn),同時缺點是成本高。更主流的模塊化更穩(wěn)定、量產(chǎn)無憂,但可能錯過變革。也有車企結(jié)合了端到端模型+VLM視覺語言模型,提升復(fù)雜交通中的判斷能力。在智駕領(lǐng)域,不同公司根據(jù)自己資金實力、人才結(jié)構(gòu)、市場目標(biāo)選擇不同策略。大家覺得哪一種才是更適合智駕的方案?歡迎討論。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.