以激光雷達(dá)為代表的雷視融合方案和純視覺(jué)路線(xiàn)的誰(shuí)優(yōu)誰(shuí)劣伴隨著智駕從手寫(xiě)規(guī)則到今天的端到端階段,不過(guò)如果拋棄算力、算法和大模型能力來(lái)單純對(duì)比激光雷達(dá)和純視覺(jué)的優(yōu)劣顯然是舍本逐末。在AEB即將成為國(guó)標(biāo)之際,目前的標(biāo)準(zhǔn)要求也遠(yuǎn)未到激光雷達(dá)與純視覺(jué)只能二選一的地步。
文丨智駕網(wǎng) July
編輯|雨來(lái)
一紙新規(guī),再次將AEB話(huà)題引入輿論場(chǎng)。
5月,工業(yè)和信息化部發(fā)布《輕型汽車(chē)自動(dòng)緊急制動(dòng)系統(tǒng)技術(shù)要求及試驗(yàn)方法》(征求意見(jiàn)稿),將自動(dòng)緊急制動(dòng)系統(tǒng)(AEB)從推薦性標(biāo)準(zhǔn)升級(jí)為強(qiáng)制性國(guó)家標(biāo)準(zhǔn),并計(jì)劃于2026年起分階段實(shí)施。該標(biāo)準(zhǔn)將替代現(xiàn)行國(guó)標(biāo)GB/T 39901-2021,征求意見(jiàn)截止日期即將在本月底(6月30日)結(jié)束。
這是目前智駕輔助功能中第一次上升為國(guó)家強(qiáng)制標(biāo)準(zhǔn),但它同時(shí)也引發(fā)了技術(shù)路線(xiàn)的爭(zhēng)議,如果強(qiáng)制安裝AEB是否意味著所有的車(chē)型都需要標(biāo)配激光雷達(dá)?
智駕網(wǎng)梳理了新國(guó)標(biāo)三大核心變化——
適用范圍擴(kuò)大:要求所有M1類(lèi)乘用車(chē)(轎車(chē)、SUV、MPV等)和N1類(lèi)輕型載貨汽車(chē)(總質(zhì)量≤3.5噸)強(qiáng)制裝備AEB系統(tǒng),覆蓋中國(guó)90%以上輕型車(chē)輛;
技術(shù)要求升級(jí):新增對(duì)行人、自行車(chē)、踏板式兩輪摩托車(chē)等弱勢(shì)道路使用者的識(shí)別能力要求,并增加交叉路口、右轉(zhuǎn)跟車(chē)等復(fù)雜場(chǎng)景測(cè)試;
性能指標(biāo)提升:乘用車(chē)AEB激活范圍擴(kuò)大至10-80km/h,制動(dòng)減速度要求從4.0m/s2提高到5.0m/s2,針對(duì)靜止前車(chē)的測(cè)試速度從30km/h提高到80km/h;
但在這些變化之中,值得注意的是,新國(guó)標(biāo)并未強(qiáng)制要求安裝特定的傳感器配置,其性能導(dǎo)向的特性也為多元技術(shù)路線(xiàn)留下了充分可討論的空間。
01.
AEB爭(zhēng)議為何再起?
AEB的技術(shù)路線(xiàn)目前有毫米波雷達(dá)、純視覺(jué)和雷視融合三種。
當(dāng)前眾多車(chē)輛的AEB系統(tǒng)基于77GHz毫米波雷達(dá)實(shí)現(xiàn),在三種技術(shù)方案中,依靠毫米波雷達(dá)的這一方案,是最基礎(chǔ)的技術(shù)方案,同時(shí)成本最低,應(yīng)用廣泛,但缺點(diǎn)是易受環(huán)境干擾,極易失效。
純視覺(jué)方案,依賴(lài)攝像頭進(jìn)行感知,這種方案的弊端在于對(duì)靜止物體的識(shí)別存在局限性,也容易受到光線(xiàn)等環(huán)境干擾。
目前聲勢(shì)最盛的是多傳感器融合方案,毫米波雷達(dá)、激光雷達(dá)和攝像頭融合使用,弱點(diǎn)是成本更高。
不過(guò)當(dāng)下所說(shuō)的純視覺(jué)方案其實(shí)也是攝像頭和毫米波的組合方案。
直觀來(lái)看,多傳感器雷視融合方案最佳,雖然成本相對(duì)更高,但AEB做為緊急狀態(tài)下的最后一道屏障,與安全相比,成本高一些無(wú)可厚非。
不過(guò),不考慮算力、算法,單純對(duì)比傳感器多寡,一刀切地認(rèn)為擁有激光雷達(dá)就一定強(qiáng)于純視覺(jué)則有失偏頗。
在新國(guó)標(biāo)發(fā)布之際,行業(yè)也正經(jīng)歷一場(chǎng)關(guān)于AEB技術(shù)路線(xiàn)的激烈爭(zhēng)論。
激光雷達(dá)派:
有博主在社交媒體發(fā)文稱(chēng),純視覺(jué)方案尚未實(shí)現(xiàn)100km/h以上剎停能力,而融合激光雷達(dá)的方案已量產(chǎn)120km/h剎停能力。
他強(qiáng)調(diào):“對(duì)靜止車(chē)輛的空間感知需要150米的精準(zhǔn)測(cè)距”。
言下之意,純視覺(jué)無(wú)法實(shí)現(xiàn)150米距離的精準(zhǔn)測(cè)距和識(shí)別。
視覺(jué)方案派:
小鵬汽車(chē)自動(dòng)駕駛產(chǎn)品高級(jí)總監(jiān)袁婷婷則表示小鵬汽車(chē)的純視覺(jué)方案已實(shí)現(xiàn)了130km/h動(dòng)態(tài)車(chē)輛剎停,上市的小鵬M03 MAX將搭載該技術(shù)。
從兩方在社交媒體的爭(zhēng)論不難看出,核心聚焦在純視覺(jué)方案能否在更高時(shí)速(120公里時(shí)速)實(shí)現(xiàn)對(duì)相對(duì)安全距離(150米)的目標(biāo)的精準(zhǔn)識(shí)別。
在這場(chǎng)爭(zhēng)論之后不久,6月19日,小鵬汽車(chē)發(fā)布測(cè)試視頻并宣稱(chēng)其純視覺(jué)AEB實(shí)現(xiàn)130公里/小時(shí)對(duì)靜止目標(biāo)剎停(行業(yè)最高速),并覆蓋夜間、濕滑路面等復(fù)雜場(chǎng)景,小鵬汽車(chē)表示其純視覺(jué)路線(xiàn)憑借「大模型+高算力」可實(shí)現(xiàn)更低延遲(40ms)和更強(qiáng)泛化能力。該功能預(yù)計(jì)在本月底全量推送。
而此前行業(yè)高速AEB性能的標(biāo)桿普遍在100-120km/h(激光雷達(dá)方案上限),華為和理想對(duì)外展示的最高時(shí)速上都達(dá)到過(guò)130公里,小鵬通過(guò)純視覺(jué)實(shí)現(xiàn)130km/h剎停,追平了主流的雷視融合方案(當(dāng)然有觀點(diǎn)認(rèn)為AEB的剎停時(shí)速也不宜過(guò)高,會(huì)對(duì)人體造成傷害)。
通常,激光雷達(dá)方案的延遲在80ms以上,40ms端到端響應(yīng)速度則更具低延遲優(yōu)勢(shì),源于省去多傳感器數(shù)據(jù)融合的算力消耗,提升了決策效率。
袁婷婷表示,激光雷達(dá)遠(yuǎn)距離信息稀疏且易受天氣干擾,而高分辨率攝像頭+AI模型才是更優(yōu)解。
當(dāng)AEB的話(huà)題被重新推至風(fēng)口,這一次純視覺(jué)想要打翻身仗,小鵬勢(shì)必要解決一些更難的問(wèn)題。
02.AEB最核心的感知難題,純視覺(jué)怎么解?
近來(lái)發(fā)生的多起智駕事故中,AEB不起作用被廣為詬病,這其實(shí)涉及一個(gè)兩難問(wèn)題:
太敏感,會(huì)造成不斷剎停,嚴(yán)重干擾駕駛者的正常行駛;
降低敏感度,又起不到自動(dòng)駕駛保障安全的目的,而當(dāng)前無(wú)論攝像頭還是毫米波雷達(dá)、激光雷達(dá),都無(wú)法做到對(duì)障礙物的百分百識(shí)別,這也是當(dāng)前AEB的核心難點(diǎn)。
在工作原理上,AEB的激活需要經(jīng)過(guò)感知、決策、執(zhí)行三個(gè)步驟。首先系統(tǒng)要通過(guò)雷達(dá)、攝像頭等感知硬件監(jiān)測(cè)前方的道路環(huán)境信息,識(shí)別障礙物。如果存在障礙,系統(tǒng)將會(huì)基于車(chē)輛與障礙之間的距離,或碰撞所需時(shí)間來(lái)評(píng)估碰撞風(fēng)險(xiǎn),如果判定系統(tǒng)設(shè)定的某個(gè)安全閾值時(shí),便會(huì)觸發(fā)緊急制動(dòng)。
事實(shí)上,AEB是各大自動(dòng)駕駛團(tuán)隊(duì)最難攻克的技術(shù),原因是太難平衡。
AEB作為一個(gè)剎車(chē)機(jī)制,自身帶有感知算法,不同物體對(duì)探測(cè)的反應(yīng)是不是一樣的,它的準(zhǔn)確運(yùn)作聚焦于四個(gè)方面:識(shí)別的準(zhǔn)確率、感知延時(shí)、控制精度和控制的延時(shí)。
AEB表現(xiàn)的好壞即依賴(lài)于傳感器、算法等智駕技術(shù)能力,也依賴(lài)于車(chē)輛剎車(chē)等硬件的物理能力。
當(dāng)下的技術(shù)能力,視覺(jué)路線(xiàn)已相比激光雷達(dá)有了巨大的優(yōu)勢(shì)。
這一方是攝像頭的像素越來(lái)越高,800萬(wàn)像素的攝像頭越來(lái)越普遍,看得更清;一方面,視覺(jué)算法開(kāi)始替代毫米波雷達(dá)承擔(dān)AEB的識(shí)別觸發(fā)機(jī)制,視覺(jué)算法相比毫米波雷達(dá)造成誤觸發(fā)的概率開(kāi)始大幅下降。
只不過(guò)這一技術(shù)路線(xiàn)一來(lái)對(duì)算力要求很大,同時(shí)受光線(xiàn)影響較大。
堅(jiān)持純視覺(jué)智駕技術(shù)路線(xiàn)的小鵬給出了解法,即加大車(chē)端算力和通過(guò)大模型強(qiáng)化學(xué)習(xí)。
小鵬在日前預(yù)售的G7車(chē)型Ultra版算力做到了2200TOPS,這款車(chē)型搭載了小鵬自研的3顆圖靈AI芯片,算力相當(dāng)于9顆當(dāng)前主流的智駕芯?(Orin X) 。
算力可以被比喻為智駕發(fā)展的「燃料」,大模型是「引擎」,視覺(jué)感知?jiǎng)t是「第一性原理」,三者結(jié)合推動(dòng)感知系統(tǒng)從「看見(jiàn)」升維至「理解」,最終實(shí)現(xiàn)人類(lèi)級(jí)場(chǎng)景認(rèn)知。
何小鵬給過(guò)的預(yù)判是,2026-2027年「世界模型+強(qiáng)化學(xué)習(xí)」將推動(dòng)L4級(jí)智駕落地,而視覺(jué)感知作為基礎(chǔ)層,其可靠性決定終極體驗(yàn)上限。
現(xiàn)在,小鵬汽車(chē)已對(duì)外宣布正在研發(fā)參數(shù)規(guī)模達(dá)到720億的云端大模型,即“小鵬世界基座模型”。
該基座模型是以大語(yǔ)言模型為骨干,使用海量?jī)?yōu)質(zhì)駕駛數(shù)據(jù)訓(xùn)練的VLA大模型(視覺(jué)-語(yǔ)言-行為大模型),具備視覺(jué)理解能力、鏈?zhǔn)酵评砟芰Γ–oT)和動(dòng)作生成能力。
依靠「高算力+強(qiáng)模型」,能增強(qiáng)主動(dòng)安全的可靠性,強(qiáng)大的模型能夠提升感知信息的處理效率和精度,高算力能夠讓大模型在車(chē)上跑得更順暢。
在大算力和大模型的共同賦能下,視覺(jué)感知能將原本規(guī)則時(shí)代的單幀圖片識(shí)別,轉(zhuǎn)化為4D動(dòng)態(tài)信息,能夠推理前后幀之間的因果關(guān)系,判斷在道路行駛中后續(xù)可能發(fā)生的情況。
同時(shí)只有視覺(jué)感知能做到前融合的方案,將時(shí)延降到最低。在夜間、雨霧等場(chǎng)景,大模型下的視覺(jué)融合方案都會(huì)更安全。
如果算力充足,那么用一段式端到端方法做AEB一定是最佳選擇,從感知到?jīng)Q策再到規(guī)劃控制,可以一步到位。
而當(dāng)有了更雪亮的眼睛(更準(zhǔn)確的識(shí)別感知),更聰明的大腦(更快瞬時(shí)推理能力),就會(huì)造就更敏捷的身手(更快響應(yīng)速度),最終造就更強(qiáng)大、更好用的AEB。
如果給何小鵬出一道選擇題,是一雙更聰明的眼睛重要,還是一個(gè)更強(qiáng)大的大腦更重要,他會(huì)說(shuō),小鵬選擇后者。
為了搭建云端足夠大的模型,小鵬訓(xùn)練了數(shù)百億參數(shù)規(guī)模的云端基座大模型,參數(shù)量達(dá)車(chē)端模型的80倍,這意味80倍參數(shù)可以吸納corner case,突破規(guī)則代碼上限。
所以,如果小鵬的云端數(shù)據(jù)規(guī)模真能達(dá)到官方所說(shuō)的「720億參數(shù)量」和「集群算力10EFLOPS」,那么的確是世界TOP級(jí)別的規(guī)模與投入。
現(xiàn)在,小鵬云端大模型參數(shù)量達(dá)車(chē)端模型的80倍,這意味80倍參數(shù)可以吸納corner case,突破規(guī)則代碼上限。
而在云端訓(xùn)練超大模型的基礎(chǔ)上,小鵬并非簡(jiǎn)單將云端基座大模型直接部署到車(chē)端,而是通過(guò)知識(shí)蒸餾(Knowledge Distillation)實(shí)現(xiàn)“大模型智能下沉”,在保障安全性與實(shí)時(shí)性的同時(shí)突破車(chē)端算力限制。
蒸餾可以理解為將“教授知識(shí)”壓縮至“學(xué)生模型”。
在駕駛真實(shí)場(chǎng)景中,直接訓(xùn)練小模型容易因駕駛場(chǎng)景多解性(同一場(chǎng)景有多種合法路徑)導(dǎo)致模型混淆,而大模型通過(guò)統(tǒng)一模態(tài)蒸餾可避免此問(wèn)題。
另一個(gè)技術(shù)優(yōu)勢(shì)是有望突破Scaling Law邊際效應(yīng)。
小鵬指出,無(wú)論是自己2000萬(wàn)clips的云端數(shù)據(jù)量,還是其他家的xx千萬(wàn),都是建立在“視頻切片”的基礎(chǔ)上。
云端大模型在充分吸收海量數(shù)據(jù)后,蒸餾后的小模型性能就會(huì)遠(yuǎn)超同參數(shù)直接訓(xùn)練的模型上限。
雖然硬件雙冗余對(duì)于感知硬件的一項(xiàng)要求就是要配備激光雷達(dá),但現(xiàn)在以純視覺(jué)智駕技術(shù)路線(xiàn)為代表的小鵬擁有長(zhǎng)期規(guī)模投入的能力,通過(guò)更強(qiáng)大的大腦替代激光雷達(dá)的物理感知冗余,在主動(dòng)安全領(lǐng)域?qū)崿F(xiàn)了對(duì)激光雷達(dá)融合感知路線(xiàn)的系統(tǒng)性突破。
03.純視覺(jué)AEB比雷視融合更具未來(lái)性
倘若視覺(jué)感知實(shí)現(xiàn)真正的前融合,系統(tǒng)時(shí)延就會(huì)降到最低,從長(zhǎng)期來(lái)看,純視覺(jué)是解決感知上限的最優(yōu)解。
6月16日,特斯拉副總裁陶琳在微博上發(fā)布了一則馬斯克的采訪(fǎng)視頻,馬斯克在采訪(fǎng)中表示,與道路系統(tǒng)最適配的智能駕駛技術(shù)就是人工智能、數(shù)字神經(jīng)網(wǎng)絡(luò)和攝像頭相結(jié)合。
「當(dāng)然我們的車(chē)輛還配備了麥克風(fēng),用于識(shí)別緊急車(chē)輛的聲音」。馬斯克認(rèn)為,全世界的道路系統(tǒng)都是為了智能、生物神經(jīng)網(wǎng)絡(luò)和眼睛設(shè)計(jì)的,而不是根據(jù)「從眼睛里發(fā)射激光」來(lái)設(shè)計(jì)的。
純視覺(jué)感知究竟解決了雷視融合感知路線(xiàn)的哪些問(wèn)題?
最核心的是解決了延遲和誤檢的問(wèn)題。
比如,激光雷達(dá)是點(diǎn)云數(shù)據(jù),數(shù)據(jù)量大且頻率低,給整體的系統(tǒng)延時(shí)帶來(lái)了較大負(fù)擔(dān)。激光雷達(dá)在大雨/霧天場(chǎng)景容易出現(xiàn)誤檢,比如鏡面反射、點(diǎn)云膨脹等。
相比激光雷達(dá)的點(diǎn)云數(shù)據(jù),攝像頭是圖像/視頻數(shù)據(jù),兩種不同模態(tài)的信息在車(chē)端融合,一方面需要較高的存儲(chǔ)和處理成本,對(duì)于需要在毫秒之間作出響應(yīng)的輔助駕駛系統(tǒng)來(lái)說(shuō),由此導(dǎo)致的任何延遲都不可接受;另一方面,不同模態(tài)的信息如果相互矛盾,會(huì)影響AI大腦的決策。
采用統(tǒng)一的視覺(jué)模態(tài)信息,會(huì)讓系統(tǒng)響應(yīng)效率更高,提升駕駛安全性。
當(dāng)然,激光雷達(dá)的優(yōu)勢(shì)是可以實(shí)現(xiàn)對(duì)障礙物物體空間位置的感知,以及對(duì)于強(qiáng)逆光、雨霧的穿透,以便做到較低的誤觸發(fā)率,純視覺(jué)如何做到或者超過(guò)激視融合感知路線(xiàn)的準(zhǔn)確率和低誤觸發(fā)率?
小鵬汽車(chē)產(chǎn)品經(jīng)理Mike給出的解釋是,降低誤觸發(fā)的核心是對(duì)道路情況看得清、看得遠(yuǎn)、看得準(zhǔn)。
他以小鵬鷹眼視覺(jué)+毫米波雷達(dá)方案舉例,這套方案能做到對(duì)障礙物空間位置的感知,盡量減少誤識(shí)別。再加上一個(gè)足夠聰明的大腦,就能對(duì)道路上的突發(fā)狀況做快速的推理分析,準(zhǔn)確評(píng)判風(fēng)險(xiǎn),而不是動(dòng)輒剎車(chē)了事。
熟悉小鵬的人都知道,小鵬是第一家量產(chǎn)激光雷達(dá)車(chē)型的車(chē)企,也是第一家把激光雷達(dá)去掉的車(chē)企。
Mike說(shuō),小鵬在去掉激光雷達(dá)后,節(jié)約了20%的感知算力,這樣可以升級(jí)視覺(jué)感知模型的容量、參數(shù)量和推理的頻率。
有專(zhuān)家表示,激光雷達(dá)最高每秒10幀,而視覺(jué)攝像頭可以實(shí)現(xiàn)24幀,激光雷達(dá)的10Hz是主動(dòng)掃描式采樣,視覺(jué)的24Hz是被動(dòng)并行式采樣,后者在時(shí)間分辨率上具有物理層優(yōu)勢(shì)。
高幀率視覺(jué)的核心價(jià)值在于構(gòu)建時(shí)空連續(xù)性的認(rèn)知能力——當(dāng)激光雷達(dá)還在「逐幀拼湊世界」時(shí),視覺(jué)系統(tǒng)已在「理解運(yùn)動(dòng)故事線(xiàn)」。這恰恰是應(yīng)對(duì)國(guó)內(nèi)復(fù)雜城市場(chǎng)景(鬼探頭、加塞等)的最優(yōu)解,亦是傳感器頻率差異的本質(zhì)意義。
從短期成本可控來(lái)看,如果想省掉鉆研算力算法的苦力活 ,中高算力+激光雷達(dá)的確是個(gè)好選擇,隨著激光雷達(dá)上車(chē),與視覺(jué)算法結(jié)合,理論上當(dāng)然效果更好,但是實(shí)現(xiàn)二者的數(shù)據(jù)融合又是另一個(gè)技術(shù)門(mén)檻。
很難說(shuō)實(shí)現(xiàn)二者數(shù)據(jù)融合的門(mén)檻不比純視覺(jué)更高。
在智駕網(wǎng)近年來(lái)采訪(fǎng)的多位智駕專(zhuān)家中,一致的觀點(diǎn)純視覺(jué)是智駕的未來(lái)。
但鑒于近期的諸多智駕事故,部分人將事故的原因歸結(jié)于硬件配置的不足,回避了自身算法能力的不足,反而給大眾形成了激光雷達(dá)是不可缺少的智駕配置的認(rèn)知。
何小鵬說(shuō)“2027年以后,純視覺(jué)技術(shù)不會(huì)再有分歧?!?/p>
為什么是2027年?因?yàn)楸藭r(shí)大抵市場(chǎng)上的玩家都基本解決了算力和模型問(wèn)題。
end.
【關(guān)注智能汽車(chē),關(guān)注智駕網(wǎng)視頻號(hào)】
關(guān)注汽車(chē)的智駕時(shí)代上智駕網(wǎng)(http://autor.com.cn)
合作or新聞線(xiàn)索提供,聯(lián)系郵箱:editor@autor.com.cn
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.