新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】浙江大學(xué)與哈工大(深圳)聯(lián)合推出SafeMVDrive,利用擴(kuò)散模型結(jié)合VLM實(shí)現(xiàn)批量化多視角真實(shí)域的安全關(guān)鍵視頻生成。該方法在保持畫(huà)質(zhì)與真實(shí)感的同時(shí),顯著增強(qiáng)了駕駛場(chǎng)景的危險(xiǎn)性。生成的場(chǎng)景用于端到端自動(dòng)駕駛系統(tǒng)的極限壓測(cè),可使得模型的碰撞率提升50倍。
近期,懂車(chē)帝的《懂車(chē)智煉場(chǎng)》欄目對(duì)量產(chǎn)自動(dòng)駕駛系統(tǒng)的NOA輔助駕駛功能進(jìn)行了安全關(guān)鍵場(chǎng)景測(cè)試。
結(jié)果顯示,在黑夜施工工地、高速公路前方車(chē)輛發(fā)生事故以及障礙物后突然駛出車(chē)輛等高風(fēng)險(xiǎn)場(chǎng)景中,目前尚無(wú)任何系統(tǒng)能夠在測(cè)試中做到完全避免事故。
這類(lèi)安全關(guān)鍵場(chǎng)景在真實(shí)道路上雖不常見(jiàn),但一旦發(fā)生,可能導(dǎo)致人員傷亡或嚴(yán)重交通事故。
為了提升自動(dòng)駕駛系統(tǒng)在此類(lèi)情境下的可靠性,必須在多樣化且高風(fēng)險(xiǎn)的安全關(guān)鍵場(chǎng)景中進(jìn)行廣泛測(cè)試。
然而,這類(lèi)極端場(chǎng)景在現(xiàn)實(shí)中采集難度極高——發(fā)生頻率低、風(fēng)險(xiǎn)大、難以批量獲取。
在仿真環(huán)境中,類(lèi)似的場(chǎng)景雖然可以批量制造,但現(xiàn)有模擬器在畫(huà)面真實(shí)度上與現(xiàn)實(shí)仍有差距,難以直接用于真實(shí)域下端到端系統(tǒng)的極限測(cè)試。
為此,來(lái)自浙江大學(xué)與與哈工大(深圳)的研究團(tuán)隊(duì)提出了SafeMVDrive——首個(gè)面向真實(shí)域的多視角安全關(guān)鍵駕駛視頻生成框架。
它將VLM關(guān)鍵車(chē)輛選擇器與兩階段軌跡生成結(jié)合,驅(qū)動(dòng)多視角視頻生成模型,在真實(shí)域中實(shí)現(xiàn)批量制造高保真安全關(guān)鍵視頻,可用于對(duì)端到端自動(dòng)駕駛系統(tǒng)的安全性測(cè)試。
論文地址:https://arxiv.org/abs/2505.17727
項(xiàng)目地址:https://zhoujiawei3.github.io/SafeMVDrive/
代碼地址:https://github.com/zhoujiawei3/SafeMVDrive
數(shù)據(jù)集地址:https://huggingface.co/datasets/JiaweiZhou/SafeMVDrive
為了實(shí)現(xiàn)高質(zhì)量真實(shí)域多視角安全關(guān)鍵場(chǎng)景,研究人員首先嘗試將安全軌跡模擬與多視角視頻生成模型結(jié)合,用真實(shí)域視頻驅(qū)動(dòng)極限測(cè)試。然而在實(shí)踐中,他們發(fā)現(xiàn)存在兩大挑戰(zhàn):
一是安全關(guān)鍵車(chē)輛的選擇?,F(xiàn)有方法大多依賴(lài)簡(jiǎn)單的啟發(fā)式規(guī)則(如選擇最近車(chē)輛),缺乏對(duì)場(chǎng)景關(guān)系的視覺(jué)理解,容易選錯(cuò)目標(biāo)車(chē)輛,導(dǎo)致生成場(chǎng)景的安全關(guān)鍵性不足或生成失?。?/p>
二是多視角視頻生成模型的泛化性問(wèn)題。由于現(xiàn)有模型在訓(xùn)練時(shí)幾乎沒(méi)有接觸過(guò)碰撞或近距離互動(dòng)等極端場(chǎng)景數(shù)據(jù),在這些情況下的生成質(zhì)量明顯下降。
為此,研究團(tuán)隊(duì)提出了兩項(xiàng)關(guān)鍵創(chuàng)新:
VLM關(guān)鍵車(chē)輛選擇器:引入經(jīng)過(guò)GRPO微調(diào)的視覺(jué)語(yǔ)言模型,從多視角真實(shí)畫(huà)面中推理交通互動(dòng)關(guān)系,精準(zhǔn)識(shí)別最有可能制造危險(xiǎn)的對(duì)抗車(chē)輛;
雙階段軌跡生成:先生成符合物理規(guī)律的碰撞軌跡,再轉(zhuǎn)化為「接近碰撞但成功規(guī)避」的軌跡,既保留緊張刺激的安全關(guān)鍵特征,又保持視頻生成的高保真度。
SafeMVDrive能夠批量生成高保真、多視角的安全關(guān)鍵駕駛視頻,顯著提高極端場(chǎng)景的覆蓋率,并在保持畫(huà)質(zhì)與真實(shí)感的同時(shí),為端到端自動(dòng)駕駛系統(tǒng)的極限壓測(cè)提供更具挑戰(zhàn)性的測(cè)試數(shù)據(jù)。
效果展示
對(duì)于給定的多視角圖像,SafeMVDrive能夠在真實(shí)域生成高質(zhì)量的安全關(guān)鍵多視角視頻,其中不僅包含目標(biāo)車(chē)輛的安全關(guān)鍵行為(如加塞、急剎、后方突然加速),還呈現(xiàn)出自車(chē)(當(dāng)前多視角攝像機(jī)安裝車(chē)輛)的相應(yīng)規(guī)避動(dòng)作。
側(cè)方車(chē)輛突然加塞,自車(chē)輕微向右轉(zhuǎn)向避讓
后方車(chē)輛突然加速,自車(chē)向左變道以躲避
后方車(chē)輛突然加速,自車(chē)同步提速進(jìn)行規(guī)避
前方車(chē)輛突然減速,自車(chē)變道并減速避讓
如下圖所示,相比于將開(kāi)源數(shù)據(jù)集中的自然軌跡用于多視角視頻生成模型(Origin),以及簡(jiǎn)單的將碰撞軌跡模擬生成的軌跡與多視角視頻生成模型結(jié)合(Naive)而言,SafeMVDrive兼顧視頻真實(shí)性質(zhì)量以及場(chǎng)景危險(xiǎn)性。
第一列自然軌跡生成的視頻較常見(jiàn),第二列碰撞軌跡生成的視頻未段車(chē)輛變形失真,第三列本框架生成的視頻兼具真實(shí)性與安全關(guān)鍵性
方法概述
SafeMVDrive的核心目標(biāo),是從一個(gè)給定的初始場(chǎng)景中批量生成真實(shí)域多視角安全關(guān)鍵駕駛視頻。
整個(gè)方法由三大模塊組成:
VLM車(chē)輛選擇器:多視角畫(huà)面中鎖定安全關(guān)鍵車(chē)
在極端駕駛場(chǎng)景的構(gòu)造中,第一步是決定哪輛車(chē)會(huì)對(duì)自車(chē)構(gòu)成威脅。
傳統(tǒng)方法常依賴(lài)非視覺(jué)信息即數(shù)據(jù)集標(biāo)注并結(jié)合啟發(fā)式規(guī)則(如距離最近的車(chē)輛)選擇。這種簡(jiǎn)單的規(guī)則往往無(wú)法覆蓋復(fù)雜的交通場(chǎng)景,并且可能因?yàn)閿?shù)據(jù)集漏標(biāo)注導(dǎo)致選擇的車(chē)輛無(wú)法以自然的軌跡與自車(chē)發(fā)生碰撞。
如下圖所示,右圖展示的是非視覺(jué)信息即數(shù)據(jù)集標(biāo)注,失去了對(duì)于安全關(guān)鍵車(chē)輛信息判斷至關(guān)重要的障礙物標(biāo)注,導(dǎo)致傳統(tǒng)的啟發(fā)式規(guī)則方法錯(cuò)誤判斷認(rèn)為大巴可以與自車(chē)發(fā)生自然軌跡的碰撞,實(shí)際上其并無(wú)法繞過(guò)障礙物與自車(chē)發(fā)生碰撞。
研究人員提出利用初始場(chǎng)景的多視角圖像中的視覺(jué)信息,配合VLM的場(chǎng)景理解能力實(shí)現(xiàn)更有效的安全關(guān)鍵車(chē)輛選擇。
首先,研究人員利用碰撞軌跡模擬自動(dòng)化生成「初始場(chǎng)景——安全關(guān)鍵車(chē)輛」配對(duì)數(shù)據(jù)集,之后利用GRPO算法微調(diào)VLM,最終地得到了基于VLM的安全關(guān)鍵車(chē)輛選擇器。
雙階段軌跡生成:從「碰撞」到「規(guī)避」
現(xiàn)有安全關(guān)鍵軌跡生成方法多以制造碰撞事件為目標(biāo),但由于當(dāng)前多視角視頻生成器缺乏真實(shí)多視角碰撞數(shù)據(jù),這類(lèi)碰撞控制信號(hào)往往導(dǎo)致生成畫(huà)質(zhì)下降。
為此,研究人員提出雙階段規(guī)避軌跡生成策略,在保留安全關(guān)鍵特征的同時(shí)生成可被現(xiàn)有視頻生成器真實(shí)渲染的規(guī)避場(chǎng)景。
第一階段為碰撞軌跡模擬:基于可控?cái)U(kuò)散軌跡生成模型,從初始單幀場(chǎng)景出發(fā),通過(guò)test-time loss guidance引導(dǎo)對(duì)抗車(chē)輛與自車(chē)發(fā)生有效碰撞。研究人員設(shè)計(jì)了三類(lèi)損失:
對(duì)抗損失:在碰撞發(fā)生前按時(shí)間衰減加權(quán),最小化兩車(chē)間距離,鼓勵(lì)對(duì)抗車(chē)輛快速逼近自車(chē),并在碰撞后將損失置零以避免不自然的「粘連」行為;
無(wú)碰損失:約束除自車(chē)與對(duì)抗車(chē)輛外的其他車(chē)輛避免碰撞;
在路損失:懲罰駛?cè)敕强尚旭倕^(qū)域的軌跡,保持交通合理性。
第二階段為規(guī)避軌跡轉(zhuǎn)化:在保持第一階段所有非自車(chē)軌跡不變的前提下,僅更新自車(chē)軌跡,并以無(wú)碰損失和在路損失引導(dǎo)自車(chē)規(guī)避對(duì)抗車(chē)輛,從而將原本的碰撞場(chǎng)景自然轉(zhuǎn)化為安全關(guān)鍵的規(guī)避場(chǎng)景。
這種方式既保留了對(duì)抗車(chē)輛的威脅性動(dòng)作,又確保了生成結(jié)果的真實(shí)感和物理合理性。
最終,經(jīng)過(guò)篩選的規(guī)避軌跡被用于驅(qū)動(dòng)多視角視頻生成器,得到兼具安全關(guān)鍵性與視覺(jué)真實(shí)感的駕駛視頻。
多視角視頻生成:真實(shí)域合成高保真「險(xiǎn)情」
在SafeMVDrive的最后一步,研究團(tuán)隊(duì)采用了多視角視頻生成模塊,將雙階段軌跡生成器輸出的「規(guī)避型」安全關(guān)鍵軌跡轉(zhuǎn)化為高保真真實(shí)域視頻。
具體來(lái)說(shuō),他們選用UniMLVG作為骨干網(wǎng)絡(luò),該模型不僅支持顯式控制自車(chē)與周?chē)?chē)輛的運(yùn)動(dòng)軌跡,還能在較長(zhǎng)時(shí)間跨度內(nèi)保持視頻質(zhì)量穩(wěn)定。
轉(zhuǎn)換過(guò)程中,生成的規(guī)避軌跡會(huì)被編碼成逐幀控制信號(hào)(3D邊界框、高清地圖、相機(jī)參數(shù)),并結(jié)合多視角初始幀與時(shí)間及天氣文本描述輸入視頻生成器。
由于安全關(guān)鍵場(chǎng)景持續(xù)時(shí)間較長(zhǎng),SafeMVDrive采用自回歸滾動(dòng)生成方式:每段視頻的最后一幀作為下一段的起始幀,對(duì)應(yīng)時(shí)間窗口的控制信號(hào)則用于引導(dǎo)后續(xù)生成。
通過(guò)這種迭代,完整的碰撞規(guī)避軌跡最終被渲染為真實(shí)域的多視角「險(xiǎn)情」視頻,兼顧安全關(guān)鍵性與畫(huà)面真實(shí)感
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)從兩個(gè)方面進(jìn)行了評(píng)估:生成視頻的真實(shí)感與安全關(guān)鍵性,以及對(duì)抗車(chē)輛選擇的準(zhǔn)確度。
高保真危險(xiǎn)場(chǎng)景批量生成
如下表所示,SafeMVDrive在生成真實(shí)域多視角視頻的同時(shí),顯著提升了安全關(guān)鍵場(chǎng)景的覆蓋率和多樣性。
在碰撞率指標(biāo)上,它生成的場(chǎng)景比開(kāi)源數(shù)據(jù)集中自然軌跡用于多視角視頻生成模型(Origin)更具挑戰(zhàn)性,且在保持高碰撞率的同時(shí),畫(huà)質(zhì)與真實(shí)感依然接近真實(shí)視頻,遠(yuǎn)優(yōu)于將碰撞軌跡模擬生成的軌跡直接與多視角視頻生成模型結(jié)合生成的視頻(Naive)。
精準(zhǔn)鎖定安全關(guān)鍵車(chē)輛
如下圖所示,在對(duì)抗車(chē)輛選擇任務(wù)中,VLM關(guān)鍵車(chē)輛選擇器通過(guò)多視角畫(huà)面推理交通關(guān)系,有效的分析場(chǎng)景并且選擇了合適的安全關(guān)鍵車(chē)輛。
如下表所示,VLM關(guān)鍵車(chē)輛選擇器兼顧了精度與召回率,識(shí)別出的目標(biāo)車(chē)輛更符合真實(shí)交通邏輯,明顯優(yōu)于基線方法。這保證了后續(xù)生成的安全關(guān)鍵車(chē)輛模擬的高效率以及場(chǎng)景的豐富度。
作者介紹
本文由浙江大學(xué)與哈工大(深圳)的研究團(tuán)隊(duì)共同完成,感謝所有參與的作者。以下為部分作者簡(jiǎn)介:
周家葳,哈工大(深圳)碩士研究生,研究方向?yàn)樽詣?dòng)駕駛內(nèi)容生成與世界模型。
呂林燁,哈工大(深圳)博士研究生,主要關(guān)注人工智能安全,涵蓋自動(dòng)駕駛與大語(yǔ)言模型。
李渝,浙江大學(xué)「百人計(jì)劃」研究員,長(zhǎng)期從事人工智能軟硬件安全與測(cè)試方法研究。
參考資料:
https://arxiv.org/abs/2505.17727
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.