網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

真實(shí)場(chǎng)景也能批量造「險(xiǎn)」！VLM+擴(kuò)散模型打造真實(shí)域自動(dòng)駕駛極限測(cè)試

2025-08-25 11:10:09　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：LRST

【新智元導(dǎo)讀】浙江大學(xué)與哈工大（深圳）聯(lián)合推出SafeMVDrive，利用擴(kuò)散模型結(jié)合VLM實(shí)現(xiàn)批量化多視角真實(shí)域的安全關(guān)鍵視頻生成。該方法在保持畫(huà)質(zhì)與真實(shí)感的同時(shí)，顯著增強(qiáng)了駕駛場(chǎng)景的危險(xiǎn)性。生成的場(chǎng)景用于端到端自動(dòng)駕駛系統(tǒng)的極限壓測(cè)，可使得模型的碰撞率提升50倍。

近期，懂車(chē)帝的《懂車(chē)智煉場(chǎng)》欄目對(duì)量產(chǎn)自動(dòng)駕駛系統(tǒng)的NOA輔助駕駛功能進(jìn)行了安全關(guān)鍵場(chǎng)景測(cè)試。

結(jié)果顯示，在黑夜施工工地、高速公路前方車(chē)輛發(fā)生事故以及障礙物后突然駛出車(chē)輛等高風(fēng)險(xiǎn)場(chǎng)景中，目前尚無(wú)任何系統(tǒng)能夠在測(cè)試中做到完全避免事故。

這類(lèi)安全關(guān)鍵場(chǎng)景在真實(shí)道路上雖不常見(jiàn)，但一旦發(fā)生，可能導(dǎo)致人員傷亡或嚴(yán)重交通事故。

為了提升自動(dòng)駕駛系統(tǒng)在此類(lèi)情境下的可靠性，必須在多樣化且高風(fēng)險(xiǎn)的安全關(guān)鍵場(chǎng)景中進(jìn)行廣泛測(cè)試。

然而，這類(lèi)極端場(chǎng)景在現(xiàn)實(shí)中采集難度極高——發(fā)生頻率低、風(fēng)險(xiǎn)大、難以批量獲取。

在仿真環(huán)境中，類(lèi)似的場(chǎng)景雖然可以批量制造，但現(xiàn)有模擬器在畫(huà)面真實(shí)度上與現(xiàn)實(shí)仍有差距，難以直接用于真實(shí)域下端到端系統(tǒng)的極限測(cè)試。

為此，來(lái)自浙江大學(xué)與與哈工大（深圳）的研究團(tuán)隊(duì)提出了SafeMVDrive——首個(gè)面向真實(shí)域的多視角安全關(guān)鍵駕駛視頻生成框架。

它將VLM關(guān)鍵車(chē)輛選擇器與兩階段軌跡生成結(jié)合，驅(qū)動(dòng)多視角視頻生成模型，在真實(shí)域中實(shí)現(xiàn)批量制造高保真安全關(guān)鍵視頻，可用于對(duì)端到端自動(dòng)駕駛系統(tǒng)的安全性測(cè)試。

論文地址：https://arxiv.org/abs/2505.17727

項(xiàng)目地址：https://zhoujiawei3.github.io/SafeMVDrive/

代碼地址：https://github.com/zhoujiawei3/SafeMVDrive

數(shù)據(jù)集地址：https://huggingface.co/datasets/JiaweiZhou/SafeMVDrive

為了實(shí)現(xiàn)高質(zhì)量真實(shí)域多視角安全關(guān)鍵場(chǎng)景，研究人員首先嘗試將安全軌跡模擬與多視角視頻生成模型結(jié)合，用真實(shí)域視頻驅(qū)動(dòng)極限測(cè)試。然而在實(shí)踐中，他們發(fā)現(xiàn)存在兩大挑戰(zhàn)：

一是安全關(guān)鍵車(chē)輛的選擇?，F(xiàn)有方法大多依賴(lài)簡(jiǎn)單的啟發(fā)式規(guī)則（如選擇最近車(chē)輛），缺乏對(duì)場(chǎng)景關(guān)系的視覺(jué)理解，容易選錯(cuò)目標(biāo)車(chē)輛，導(dǎo)致生成場(chǎng)景的安全關(guān)鍵性不足或生成失?。?/p>

二是多視角視頻生成模型的泛化性問(wèn)題。由于現(xiàn)有模型在訓(xùn)練時(shí)幾乎沒(méi)有接觸過(guò)碰撞或近距離互動(dòng)等極端場(chǎng)景數(shù)據(jù)，在這些情況下的生成質(zhì)量明顯下降。

為此，研究團(tuán)隊(duì)提出了兩項(xiàng)關(guān)鍵創(chuàng)新：

VLM關(guān)鍵車(chē)輛選擇器：引入經(jīng)過(guò)GRPO微調(diào)的視覺(jué)語(yǔ)言模型，從多視角真實(shí)畫(huà)面中推理交通互動(dòng)關(guān)系，精準(zhǔn)識(shí)別最有可能制造危險(xiǎn)的對(duì)抗車(chē)輛；
雙階段軌跡生成：先生成符合物理規(guī)律的碰撞軌跡，再轉(zhuǎn)化為「接近碰撞但成功規(guī)避」的軌跡，既保留緊張刺激的安全關(guān)鍵特征，又保持視頻生成的高保真度。

SafeMVDrive能夠批量生成高保真、多視角的安全關(guān)鍵駕駛視頻，顯著提高極端場(chǎng)景的覆蓋率，并在保持畫(huà)質(zhì)與真實(shí)感的同時(shí)，為端到端自動(dòng)駕駛系統(tǒng)的極限壓測(cè)提供更具挑戰(zhàn)性的測(cè)試數(shù)據(jù)。

效果展示

對(duì)于給定的多視角圖像，SafeMVDrive能夠在真實(shí)域生成高質(zhì)量的安全關(guān)鍵多視角視頻，其中不僅包含目標(biāo)車(chē)輛的安全關(guān)鍵行為（如加塞、急剎、后方突然加速），還呈現(xiàn)出自車(chē)（當(dāng)前多視角攝像機(jī)安裝車(chē)輛）的相應(yīng)規(guī)避動(dòng)作。

側(cè)方車(chē)輛突然加塞，自車(chē)輕微向右轉(zhuǎn)向避讓

后方車(chē)輛突然加速，自車(chē)向左變道以躲避

后方車(chē)輛突然加速，自車(chē)同步提速進(jìn)行規(guī)避

前方車(chē)輛突然減速，自車(chē)變道并減速避讓

如下圖所示，相比于將開(kāi)源數(shù)據(jù)集中的自然軌跡用于多視角視頻生成模型（Origin），以及簡(jiǎn)單的將碰撞軌跡模擬生成的軌跡與多視角視頻生成模型結(jié)合（Naive）而言，SafeMVDrive兼顧視頻真實(shí)性質(zhì)量以及場(chǎng)景危險(xiǎn)性。

第一列自然軌跡生成的視頻較常見(jiàn)，第二列碰撞軌跡生成的視頻未段車(chē)輛變形失真，第三列本框架生成的視頻兼具真實(shí)性與安全關(guān)鍵性

方法概述

SafeMVDrive的核心目標(biāo)，是從一個(gè)給定的初始場(chǎng)景中批量生成真實(shí)域多視角安全關(guān)鍵駕駛視頻。

整個(gè)方法由三大模塊組成：

VLM車(chē)輛選擇器：多視角畫(huà)面中鎖定安全關(guān)鍵車(chē)

在極端駕駛場(chǎng)景的構(gòu)造中，第一步是決定哪輛車(chē)會(huì)對(duì)自車(chē)構(gòu)成威脅。

傳統(tǒng)方法常依賴(lài)非視覺(jué)信息即數(shù)據(jù)集標(biāo)注并結(jié)合啟發(fā)式規(guī)則（如距離最近的車(chē)輛）選擇。這種簡(jiǎn)單的規(guī)則往往無(wú)法覆蓋復(fù)雜的交通場(chǎng)景，并且可能因?yàn)閿?shù)據(jù)集漏標(biāo)注導(dǎo)致選擇的車(chē)輛無(wú)法以自然的軌跡與自車(chē)發(fā)生碰撞。

如下圖所示，右圖展示的是非視覺(jué)信息即數(shù)據(jù)集標(biāo)注，失去了對(duì)于安全關(guān)鍵車(chē)輛信息判斷至關(guān)重要的障礙物標(biāo)注，導(dǎo)致傳統(tǒng)的啟發(fā)式規(guī)則方法錯(cuò)誤判斷認(rèn)為大巴可以與自車(chē)發(fā)生自然軌跡的碰撞，實(shí)際上其并無(wú)法繞過(guò)障礙物與自車(chē)發(fā)生碰撞。

研究人員提出利用初始場(chǎng)景的多視角圖像中的視覺(jué)信息，配合VLM的場(chǎng)景理解能力實(shí)現(xiàn)更有效的安全關(guān)鍵車(chē)輛選擇。

首先，研究人員利用碰撞軌跡模擬自動(dòng)化生成「初始場(chǎng)景——安全關(guān)鍵車(chē)輛」配對(duì)數(shù)據(jù)集，之后利用GRPO算法微調(diào)VLM，最終地得到了基于VLM的安全關(guān)鍵車(chē)輛選擇器。

雙階段軌跡生成：從「碰撞」到「規(guī)避」

現(xiàn)有安全關(guān)鍵軌跡生成方法多以制造碰撞事件為目標(biāo)，但由于當(dāng)前多視角視頻生成器缺乏真實(shí)多視角碰撞數(shù)據(jù)，這類(lèi)碰撞控制信號(hào)往往導(dǎo)致生成畫(huà)質(zhì)下降。

為此，研究人員提出雙階段規(guī)避軌跡生成策略，在保留安全關(guān)鍵特征的同時(shí)生成可被現(xiàn)有視頻生成器真實(shí)渲染的規(guī)避場(chǎng)景。

第一階段為碰撞軌跡模擬：基于可控?cái)U(kuò)散軌跡生成模型，從初始單幀場(chǎng)景出發(fā)，通過(guò)test-time loss guidance引導(dǎo)對(duì)抗車(chē)輛與自車(chē)發(fā)生有效碰撞。研究人員設(shè)計(jì)了三類(lèi)損失：

對(duì)抗損失：在碰撞發(fā)生前按時(shí)間衰減加權(quán)，最小化兩車(chē)間距離，鼓勵(lì)對(duì)抗車(chē)輛快速逼近自車(chē)，并在碰撞后將損失置零以避免不自然的「粘連」行為；

無(wú)碰損失：約束除自車(chē)與對(duì)抗車(chē)輛外的其他車(chē)輛避免碰撞；

在路損失：懲罰駛?cè)敕强尚旭倕^(qū)域的軌跡，保持交通合理性。

第二階段為規(guī)避軌跡轉(zhuǎn)化：在保持第一階段所有非自車(chē)軌跡不變的前提下，僅更新自車(chē)軌跡，并以無(wú)碰損失和在路損失引導(dǎo)自車(chē)規(guī)避對(duì)抗車(chē)輛，從而將原本的碰撞場(chǎng)景自然轉(zhuǎn)化為安全關(guān)鍵的規(guī)避場(chǎng)景。

這種方式既保留了對(duì)抗車(chē)輛的威脅性動(dòng)作，又確保了生成結(jié)果的真實(shí)感和物理合理性。

最終，經(jīng)過(guò)篩選的規(guī)避軌跡被用于驅(qū)動(dòng)多視角視頻生成器，得到兼具安全關(guān)鍵性與視覺(jué)真實(shí)感的駕駛視頻。

多視角視頻生成：真實(shí)域合成高保真「險(xiǎn)情」

在SafeMVDrive的最后一步，研究團(tuán)隊(duì)采用了多視角視頻生成模塊，將雙階段軌跡生成器輸出的「規(guī)避型」安全關(guān)鍵軌跡轉(zhuǎn)化為高保真真實(shí)域視頻。

具體來(lái)說(shuō)，他們選用UniMLVG作為骨干網(wǎng)絡(luò)，該模型不僅支持顯式控制自車(chē)與周?chē)?chē)輛的運(yùn)動(dòng)軌跡，還能在較長(zhǎng)時(shí)間跨度內(nèi)保持視頻質(zhì)量穩(wěn)定。

轉(zhuǎn)換過(guò)程中，生成的規(guī)避軌跡會(huì)被編碼成逐幀控制信號(hào)（3D邊界框、高清地圖、相機(jī)參數(shù)），并結(jié)合多視角初始幀與時(shí)間及天氣文本描述輸入視頻生成器。

由于安全關(guān)鍵場(chǎng)景持續(xù)時(shí)間較長(zhǎng)，SafeMVDrive采用自回歸滾動(dòng)生成方式：每段視頻的最后一幀作為下一段的起始幀，對(duì)應(yīng)時(shí)間窗口的控制信號(hào)則用于引導(dǎo)后續(xù)生成。

通過(guò)這種迭代，完整的碰撞規(guī)避軌跡最終被渲染為真實(shí)域的多視角「險(xiǎn)情」視頻，兼顧安全關(guān)鍵性與畫(huà)面真實(shí)感

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)從兩個(gè)方面進(jìn)行了評(píng)估：生成視頻的真實(shí)感與安全關(guān)鍵性，以及對(duì)抗車(chē)輛選擇的準(zhǔn)確度。

高保真危險(xiǎn)場(chǎng)景批量生成

如下表所示，SafeMVDrive在生成真實(shí)域多視角視頻的同時(shí)，顯著提升了安全關(guān)鍵場(chǎng)景的覆蓋率和多樣性。

在碰撞率指標(biāo)上，它生成的場(chǎng)景比開(kāi)源數(shù)據(jù)集中自然軌跡用于多視角視頻生成模型（Origin）更具挑戰(zhàn)性，且在保持高碰撞率的同時(shí)，畫(huà)質(zhì)與真實(shí)感依然接近真實(shí)視頻，遠(yuǎn)優(yōu)于將碰撞軌跡模擬生成的軌跡直接與多視角視頻生成模型結(jié)合生成的視頻（Naive）。

精準(zhǔn)鎖定安全關(guān)鍵車(chē)輛

如下圖所示，在對(duì)抗車(chē)輛選擇任務(wù)中，VLM關(guān)鍵車(chē)輛選擇器通過(guò)多視角畫(huà)面推理交通關(guān)系，有效的分析場(chǎng)景并且選擇了合適的安全關(guān)鍵車(chē)輛。

如下表所示，VLM關(guān)鍵車(chē)輛選擇器兼顧了精度與召回率，識(shí)別出的目標(biāo)車(chē)輛更符合真實(shí)交通邏輯，明顯優(yōu)于基線方法。這保證了后續(xù)生成的安全關(guān)鍵車(chē)輛模擬的高效率以及場(chǎng)景的豐富度。

作者介紹

本文由浙江大學(xué)與哈工大（深圳）的研究團(tuán)隊(duì)共同完成，感謝所有參與的作者。以下為部分作者簡(jiǎn)介：

周家葳，哈工大（深圳）碩士研究生，研究方向?yàn)樽詣?dòng)駕駛內(nèi)容生成與世界模型。

呂林燁，哈工大（深圳）博士研究生，主要關(guān)注人工智能安全，涵蓋自動(dòng)駕駛與大語(yǔ)言模型。

李渝，浙江大學(xué)「百人計(jì)劃」研究員，長(zhǎng)期從事人工智能軟硬件安全與測(cè)試方法研究。

參考資料：

https://arxiv.org/abs/2505.17727

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.