一凡 發(fā)自 副駕寺
智能車參考 | 公眾號 AI4Auto
VLM的兩大瓶頸,有了新的突破方法。
最近,上海期智研究院、理想汽車、同濟大學和清華大學等單位合作,提出自動駕駛智能體DriveAgent-R1,讓模型不再是被動地接受數(shù)據(jù),而是用主動感知機制,從底層邏輯上重塑自動駕駛。
然后結(jié)合混合思維框架,讓DriveAgent-R1實現(xiàn)了多項SOTA,甚至超越了Claude Sonnet 4等頂尖的多模態(tài)大模型。
這項工作意味著理想的AI司機也開始強化學習了。強化學習在行業(yè)內(nèi)已形成廣泛共識,對于提升自動駕駛性能起到了關(guān)鍵作用。從L2到L4,自動駕駛已進入強化學習時間。
主動感知+混合思維,打破VLM兩大瓶頸
VLM(Vision-Language-Model視覺語言模型)已成為行業(yè)最火熱的方向之一,然而VLM存在決策短視被動感知兩大限制,影響了自動駕駛在復雜環(huán)境下的可靠性。
為了解決上述問題,研究團隊前天發(fā)布論文,提出了自動駕駛智能體DriveAgent-R1,通過引入混合思維框架主動感知機制讓智能體具備了長時程、高層級決策能力。
混合思維(Hybrid-Thinking)框架是指DriveAgent-R1正式推理前,會根據(jù)輸入的多模態(tài)數(shù)據(jù)判斷當前視覺信息是否充足,選擇思考模式。
如果是信息充足的簡單場景,就用純文本推理,高效快速。如果不足,就調(diào)用外部視覺工具補充信息,輔助文本推理。
有點像是「智能體的插混系統(tǒng)」,“可油可電”,具體看場景需求。
主動感知(Active Perception)機制則是讓智能體主動探查環(huán)境,感知不確定因素。這與以往相關(guān)成果在底層邏輯上不同
過去的自動駕駛系統(tǒng),大多是被動接受場景數(shù)據(jù),能讀懂限速和導航相關(guān)的文本指令,理解場景的視覺信息,但容易忽略視覺細節(jié),比如模糊的指示牌這種不確定信息。
DriveAgent-R1遇到相關(guān)場景時,則會主動地多看或者“湊近看”,確定信息。這種底層邏輯上的改變,讓DriveAgent-R1實現(xiàn)了深度視覺依賴,使決策更加魯棒和有據(jù)可依,有了媲美人類老司機的可能。
兩大創(chuàng)新結(jié)合賦予了DriveAgent-R1強大能力,在多個數(shù)據(jù)集上實現(xiàn)SOTA。
具體是怎樣實現(xiàn)的?
DriveAgent-R1的實現(xiàn)
DriveAgent-R1以Qwen2.5-VL-3B為底座,用到了8張H20 GPU??傮w上通過視覺編碼器處理6路環(huán)視攝像頭輸入的視覺信息,通過語言解碼器處理車速和導航等文本指令,最終輸出一個8秒長時程駕駛意圖的決策
“決策”表現(xiàn)為一個含有4個元動作的序列,每個元動作由速度和軌跡兩部分組成,速度包括加速、減速、保持和停止4種選擇,軌跡則有直行、左轉(zhuǎn)和右轉(zhuǎn)。
具體分步來看,DriveAgent-R1的訓練采用了「三階段漸進式訓練策略」,核心是強化學習。
第一階段雙模式監(jiān)督微調(diào) (DM-SFT),設(shè)計一個自動化數(shù)據(jù)構(gòu)建流水線。
首先通過一個“工具調(diào)用必要性評估”將原始數(shù)據(jù)劃分為工具必需集和工具非必需集。然后使用強大的72B“教師模型”為數(shù)據(jù)進行逆向推理式CoT標注,最后通過規(guī)則進行清洗,構(gòu)建高質(zhì)量的冷啟動SFT數(shù)據(jù)集。
第二階段是強制對比模式強化學習(FCM-RL),提出模式分區(qū)GRPO (MP-GRPO)算法,對每個輸入,我們強制智能體生成兩種模式的響應(yīng)組,從而創(chuàng)造出一種多維度的對比學習信號,強化模型在不同思考模式下的獨立思考能力,避免對某種模式產(chǎn)生偏見。獎勵函數(shù)由準確性和格式一致性組成。
第三階段是自適應(yīng)模式選擇強化學習 (AMS-RL),移除了模式強制約束,采用原生的GRPO算法。智能體必須自主選擇合適的思維方式,讓其可根據(jù)上下文自主選擇最優(yōu)的思維模式,實現(xiàn)真正的混合思維。獎勵函數(shù)在第二階段的基礎(chǔ)上,增加動態(tài)獎勵窗口,在訓練初期鼓勵探索工具的使用,在后期則要求高精度的、有影響力的工具使用。
模型測試時,會先輸入多模態(tài)數(shù)據(jù),然后判斷當前視覺信息是否充足,再從兩種思考模式中做出選擇。
簡單的常規(guī)場景,模型生成特殊token激活文本M-CoT模式,完全依賴初始輸入和內(nèi)部知識進行純文本推理。
復雜或不確定場景,生成特殊token激活工具M-CoT模式。這種情況下,R1會主動調(diào)用外部視覺工具,也就是主動感知,獲取更多補充信息
視覺工具主要有以下4種:
- 獲取高分辨率視圖 (Retrieve High-Resolution View): 智能體緩存了過去5秒所有視角的圖像,可以按需請求任一特定視角的高分辨率圖像。緩存圖像而不是存儲視頻序列,節(jié)省了內(nèi)存和計算成本。
- 關(guān)鍵區(qū)域檢查 (RoI Inspection): 相當于給了智能體一個“放大鏡”,它可按需框出特定感興趣區(qū)域,主動檢查,確認關(guān)鍵細節(jié)信息,比如遠方的紅綠燈或者路牌文字。
- 深度估計(Depth Estimation):利用單目深度估計讓模型直觀地掌握物體的相對距離和空間布局。
- 3D物體檢測 (3D Object Detection):集成一個開放詞匯表單目3D物體檢測工具,常規(guī)物體和場景中新出現(xiàn)的對象都能檢測。
具體實現(xiàn)過程以一個場景為例,比如晚上在沒有路燈的小路上行駛,模型意識到非常規(guī)場景后,進入工具M-CoT模式,調(diào)用外部工具。
然后返回的圖像顯示前面是個路口,有交通標識而且路上有碎石,需要謹慎駕駛。
接著模型開始推理,發(fā)現(xiàn)限速標志看不清,再次調(diào)用工具放大看,發(fā)現(xiàn)限速30,決定減速,同時稍稍往右打方向,躲開碎石。
最后輸出包含4個元動作的決策序列。
這項工作也指出了一些還需要優(yōu)化的地方,比如外部工具還太少,未來可以集成天氣感知模塊應(yīng)對暴雪和大雨這種惡劣天氣。生成的軌跡目前也是離散的元動作序列,沒有直接生成低層連續(xù)軌跡等。
但總的來說,這項工作提供了很多前沿思考,通過實驗驗證了主動獲取視覺信息是VLM的有前景的一個方向,以及強化學習對釋放智能體的潛力來說,至關(guān)重要。
強化學習既是這項工作的靈魂所在,也是2025年智能輔助駕駛行業(yè)加速上車的新范式。
華為ADS 4的車端模型將強化學習和深度學習結(jié)合,小鵬汽車走向了強化學習和模型蒸餾路線,Momenta今年要打造基于強化學習的一段式端到端,地平線則認為通過強化學習更能理解物理規(guī)律……
無論是供應(yīng)商還是主機廠,無論是目前專精算法還是軟硬結(jié)合,不同背景的頭部玩家押注了同一條路線。
All in L4的玩家對此認知更早,小馬智行樓教主曾透露,其在2020年就意識到要轉(zhuǎn)向強化學習,他當時認為:
- 模仿學習天花板太低,做不到L4。
從模仿學習到強化學習,是AI司機從“類人”到“超人”的轉(zhuǎn)變。強化學習大規(guī)模上車,也意味著L2和L4正在邁入同一條河流,漸進式升維路線,自此開始加速演化。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.