網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

理想的AI司機，開始強化學習了

2025-07-30 15:41:11　來源: 智能車參考

北京舉報

分享至

一凡發(fā)自副駕寺
智能車參考 | 公眾號 AI4Auto

VLM的兩大瓶頸，有了新的突破方法。

最近，上海期智研究院、理想汽車、同濟大學和清華大學等單位合作，提出自動駕駛智能體DriveAgent-R1，讓模型不再是被動地接受數(shù)據(jù)，而是用主動感知機制，從底層邏輯上重塑自動駕駛。

然后結(jié)合混合思維框架，讓DriveAgent-R1實現(xiàn)了多項SOTA，甚至超越了Claude Sonnet 4等頂尖的多模態(tài)大模型。

這項工作意味著理想的AI司機也開始強化學習了。強化學習在行業(yè)內(nèi)已形成廣泛共識，對于提升自動駕駛性能起到了關(guān)鍵作用。從L2到L4，自動駕駛已進入強化學習時間。

主動感知+混合思維，打破VLM兩大瓶頸

VLM（Vision-Language-Model視覺語言模型）已成為行業(yè)最火熱的方向之一，然而VLM存在決策短視被動感知兩大限制，影響了自動駕駛在復雜環(huán)境下的可靠性。

為了解決上述問題，研究團隊前天發(fā)布論文，提出了自動駕駛智能體DriveAgent-R1，通過引入混合思維框架主動感知機制讓智能體具備了長時程、高層級決策能力。

混合思維（Hybrid-Thinking）框架是指DriveAgent-R1正式推理前，會根據(jù)輸入的多模態(tài)數(shù)據(jù)判斷當前視覺信息是否充足，選擇思考模式。

如果是信息充足的簡單場景，就用純文本推理，高效快速。如果不足，就調(diào)用外部視覺工具補充信息，輔助文本推理。

有點像是「智能體的插混系統(tǒng)」，“可油可電”，具體看場景需求。

主動感知（Active Perception）機制則是讓智能體主動探查環(huán)境，感知不確定因素。這與以往相關(guān)成果在底層邏輯上不同

過去的自動駕駛系統(tǒng)，大多是被動接受場景數(shù)據(jù)，能讀懂限速和導航相關(guān)的文本指令，理解場景的視覺信息，但容易忽略視覺細節(jié)，比如模糊的指示牌這種不確定信息。

DriveAgent-R1遇到相關(guān)場景時，則會主動地多看或者“湊近看”，確定信息。這種底層邏輯上的改變，讓DriveAgent-R1實現(xiàn)了深度視覺依賴，使決策更加魯棒和有據(jù)可依，有了媲美人類老司機的可能。

兩大創(chuàng)新結(jié)合賦予了DriveAgent-R1強大能力，在多個數(shù)據(jù)集上實現(xiàn)SOTA。

具體是怎樣實現(xiàn)的？

DriveAgent-R1的實現(xiàn)

DriveAgent-R1以Qwen2.5-VL-3B為底座，用到了8張H20 GPU?？傮w上通過視覺編碼器處理6路環(huán)視攝像頭輸入的視覺信息，通過語言解碼器處理車速和導航等文本指令，最終輸出一個8秒長時程駕駛意圖的決策

“決策”表現(xiàn)為一個含有4個元動作的序列，每個元動作由速度和軌跡兩部分組成，速度包括加速、減速、保持和停止4種選擇，軌跡則有直行、左轉(zhuǎn)和右轉(zhuǎn)。

具體分步來看，DriveAgent-R1的訓練采用了「三階段漸進式訓練策略」，核心是強化學習。

第一階段雙模式監(jiān)督微調(diào) (DM-SFT)，設(shè)計一個自動化數(shù)據(jù)構(gòu)建流水線。

首先通過一個“工具調(diào)用必要性評估”將原始數(shù)據(jù)劃分為工具必需集和工具非必需集。然后使用強大的72B“教師模型”為數(shù)據(jù)進行逆向推理式CoT標注，最后通過規(guī)則進行清洗，構(gòu)建高質(zhì)量的冷啟動SFT數(shù)據(jù)集。

第二階段是強制對比模式強化學習(FCM-RL)，提出模式分區(qū)GRPO (MP-GRPO)算法，對每個輸入，我們強制智能體生成兩種模式的響應(yīng)組，從而創(chuàng)造出一種多維度的對比學習信號，強化模型在不同思考模式下的獨立思考能力，避免對某種模式產(chǎn)生偏見。獎勵函數(shù)由準確性和格式一致性組成。

第三階段是自適應(yīng)模式選擇強化學習 (AMS-RL)，移除了模式強制約束，采用原生的GRPO算法。智能體必須自主選擇合適的思維方式，讓其可根據(jù)上下文自主選擇最優(yōu)的思維模式，實現(xiàn)真正的混合思維。獎勵函數(shù)在第二階段的基礎(chǔ)上，增加動態(tài)獎勵窗口，在訓練初期鼓勵探索工具的使用，在后期則要求高精度的、有影響力的工具使用。

模型測試時，會先輸入多模態(tài)數(shù)據(jù)，然后判斷當前視覺信息是否充足，再從兩種思考模式中做出選擇。

簡單的常規(guī)場景，模型生成特殊token激活文本M-CoT模式，完全依賴初始輸入和內(nèi)部知識進行純文本推理。

復雜或不確定場景，生成特殊token激活工具M-CoT模式。這種情況下，R1會主動調(diào)用外部視覺工具，也就是主動感知，獲取更多補充信息

視覺工具主要有以下4種：

獲取高分辨率視圖 (Retrieve High-Resolution View): 智能體緩存了過去5秒所有視角的圖像，可以按需請求任一特定視角的高分辨率圖像。緩存圖像而不是存儲視頻序列，節(jié)省了內(nèi)存和計算成本。
關(guān)鍵區(qū)域檢查 (RoI Inspection): 相當于給了智能體一個“放大鏡”，它可按需框出特定感興趣區(qū)域，主動檢查，確認關(guān)鍵細節(jié)信息，比如遠方的紅綠燈或者路牌文字。
深度估計（Depth Estimation）：利用單目深度估計讓模型直觀地掌握物體的相對距離和空間布局。
3D物體檢測 (3D Object Detection):集成一個開放詞匯表單目3D物體檢測工具，常規(guī)物體和場景中新出現(xiàn)的對象都能檢測。

具體實現(xiàn)過程以一個場景為例，比如晚上在沒有路燈的小路上行駛，模型意識到非常規(guī)場景后，進入工具M-CoT模式，調(diào)用外部工具。

然后返回的圖像顯示前面是個路口，有交通標識而且路上有碎石，需要謹慎駕駛。

接著模型開始推理，發(fā)現(xiàn)限速標志看不清，再次調(diào)用工具放大看，發(fā)現(xiàn)限速30，決定減速，同時稍稍往右打方向，躲開碎石。

最后輸出包含4個元動作的決策序列。

這項工作也指出了一些還需要優(yōu)化的地方，比如外部工具還太少，未來可以集成天氣感知模塊應(yīng)對暴雪和大雨這種惡劣天氣。生成的軌跡目前也是離散的元動作序列，沒有直接生成低層連續(xù)軌跡等。

但總的來說，這項工作提供了很多前沿思考，通過實驗驗證了主動獲取視覺信息是VLM的有前景的一個方向，以及強化學習對釋放智能體的潛力來說，至關(guān)重要。

強化學習既是這項工作的靈魂所在，也是2025年智能輔助駕駛行業(yè)加速上車的新范式。

華為ADS 4的車端模型將強化學習和深度學習結(jié)合，小鵬汽車走向了強化學習和模型蒸餾路線，Momenta今年要打造基于強化學習的一段式端到端，地平線則認為通過強化學習更能理解物理規(guī)律……

無論是供應(yīng)商還是主機廠，無論是目前專精算法還是軟硬結(jié)合，不同背景的頭部玩家押注了同一條路線。

All in L4的玩家對此認知更早，小馬智行樓教主曾透露，其在2020年就意識到要轉(zhuǎn)向強化學習，他當時認為：

模仿學習天花板太低，做不到L4。

從模仿學習到強化學習，是AI司機從“類人”到“超人”的轉(zhuǎn)變。強化學習大規(guī)模上車，也意味著L2和L4正在邁入同一條河流，漸進式升維路線，自此開始加速演化。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.