成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

理想的AI司機,開始強化學習了

0
分享至

一凡 發(fā)自 副駕寺
智能車參考 | 公眾號 AI4Auto

VLM的兩大瓶頸,有了新的突破方法。

最近,上海期智研究院、理想汽車、同濟大學和清華大學等單位合作,提出自動駕駛智能體DriveAgent-R1,讓模型不再是被動地接受數(shù)據(jù),而是用主動感知機制,從底層邏輯上重塑自動駕駛。



然后結(jié)合混合思維框架,讓DriveAgent-R1實現(xiàn)了多項SOTA,甚至超越了Claude Sonnet 4等頂尖的多模態(tài)大模型。

這項工作意味著理想的AI司機也開始強化學習了。強化學習在行業(yè)內(nèi)已形成廣泛共識,對于提升自動駕駛性能起到了關(guān)鍵作用。從L2到L4,自動駕駛已進入強化學習時間。

主動感知+混合思維,打破VLM兩大瓶頸

VLM(Vision-Language-Model視覺語言模型)已成為行業(yè)最火熱的方向之一,然而VLM存在決策短視被動感知兩大限制,影響了自動駕駛在復雜環(huán)境下的可靠性。

為了解決上述問題,研究團隊前天發(fā)布論文,提出了自動駕駛智能體DriveAgent-R1,通過引入混合思維框架主動感知機制讓智能體具備了長時程、高層級決策能力。

混合思維(Hybrid-Thinking)框架是指DriveAgent-R1正式推理前,會根據(jù)輸入的多模態(tài)數(shù)據(jù)判斷當前視覺信息是否充足,選擇思考模式。

如果是信息充足的簡單場景,就用純文本推理,高效快速。如果不足,就調(diào)用外部視覺工具補充信息,輔助文本推理。

有點像是「智能體的插混系統(tǒng)」,“可油可電”,具體看場景需求。

主動感知(Active Perception)機制則是讓智能體主動探查環(huán)境,感知不確定因素。這與以往相關(guān)成果在底層邏輯上不同

過去的自動駕駛系統(tǒng),大多是被動接受場景數(shù)據(jù),能讀懂限速和導航相關(guān)的文本指令,理解場景的視覺信息,但容易忽略視覺細節(jié),比如模糊的指示牌這種不確定信息。

DriveAgent-R1遇到相關(guān)場景時,則會主動地多看或者“湊近看”,確定信息。這種底層邏輯上的改變,讓DriveAgent-R1實現(xiàn)了深度視覺依賴,使決策更加魯棒和有據(jù)可依,有了媲美人類老司機的可能。

兩大創(chuàng)新結(jié)合賦予了DriveAgent-R1強大能力,在多個數(shù)據(jù)集上實現(xiàn)SOTA。



具體是怎樣實現(xiàn)的?

DriveAgent-R1的實現(xiàn)

DriveAgent-R1以Qwen2.5-VL-3B為底座,用到了8張H20 GPU??傮w上通過視覺編碼器處理6路環(huán)視攝像頭輸入的視覺信息,通過語言解碼器處理車速和導航等文本指令,最終輸出一個8秒長時程駕駛意圖的決策



“決策”表現(xiàn)為一個含有4個元動作的序列,每個元動作由速度和軌跡兩部分組成,速度包括加速、減速、保持和停止4種選擇,軌跡則有直行、左轉(zhuǎn)和右轉(zhuǎn)。

具體分步來看,DriveAgent-R1的訓練采用了「三階段漸進式訓練策略」,核心是強化學習。



第一階段雙模式監(jiān)督微調(diào) (DM-SFT),設(shè)計一個自動化數(shù)據(jù)構(gòu)建流水線。

首先通過一個“工具調(diào)用必要性評估”將原始數(shù)據(jù)劃分為工具必需集和工具非必需集。然后使用強大的72B“教師模型”為數(shù)據(jù)進行逆向推理式CoT標注,最后通過規(guī)則進行清洗,構(gòu)建高質(zhì)量的冷啟動SFT數(shù)據(jù)集。



第二階段是強制對比模式強化學習(FCM-RL),提出模式分區(qū)GRPO (MP-GRPO)算法,對每個輸入,我們強制智能體生成兩種模式的響應(yīng)組,從而創(chuàng)造出一種多維度的對比學習信號,強化模型在不同思考模式下的獨立思考能力,避免對某種模式產(chǎn)生偏見。獎勵函數(shù)由準確性和格式一致性組成。

第三階段是自適應(yīng)模式選擇強化學習 (AMS-RL),移除了模式強制約束,采用原生的GRPO算法。智能體必須自主選擇合適的思維方式,讓其可根據(jù)上下文自主選擇最優(yōu)的思維模式,實現(xiàn)真正的混合思維。獎勵函數(shù)在第二階段的基礎(chǔ)上,增加動態(tài)獎勵窗口,在訓練初期鼓勵探索工具的使用,在后期則要求高精度的、有影響力的工具使用。

模型測試時,會先輸入多模態(tài)數(shù)據(jù),然后判斷當前視覺信息是否充足,再從兩種思考模式中做出選擇。

簡單的常規(guī)場景,模型生成特殊token激活文本M-CoT模式,完全依賴初始輸入和內(nèi)部知識進行純文本推理。

復雜或不確定場景,生成特殊token激活工具M-CoT模式。這種情況下,R1會主動調(diào)用外部視覺工具,也就是主動感知,獲取更多補充信息



視覺工具主要有以下4種:

  • 獲取高分辨率視圖 (Retrieve High-Resolution View): 智能體緩存了過去5秒所有視角的圖像,可以按需請求任一特定視角的高分辨率圖像。緩存圖像而不是存儲視頻序列,節(jié)省了內(nèi)存和計算成本。
  • 關(guān)鍵區(qū)域檢查 (RoI Inspection): 相當于給了智能體一個“放大鏡”,它可按需框出特定感興趣區(qū)域,主動檢查,確認關(guān)鍵細節(jié)信息,比如遠方的紅綠燈或者路牌文字。
  • 深度估計(Depth Estimation):利用單目深度估計讓模型直觀地掌握物體的相對距離和空間布局。
  • 3D物體檢測 (3D Object Detection):集成一個開放詞匯表單目3D物體檢測工具,常規(guī)物體和場景中新出現(xiàn)的對象都能檢測。

具體實現(xiàn)過程以一個場景為例,比如晚上在沒有路燈的小路上行駛,模型意識到非常規(guī)場景后,進入工具M-CoT模式,調(diào)用外部工具。



然后返回的圖像顯示前面是個路口,有交通標識而且路上有碎石,需要謹慎駕駛。

接著模型開始推理,發(fā)現(xiàn)限速標志看不清,再次調(diào)用工具放大看,發(fā)現(xiàn)限速30,決定減速,同時稍稍往右打方向,躲開碎石。



最后輸出包含4個元動作的決策序列。



這項工作也指出了一些還需要優(yōu)化的地方,比如外部工具還太少,未來可以集成天氣感知模塊應(yīng)對暴雪和大雨這種惡劣天氣。生成的軌跡目前也是離散的元動作序列,沒有直接生成低層連續(xù)軌跡等。

但總的來說,這項工作提供了很多前沿思考,通過實驗驗證了主動獲取視覺信息是VLM的有前景的一個方向,以及強化學習對釋放智能體的潛力來說,至關(guān)重要。

強化學習既是這項工作的靈魂所在,也是2025年智能輔助駕駛行業(yè)加速上車的新范式。

華為ADS 4的車端模型將強化學習和深度學習結(jié)合,小鵬汽車走向了強化學習和模型蒸餾路線,Momenta今年要打造基于強化學習的一段式端到端,地平線則認為通過強化學習更能理解物理規(guī)律……

無論是供應(yīng)商還是主機廠,無論是目前專精算法還是軟硬結(jié)合,不同背景的頭部玩家押注了同一條路線。

All in L4的玩家對此認知更早,小馬智行樓教主曾透露,其在2020年就意識到要轉(zhuǎn)向強化學習,他當時認為:

  • 模仿學習天花板太低,做不到L4。

從模仿學習到強化學習,是AI司機從“類人”到“超人”的轉(zhuǎn)變。強化學習大規(guī)模上車,也意味著L2和L4正在邁入同一條河流,漸進式升維路線,自此開始加速演化。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中俄朝三國都明白了,打美軍航母已不重要:必須先打日本導彈基地

中俄朝三國都明白了,打美軍航母已不重要:必須先打日本導彈基地

南宮一二
2025-09-03 05:44:54
廣西又一官員被查!

廣西又一官員被查!

嶺南美玉
2025-09-04 13:46:39
東晉最裝逼的人

東晉最裝逼的人

漢周讀書
2025-08-19 14:28:10
去了趟山西,真心建議:別隨便去山西!除非你知道這些!

去了趟山西,真心建議:別隨便去山西!除非你知道這些!

晨星驛站
2025-08-22 17:15:07
豐田重磅出擊!5米大SUV狂降8萬,超省油2.5引擎讓漢蘭達黯然失色

豐田重磅出擊!5米大SUV狂降8萬,超省油2.5引擎讓漢蘭達黯然失色

小怪吃美食
2025-09-02 11:09:01
許世友正喝酒來電話,問:我是上將許世友你是誰?答:小兵周恩來

許世友正喝酒來電話,問:我是上將許世友你是誰?答:小兵周恩來

良工說
2025-09-04 00:53:34
九三盛大閱兵!霍啟剛姚明意外同框,鄭欽文太興奮,馬龍低調(diào)

九三盛大閱兵!霍啟剛姚明意外同框,鄭欽文太興奮,馬龍低調(diào)

180視角
2025-09-03 12:47:44
2025環(huán)上海新城自行車賽交通管制通告

2025環(huán)上海新城自行車賽交通管制通告

警民直通車上海
2025-09-01 14:30:58
價值幾萬的東西被新生家長扔了?吉林大四女生放假回來,床鋪被占了

價值幾萬的東西被新生家長扔了?吉林大四女生放假回來,床鋪被占了

趣筆談
2025-09-04 10:17:12
49歲劉國梁沒想到,告別乒協(xié)主席僅4個月,他再次迎來新身份

49歲劉國梁沒想到,告別乒協(xié)主席僅4個月,他再次迎來新身份

林輕吟
2025-08-18 09:08:36
4億買下的香港寫字樓,轉(zhuǎn)手賣給了恒大125億,李嘉誠只愿90億接盤

4億買下的香港寫字樓,轉(zhuǎn)手賣給了恒大125億,李嘉誠只愿90億接盤

科學發(fā)掘
2025-08-26 18:37:28
【山東頭條】涉嫌嚴重違紀違法,朱志強被查!

【山東頭條】涉嫌嚴重違紀違法,朱志強被查!

濟寧人
2025-09-04 15:16:27
被官媒點名、德不配位、目不識丁,難怪閱兵從不邀請“流量明星”

被官媒點名、德不配位、目不識丁,難怪閱兵從不邀請“流量明星”

查爾菲的筆記
2025-09-04 12:14:09
女子自稱“54歲阿姨考上中國政法大學研究生”,校方否認,目前該賬號已被禁言

女子自稱“54歲阿姨考上中國政法大學研究生”,校方否認,目前該賬號已被禁言

極目新聞
2025-09-04 09:37:04
河北千喜鶴飲食股份有限公司因涉嫌串通投標被暫停全軍采購資格

河北千喜鶴飲食股份有限公司因涉嫌串通投標被暫停全軍采購資格

齊魯壹點
2025-09-04 11:49:06
1945年日本戰(zhàn)敗,蔣介石放過岡村寧次,為何卻非殺酒井隆不可?

1945年日本戰(zhàn)敗,蔣介石放過岡村寧次,為何卻非殺酒井隆不可?

朝夕說史
2025-09-03 09:52:38
精瘦!利物浦曬伊薩克體檢視頻,后者身材遭調(diào)侃:罷訓還絕食了?

精瘦!利物浦曬伊薩克體檢視頻,后者身材遭調(diào)侃:罷訓還絕食了?

直播吧
2025-09-04 11:43:17
一張執(zhí)行令,扯下52歲董卿消失遮羞布,十年央視主持生涯功虧一簣

一張執(zhí)行令,扯下52歲董卿消失遮羞布,十年央視主持生涯功虧一簣

簡讀視覺
2025-04-24 15:10:03
烏茲別克斯坦:昔日蘇聯(lián)第三強國,卻陷入封閉,終受中國幫助解困

烏茲別克斯坦:昔日蘇聯(lián)第三強國,卻陷入封閉,終受中國幫助解困

WarOH協(xié)虎
2024-01-28 16:40:03
多地入冬!常州入秋時間在…

多地入冬!常州入秋時間在…

常州大喇叭
2025-09-04 17:10:03
2025-09-04 20:47:00
智能車參考 incentive-icons
智能車參考
在這里看懂智能車產(chǎn)業(yè)變革
1730文章數(shù) 3585關(guān)注度
往期回顧 全部

科技要聞

17999元起!華為發(fā)布三折疊屏手機新品

頭條要聞

金燦榮:九三閱兵"鋼多人少" 美國沒有的我們也都有了

頭條要聞

金燦榮:九三閱兵"鋼多人少" 美國沒有的我們也都有了

體育要聞

“他就像是身高2米的梅西”

娛樂要聞

墻倒眾人推!胡歌張譯的仇終于有人報

財經(jīng)要聞

A股久違的深跌出現(xiàn)了 下一步思路是什么

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

游戲
時尚
數(shù)碼
公開課
軍事航空

大話手游輸出神族強不強?輸出流神裔保姆級教學,全敏加點很靠譜

中年女人穿衣學會這3招,不扮嫩沒有油膩感,穿出從容和時髦

數(shù)碼要聞

追覓T60 Ultra體驗:首發(fā)“雙刮洗”機械臂,洗地太好用

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

全網(wǎng)獨家!九三閱兵全圖鑒

無障礙瀏覽 進入關(guān)懷版