成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

騰訊提出RLVMR框架,讓7B模型「思考」比肩GPT-4o

0
分享至



本論文的主要作者來自騰訊混元 AI 數(shù)字人團隊 (Tencent Hunyuan AI Digital Human)。該團隊致力于打造「有智商、有情商、有溫度的數(shù)字人」,旨在為用戶提供高度擬人、可信賴的數(shù)字伙伴,進而實現(xiàn)富有溫度與信任的情感交互。

自主智能體(Agents)正朝著能夠處理復(fù)雜長程任務(wù)(Long-Horizon Tasks)的通用智能(AGI)邁進,但許多研究者發(fā)現(xiàn)了一個尷尬的現(xiàn)實:很多智能體雖然能完成任務(wù),卻像個「只會蒙答案的學(xué)生」,其成功往往依賴于運氣和低效的試錯,而非真正高效、可泛化的推理能力。一旦環(huán)境稍作改變,它們便漏洞百出。

這種「結(jié)果正確,但過程混亂」的現(xiàn)象,是當(dāng)前長程智能體(Long-Horizon Agents)強化學(xué)習(xí)(RL)范式的一大瓶頸。智能體在探索中,只因最終能完成任務(wù)便獲得獎勵,而其間大量的冗余操作、無效探索,甚至錯誤的推理路徑,都被無意中 「強化」 和固化。這導(dǎo)致了兩個核心難題:

1.低效探索難題:智能體容易陷入「無效內(nèi)卷」,反復(fù)嘗試無意義的動作,訓(xùn)練成本高,推理效率低下。

2.泛化脆弱難題:靠「蒙對」學(xué)會的策略缺乏邏輯基礎(chǔ),在新任務(wù)面前不堪一擊,難以實現(xiàn)真正的魯棒性。

如何讓智能體不僅「知其然」,更能「知其所以然」?

面對這些難題,騰訊混元 AI 數(shù)字人團隊提出了RLVMR (Reinforcement Learning with Verifiable Meta-Reasoning Rewards)框架。這項工作開創(chuàng)性地將認(rèn)知科學(xué)中的「元認(rèn)知」(即 「思考自己的思考」)理論引入 RL,通過獎勵「好的思考過程」而非僅僅獎勵「好的結(jié)果」,首次實現(xiàn)了對智能體推理過程的端到端強化學(xué)習(xí),成功解決了長程任務(wù)中的低效探索與泛化難題。



  • 論文地址: [2507.22844] RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents
  • 項目代碼: digitalhuman/RLVMR at main?Tencent/digitalhuman?GitHub

RLVMR:如何教會智能體「思考」,而不僅是「做事」?

傳統(tǒng)方法要么依賴僵化的專家數(shù)據(jù)(SFT),要么依賴稀疏的結(jié)果獎勵(RL),都無法有效塑造智能體高質(zhì)量的「思維習(xí)慣」。RLVMR 的破局點在于:為智能體的「思考過程」本身,設(shè)計一套可驗證、可優(yōu)化的獎勵機制。



1. 智能體學(xué)會「三思而后行」:引入元推理狀態(tài)

RLVMR 賦予智能體「自我意識」的能力。在行動前,智能體需要先思考并給自己貼上一個「元推理標(biāo)簽」,明確自己當(dāng)前處于哪個認(rèn)知階段:

  • 規(guī)劃(Planning):我準(zhǔn)備做什么?計劃是什么?
  • 探索(Exploring):我正在執(zhí)行計劃,探索方案。
  • 反思(Reflecting):計劃出錯了?我需要糾正什么?

這套機制讓智能體的「內(nèi)心戲」變得明確、可追蹤,為獎勵其「優(yōu)質(zhì)思考」提供了抓手。

2. 獎勵「好思路」,懲罰「壞習(xí)慣」:可驗證的過程獎勵

光有標(biāo)簽還不夠,RLVMR 設(shè)計了一套輕量級的驗證規(guī)則,實時評估智能體的思考質(zhì)量,并給予即時獎勵:

  • 獎勵高效思考:當(dāng)智能體在「反思」后成功糾錯,或制定出有效「規(guī)劃」時,給予正向獎勵。
  • 懲罰低效行為:當(dāng)智能體陷入無意義的動作循環(huán)或重復(fù)犯錯時,給予負(fù)向獎勵。

這種「過程獎勵」機制,像一位貼身教練,不斷引導(dǎo)智能體優(yōu)化其思考與決策路徑,從根本上杜絕「瞎蒙」行為。

3. 從「結(jié)果導(dǎo)向」到「過程與結(jié)果并重」

RLVMR 將「過程獎勵」與最終的「任務(wù)成功獎勵」相結(jié)合,通過策略梯度方法進行端到端優(yōu)化。這使得智能體在追求最終目標(biāo)的同時,必須學(xué)會如何更聰明、更高效地達成目標(biāo)。

核心實驗成果:7B 模型比肩「巨頭旗艦」

在極具挑戰(zhàn)性的 ALFWorld 和 ScienceWorld 兩大長程任務(wù)基準(zhǔn)上,RLVMR 展現(xiàn)了統(tǒng)治級的性能。經(jīng)過 RLVMR 訓(xùn)練的 7B 模型,在難度最高、從未見過的任務(wù)(L2 泛化等級)上,成功率高達 83.6%,不僅遠(yuǎn)超此前所有 SOTA 模型,更證明了其強大的泛化能力。



此外,我們的方法訓(xùn)練出的智能體更「聰明」,解決任務(wù)的路徑更直接,在 ALFWorld 和 ScienceWorld 的 L2 復(fù)雜環(huán)境中,所需動作數(shù)最高減少 28.1%。此外,訓(xùn)練過程本身也告別了「反復(fù)橫跳」式的低效學(xué)習(xí),收斂速度更快、策略更穩(wěn)定,顯著緩解了無效探索問題。





超越分?jǐn)?shù):RLVMR 實驗中的深度洞察

洞察一:智能體學(xué)會「反思」,告別「無效內(nèi)卷」

傳統(tǒng) RL 智能體像一個埋頭刷題但從不復(fù)盤的學(xué)生,容易在錯誤路徑上反復(fù)掙扎。RLVMR 的核心貢獻在于教會了智能體「反思」(Reflecting)。



實驗數(shù)據(jù)顯示,引入「反思」機制后,智能體在遇到困難時,不再是盲目重試,而是能夠主動識別問題、調(diào)整策略。這正是其重復(fù)動作率大幅降低、任務(wù)成功率飆升的根本原因。它揭示了一個關(guān)鍵點:對于復(fù)雜任務(wù),教會智能體如何從失敗中學(xué)習(xí),比單純「喂」給它成功的經(jīng)驗更重要。

洞察二:好的推理習(xí)慣,是泛化能力的基石

為什么 RLVMR 在未見任務(wù)上表現(xiàn)如此出色?



我們發(fā)現(xiàn),通過獎勵「好的思考過程」,RLVMR 幫助智能體建立了一套通用的、不依賴于特定任務(wù)的「元問題解決框架」(如何規(guī)劃、如何探索、如何反思)。當(dāng)面對新環(huán)境(L2)時,智能體調(diào)用的不再是某個僵化的「解題模板」,而是這套靈活的「思維方法論」。

這證實了一個重要猜想:真正的泛化能力,源自于對問題解決過程的深刻理解,而非對問題答案的機械記憶。 RLVMR 正是通往這條道路的有效路徑。

洞察三:先 「冷啟動」 再 「強化」—— 智能體的成長階梯設(shè)計

RLVMR 采用了「冷啟動 SFT + 強化學(xué)習(xí) RL」的兩階段訓(xùn)練流程。這并非簡單的流程拼接,而是一種符合認(rèn)知規(guī)律的「成長曲線」設(shè)計。

  • 冷啟動階段(SFT):如同基礎(chǔ)教育,讓智能體先通過模仿學(xué)習(xí),快速掌握「規(guī)劃」「反思」等元推理概念的基本表達方式。
  • 強化學(xué)習(xí)階段(RL):如同進入社會實踐,讓智能體在真實環(huán)境中自由探索,通過「過程獎勵」的不斷反饋,將學(xué)到的概念內(nèi)化為真正的能力。



這一策略啟示我們:在訓(xùn)練高級智能體時,「先教會它如何思考,再放手讓它去犯錯成長」,可能是比單一訓(xùn)練范式更高效的路徑。

總結(jié)與展望

RLVMR 的提出,為智能體訓(xùn)練帶來了從「結(jié)果導(dǎo)向」到「過程導(dǎo)向」的范式革新。它證明了,通過對智能體「思考過程」的直接建模與獎勵,我們能夠有效破解長程任務(wù)中的「低效探索」與「泛化脆弱」兩大難題。

我們對 AGI 的終極期待,是一個能夠獨立思考、理性決策的伙伴,而不是一個只會尋找捷徑的「做題家」。RLVMR 的工作,正是鼓勵大模型從偶然涌現(xiàn)的能力,走向特定思維模式的強化,為構(gòu)建更魯棒、更高效、更可解釋的通用智能體邁出了堅實的一步。

這項研究不僅為長程智能體訓(xùn)練提供了新思路,也為我們探索能真正理解世界、應(yīng)對未知的下一代 AI 帶來了新的曙光。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
1699 元!蘋果新品官宣,即將發(fā)布

1699 元!蘋果新品官宣,即將發(fā)布

芝麻科技訊官方號
2025-08-31 15:07:08
豬肝再次成為關(guān)注對象!調(diào)查發(fā)現(xiàn):常吃豬肝,可能會收獲5大好處

豬肝再次成為關(guān)注對象!調(diào)查發(fā)現(xiàn):常吃豬肝,可能會收獲5大好處

泠泠說史
2025-08-29 17:05:07
意大利女子游泳名將涉嫌在新加坡偷竊被捕:剛拿下世錦賽銅牌,回國轉(zhuǎn)機途中被抓,外交部長緊急介入

意大利女子游泳名將涉嫌在新加坡偷竊被捕:剛拿下世錦賽銅牌,回國轉(zhuǎn)機途中被抓,外交部長緊急介入

極目新聞
2025-08-31 12:21:31
為什么女人出軌第一次發(fā)生關(guān)系非常難,后面就會越來越容易?

為什么女人出軌第一次發(fā)生關(guān)系非常難,后面就會越來越容易?

素然追光
2025-06-23 02:10:05
三亞男游客溺亡:有二次自救機會,在水里就不行了 專業(yè)人稱已炸肺

三亞男游客溺亡:有二次自救機會,在水里就不行了 專業(yè)人稱已炸肺

觀察鑒娛
2025-08-30 10:29:01
少林寺?lián)Q方丈已1個月,9990元高價香剛被摒棄,就有惡心一幕出現(xiàn)

少林寺?lián)Q方丈已1個月,9990元高價香剛被摒棄,就有惡心一幕出現(xiàn)

梁訊
2025-08-29 14:27:03
2.4萬億爛攤子養(yǎng)肥誰?優(yōu)先拿錢的清盤人,比許家印還滋潤!

2.4萬億爛攤子養(yǎng)肥誰?優(yōu)先拿錢的清盤人,比許家印還滋潤!

倪衛(wèi)濤頻道
2025-08-23 23:56:03
皇馬主帥有魄力!1.8億歐巨星進球被換+3場無一踢滿,偏愛姆巴佩

皇馬主帥有魄力!1.8億歐巨星進球被換+3場無一踢滿,偏愛姆巴佩

體育知多少
2025-08-31 07:22:13
林心如馬爾代夫度假照曝光!網(wǎng)友驚嘆:這身材太驚艷?

林心如馬爾代夫度假照曝光!網(wǎng)友驚嘆:這身材太驚艷?

娛樂領(lǐng)航家
2025-08-29 21:00:03
匈牙利外長:歐盟委員會已成“烏克蘭委員會”

匈牙利外長:歐盟委員會已成“烏克蘭委員會”

環(huán)球網(wǎng)資訊
2025-08-30 23:11:19
楊采鈺甘當(dāng)二房卻被嫌棄的瓜

楊采鈺甘當(dāng)二房卻被嫌棄的瓜

熱鬧吃瓜大姐
2025-08-30 19:13:17
國際公認(rèn)的強致癌物,很多人卻天天買來吃!

國際公認(rèn)的強致癌物,很多人卻天天買來吃!

丁香生活研究所
2025-08-31 12:04:47
中國將迎來死亡高峰?22年去世1041萬人,23年1110萬,去年多少?

中國將迎來死亡高峰?22年去世1041萬人,23年1110萬,去年多少?

朗威談星座
2025-08-30 20:48:36
白天陪玩晚上陪睡?明碼標(biāo)價8000一次!高端伴游淪為色情交易溫床

白天陪玩晚上陪睡?明碼標(biāo)價8000一次!高端伴游淪為色情交易溫床

阿纂看事
2025-08-29 15:46:57
CCTV5羽毛球世錦賽轉(zhuǎn)播調(diào)整,石宇奇陳雨菲奪冠難度增加

CCTV5羽毛球世錦賽轉(zhuǎn)播調(diào)整,石宇奇陳雨菲奪冠難度增加

馬探解說體育
2025-08-31 09:41:11
千億身價有何用?97歲的李嘉誠無力回天,兩個60歲兒子已成心病

千億身價有何用?97歲的李嘉誠無力回天,兩個60歲兒子已成心病

不寫散文詩
2025-08-31 17:18:17
痛!英程序員錯扔8000枚比特幣價值70億?12年間跪求挖垃圾場屢次被拒,如今倒欠百萬:我不挖了!

痛!英程序員錯扔8000枚比特幣價值70億?12年間跪求挖垃圾場屢次被拒,如今倒欠百萬:我不挖了!

英國報姐
2025-08-15 21:55:58
A股:明天,9月份第一個交易日,股市或?qū)⑦@樣走!

A股:明天,9月份第一個交易日,股市或?qū)⑦@樣走!

明心
2025-08-31 14:44:02
我爸是市委書記,我對女友說我爸是工人,結(jié)果她和副鎮(zhèn)長好上了

我爸是市委書記,我對女友說我爸是工人,結(jié)果她和副鎮(zhèn)長好上了

喬生桂
2025-08-17 08:15:03
兩岸再突發(fā)重大事情,蔣萬安還沒坐飛機來陸,國臺辦發(fā)出一個警告

兩岸再突發(fā)重大事情,蔣萬安還沒坐飛機來陸,國臺辦發(fā)出一個警告

boss外傳
2025-08-30 10:00:03
2025-08-31 18:27:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11188文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

許昕爆冷不敵18歲小將發(fā)文"回家" 投訴對手違規(guī)被無視

頭條要聞

許昕爆冷不敵18歲小將發(fā)文"回家" 投訴對手違規(guī)被無視

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂要聞

胡歌是永遠(yuǎn)都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

健康
教育
房產(chǎn)
游戲
手機

精神科專家解答學(xué)習(xí)困難七大問題

教育要聞

河南鶴壁:開學(xué)第一課 點燃科學(xué)夢

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

LCK第三階段:KT零封NS!NS在本賽段未取得任何一場大場勝利

手機要聞

拯救手機存儲空間 榮耀宣布超50款新老機型升級支持圖庫清理建議

無障礙瀏覽 進入關(guān)懷版