成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

14B打敗671B!微軟rStar2-Agent在數(shù)學(xué)推理上超過DeepSeek-R1

0
分享至



機(jī)器之心報道

編輯:Panda

現(xiàn)在,LLM 已經(jīng)可以獲得非常強(qiáng)大的推理能力,而其中關(guān)鍵便是測試時擴(kuò)展(test-time scaling)

通常而言,延長思維鏈(CoT)就可以延長「思考時間」,從而顯著提升性能,尤其是當(dāng)使用大規(guī)模強(qiáng)化學(xué)習(xí)和可驗證獎勵 (RLVR) 進(jìn)行優(yōu)化時。

然而,對于容易出現(xiàn)細(xì)微中間錯誤或需要創(chuàng)造性推理轉(zhuǎn)變的難題,較長的思維鏈仍然存在根本性的局限性。在這些情況下,模型往往依賴內(nèi)部的自我反思,但這又常常無法發(fā)現(xiàn)錯誤,也無法在初始方法存在缺陷時進(jìn)行自我糾正。

因此,模型不僅要能更長時間地思考,還應(yīng)該要能「更聰明」地思考。為此,可以引入更高級的認(rèn)知能力,讓模型可以自主地利用合適的工具,從工具環(huán)境提供的反饋信號中進(jìn)行推理、驗證和學(xué)習(xí)。

近日,微軟研究院的一個研究團(tuán)隊探索了使用主動式強(qiáng)化學(xué)習(xí)(agentic reinforcement learning)來實現(xiàn)這一目標(biāo),也就是說,模型會與專用工具環(huán)境中的工具進(jìn)行交互,并根據(jù)收到的反饋調(diào)整其推理方式。

而他們的探索成果便是rStar2-Agent,這是一種強(qiáng)大的主動式強(qiáng)化學(xué)習(xí)方法。使用該方法,這個微軟團(tuán)隊訓(xùn)練了一個 14B 的推理模型rStar2-Agent-14B—— 該模型達(dá)到前沿級別的性能,媲美甚至超越了 671B 的 DeepSeek-R1!



這項研究在社交網(wǎng)絡(luò)上獲得了廣泛關(guān)注。



下面我們就來簡單了解一下微軟是如何造出了這個能以小搏大的模型。



  • 論文標(biāo)題:rStar2-Agent: Agentic Reasoning Technical Report
  • 論文地址:https://arxiv.org/pdf/2508.20722
  • 代碼地址:https://github.com/microsoft/rStar

環(huán)境與問題描述

本研究使用的環(huán)境是 Python 編程工具和解釋器。



Python 編程工具可拓寬模型的行動空間,使其能夠探索替代方案并驗證中間步驟,從而在單靠較長的 CoT 不足的情況下補(bǔ)充內(nèi)部的自我反思。

然而,在該環(huán)境中有效地擴(kuò)展主動式強(qiáng)化學(xué)習(xí)非常困難。

首先,編程工具和 Python 解釋器的固有復(fù)雜性會將環(huán)境噪聲引入推理過程。當(dāng)模型不可避免地生成語法或邏輯上錯誤的代碼時,由此產(chǎn)生的環(huán)境反饋(例如,錯誤消息)可能會導(dǎo)致模型浪費寶貴的 token 來糾正錯誤,而不是推進(jìn)推理。遺憾的是,當(dāng)前的強(qiáng)化學(xué)習(xí)方法主要依賴于「僅結(jié)果獎勵」,而這只會加劇這個問題,因為即使中間工具調(diào)用失敗的軌跡仍然會獲得正獎勵,只要最終答案正確即可。如此一來,該模型就會將錯誤視為可接受的,并生成冗長且低質(zhì)量的推理軌跡。

其次,大規(guī)模主動式強(qiáng)化學(xué)習(xí)訓(xùn)練對基礎(chǔ)設(shè)施的要求很高。單個訓(xùn)練批次可以觸發(fā)數(shù)萬個并發(fā)工具調(diào)用,這使得構(gòu)建可靠且響應(yīng)迅速的代碼執(zhí)行環(huán)境變得極具挑戰(zhàn)性。

此外,與環(huán)境交互的智能體部署會放大標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)系統(tǒng)中部署效率低下的現(xiàn)象,從而顯著減慢整體訓(xùn)練速度。

rStar2-Agent 三大創(chuàng)新

微軟提出的 rStar2-Agent 包含三大關(guān)鍵創(chuàng)新。

第一,該團(tuán)隊為大規(guī)模主動式強(qiáng)化學(xué)習(xí)構(gòu)建了一個高效可靠的基礎(chǔ)架構(gòu)

他們構(gòu)建了一個高吞吐量、獨立的代碼環(huán)境,能夠處理 45K 個并發(fā)工具調(diào)用,平均執(zhí)行反饋僅需 0.3 秒即可返回。



為了解決強(qiáng)化學(xué)習(xí) rollout 效率低下的問題,他們引入了一個負(fù)載均衡的 rollout 調(diào)度程序,該調(diào)度程序會根據(jù) GPU 上可用的鍵值緩存容量動態(tài)分配 rollout 請求,從而最大限度地提高計算利用率。

即使在 GPU 資源有限的情況下,該基礎(chǔ)架構(gòu)也能實現(xiàn)高效的強(qiáng)化學(xué)習(xí)訓(xùn)練。使用 64 塊 MI300X GPU,該團(tuán)隊僅用一周時間就完成了 rStar2-Agent-14B 的訓(xùn)練。

第二,為了在代碼環(huán)境中實現(xiàn)有效的主動式強(qiáng)化學(xué)習(xí),該團(tuán)隊提出了基于正確重采樣的組相對策略優(yōu)化 (GRPO-RoC),它將 GRPO 與基于正確重采樣 (RoC) 的 rollout 策略相結(jié)合,以解決稀疏且僅關(guān)注結(jié)果的獎勵條件下環(huán)境引起的噪聲。



具體而言,RoC 首先對較大的 rollout 組進(jìn)行過采樣,然后下采樣至標(biāo)準(zhǔn)批次大小。正向軌跡經(jīng)過篩選,僅保留質(zhì)量最高且工具導(dǎo)致錯誤或格式問題最少的軌跡,而負(fù)向軌跡則進(jìn)行均勻下采樣。



這種簡單而有效的非對稱采樣方法將各種故障模式保留為信息豐富的負(fù)向信號,同時強(qiáng)調(diào)更高質(zhì)量的成功案例以進(jìn)行正向監(jiān)督。

相比于在獎勵函數(shù)中明確懲罰工具使用錯誤的方法,GRPO-RoC 可提高訓(xùn)練穩(wěn)定性,并可避免 reward-hacking 的風(fēng)險。

通過學(xué)習(xí)更清潔、更高質(zhì)量的正向軌跡,該模型不僅能提升 Python 編程工具的使用率,還展現(xiàn)出高級認(rèn)知能力,能夠在真實的代碼環(huán)境交互下更高效、更簡潔地進(jìn)行推理。

第三,該團(tuán)隊還提出了一套訓(xùn)練方案,能以最少的計算量將一個 14B 預(yù)訓(xùn)練基礎(chǔ)模型提升到前沿數(shù)學(xué)推理水平。

不同于先前的研究(在強(qiáng)化學(xué)習(xí)之前應(yīng)用推理密集型 SFT ),該團(tuán)隊從非推理 SFT 階段開始 —— 僅用于灌輸一般的指令遵循、編程工具使用和格式,而不增強(qiáng)推理能力。這可避免潛在的 SFT 過擬合,并保持初始平均響應(yīng)較短,從而使強(qiáng)化學(xué)習(xí)能夠更有效地培養(yǎng)推理能力,同時充分利用模型的預(yù)訓(xùn)練能力。



然后,該團(tuán)隊使用 GRPO-RoC 進(jìn)行多階段強(qiáng)化學(xué)習(xí)訓(xùn)練,逐漸增加任務(wù)難度和最大訓(xùn)練時長。不同于之前的強(qiáng)化學(xué)習(xí)方法,這些方法需要將 rollout 規(guī)模大幅擴(kuò)展至 16K→48K 甚至更高,該團(tuán)隊將每個階段的長度限制在較短的范圍內(nèi)(8K→12K)。這可顯著降低強(qiáng)化學(xué)習(xí)成本,同時鼓勵更高效的推理策略。

該模型僅需510個強(qiáng)化學(xué)習(xí)步驟,即可快速實現(xiàn)前沿水平的數(shù)學(xué)推理,展現(xiàn)出強(qiáng)大的能力和卓越的訓(xùn)練效率。



結(jié)果很驚艷

最終,使用新方法,他們訓(xùn)練得到了一個模型并將其命名為 rStar2-Agent-14B。它只有 14B 大小,但卻實現(xiàn)了超越 DeepSeek-R1 和 Kimi k1.5 等領(lǐng)先推理模型的強(qiáng)大數(shù)學(xué)推理性能。



值得注意的是,在 AIME24 上,它的準(zhǔn)確度達(dá)到了80.6%,比 o3-mini (medium)、DeepSeek-R1 和 Claude Opus 4.0 (thinking) 分別高出 1.0%、0.8% 和 3.6%,在 AIME25 和 HMMT25 上分別達(dá)到了 69.8% 和 52.7%,展現(xiàn)了穩(wěn)定一致的強(qiáng)大能力。



除了數(shù)學(xué)之外,盡管這里只使用數(shù)學(xué)的主動式強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,它仍然能夠有效地泛化。



它在 GPQA-Diamond 科學(xué)推理基準(zhǔn)上的表現(xiàn)優(yōu)于 DeepSeek-V3,在 BFCL v3 的智能體工具使用任務(wù)上也表現(xiàn)不錯,并在 IFEval 和 Arena-Hard 等通用基準(zhǔn)測試中取得了具有競爭力的結(jié)果。

該團(tuán)隊還報告了未成功的嘗試和分析,并重點介紹了由 rStar2-Agent 主動式強(qiáng)化學(xué)習(xí)帶來的對更高級認(rèn)知推理行為的發(fā)現(xiàn),例如驅(qū)動更有效推理的環(huán)境反饋反思 token。

更多分析和消融研究請見原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國臺灣藝人賴冠霖曬閱兵觀禮照,并發(fā)文“祝祖國繁榮昌盛”,評論區(qū)被網(wǎng)友刷屏

中國臺灣藝人賴冠霖曬閱兵觀禮照,并發(fā)文“祝祖國繁榮昌盛”,評論區(qū)被網(wǎng)友刷屏

極目新聞
2025-09-03 19:38:41
明日中元節(jié),俗語“三菜不上桌,福氣不進(jìn)門”,中元節(jié)吃什么好?

明日中元節(jié),俗語“三菜不上桌,福氣不進(jìn)門”,中元節(jié)吃什么好?

小談食刻美食
2025-09-05 08:35:05
泰國選出新總理:100%華裔血統(tǒng),家里講粵語,中泰關(guān)系更穩(wěn)了?

泰國選出新總理:100%華裔血統(tǒng),家里講粵語,中泰關(guān)系更穩(wěn)了?

后廠村胖胖
2025-09-05 19:42:33
總隊長、副總隊長先后主動投案

總隊長、副總隊長先后主動投案

新京報
2025-09-05 20:51:10
美國人工智能公司Anthropic稱將禁止中國控股企業(yè)使用其服務(wù) 外交部回應(yīng)

美國人工智能公司Anthropic稱將禁止中國控股企業(yè)使用其服務(wù) 外交部回應(yīng)

財聯(lián)社
2025-09-05 15:53:14
看不見的錢:一場“全民查賬”撬動的信任危機(jī)

看不見的錢:一場“全民查賬”撬動的信任危機(jī)

超先聲
2025-08-31 21:51:03
1998年他們策劃排華暴行,如今成為印尼當(dāng)權(quán)者后,竟篡改歷史否認(rèn)

1998年他們策劃排華暴行,如今成為印尼當(dāng)權(quán)者后,竟篡改歷史否認(rèn)

阿胡
2025-07-07 09:57:51
蘋果新品上市:9月5日,正式開售

蘋果新品上市:9月5日,正式開售

科技堡壘
2025-09-04 13:23:17
閱兵結(jié)束后!港媒問霍震霆:你對孫子有什么期待嗎?回答出人意料

閱兵結(jié)束后!港媒問霍震霆:你對孫子有什么期待嗎?回答出人意料

另子維愛讀史
2025-09-05 22:31:28
墨西哥女孩不聽親友勸阻遠(yuǎn)嫁中國,斷了往來,5年后全家求援助

墨西哥女孩不聽親友勸阻遠(yuǎn)嫁中國,斷了往來,5年后全家求援助

雅俗共賞1
2025-09-03 14:00:28
郭臺銘:如果有人敢來進(jìn)攻臺灣,我就派8萬個機(jī)器人去和他們打

郭臺銘:如果有人敢來進(jìn)攻臺灣,我就派8萬個機(jī)器人去和他們打

文史旺旺旺
2025-09-05 18:30:03
九三大閱兵后,第一個對手出現(xiàn)?中方這次真發(fā)火了,八個字銳評

九三大閱兵后,第一個對手出現(xiàn)?中方這次真發(fā)火了,八個字銳評

現(xiàn)代小青青慕慕
2025-09-06 07:02:18
賈利軍,已任職公安部

賈利軍,已任職公安部

新京報
2025-09-05 19:55:07
馮唐:享受了祖上的紅利,卻和別人談“靠努力”,這是最大的無恥

馮唐:享受了祖上的紅利,卻和別人談“靠努力”,這是最大的無恥

清風(fēng)拂心
2025-09-01 16:15:03
《小謝爾頓》Raegan Revord 官宣自己是非二元性別

《小謝爾頓》Raegan Revord 官宣自己是非二元性別

下水道男孩
2025-09-05 23:40:45
巴基斯坦誤判中國不會翻臉:以為我們?nèi)孕杵涔线_(dá)爾港與直連高速

巴基斯坦誤判中國不會翻臉:以為我們?nèi)孕杵涔线_(dá)爾港與直連高速

詩意世界
2025-09-05 08:52:02
特朗普看完九三閱兵后大受刺激,以三軍統(tǒng)帥身份,向全體美軍下令

特朗普看完九三閱兵后大受刺激,以三軍統(tǒng)帥身份,向全體美軍下令

梁訊
2025-09-05 02:22:40
致命誤判!男子將“烏梢蛇”掛脖玩耍被咬身亡,原來竟是眼鏡王蛇!科普博主:二者外觀有明顯區(qū)別

致命誤判!男子將“烏梢蛇”掛脖玩耍被咬身亡,原來竟是眼鏡王蛇!科普博主:二者外觀有明顯區(qū)別

紅星新聞
2025-09-05 17:02:14
山寨吳卓羲驚現(xiàn)澳門牛雜店!95%相似度震撼網(wǎng)友:太靚仔

山寨吳卓羲驚現(xiàn)澳門牛雜店!95%相似度震撼網(wǎng)友:太靚仔

粵睇先生
2025-09-06 01:35:04
不要錯過!9月6日下午20:30! 中央5套CCTV5、CCTV5+直播節(jié)目表

不要錯過!9月6日下午20:30! 中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2025-09-06 03:38:35
2025-09-06 08:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11240文章數(shù) 142442關(guān)注度
往期回顧 全部

科技要聞

特斯拉想送馬斯克9750億美元 條件很苛刻

頭條要聞

專家:看完中國閱兵 美國人破防了

頭條要聞

專家:看完中國閱兵 美國人破防了

體育要聞

西甲最窮的“草臺班子”,竟然打進(jìn)歐戰(zhàn)了

娛樂要聞

!被罵“戀愛腦”的董璇玩脫了?

財經(jīng)要聞

拖欠訂單 立訊精密被供應(yīng)商索賠3343萬

汽車要聞

華為乾崑技術(shù)日 實測ADS4已無限接近人類司機(jī)

態(tài)度原創(chuàng)

教育
親子
藝術(shù)
數(shù)碼
公開課

教育要聞

河南大學(xué)招120個博士,看名單懵了,多是清北名校,自己只有11人

親子要聞

恭喜她成功懷B!經(jīng)歷多次人工受孕,嫁窮老公曾被看低

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

戴森全球發(fā)布會多款新品亮相:最輕巧PencilVac「鉛筆吸塵器」成焦點

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版