網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

14B打敗671B！微軟rStar2-Agent在數(shù)學(xué)推理上超過DeepSeek-R1

2025-09-02 10:27:11　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心報道

編輯：Panda

現(xiàn)在，LLM 已經(jīng)可以獲得非常強(qiáng)大的推理能力，而其中關(guān)鍵便是測試時擴(kuò)展（test-time scaling）

通常而言，延長思維鏈（CoT）就可以延長「思考時間」，從而顯著提升性能，尤其是當(dāng)使用大規(guī)模強(qiáng)化學(xué)習(xí)和可驗證獎勵 (RLVR) 進(jìn)行優(yōu)化時。

然而，對于容易出現(xiàn)細(xì)微中間錯誤或需要創(chuàng)造性推理轉(zhuǎn)變的難題，較長的思維鏈仍然存在根本性的局限性。在這些情況下，模型往往依賴內(nèi)部的自我反思，但這又常常無法發(fā)現(xiàn)錯誤，也無法在初始方法存在缺陷時進(jìn)行自我糾正。

因此，模型不僅要能更長時間地思考，還應(yīng)該要能「更聰明」地思考。為此，可以引入更高級的認(rèn)知能力，讓模型可以自主地利用合適的工具，從工具環(huán)境提供的反饋信號中進(jìn)行推理、驗證和學(xué)習(xí)。

近日，微軟研究院的一個研究團(tuán)隊探索了使用主動式強(qiáng)化學(xué)習(xí)（agentic reinforcement learning）來實現(xiàn)這一目標(biāo)，也就是說，模型會與專用工具環(huán)境中的工具進(jìn)行交互，并根據(jù)收到的反饋調(diào)整其推理方式。

而他們的探索成果便是rStar2-Agent，這是一種強(qiáng)大的主動式強(qiáng)化學(xué)習(xí)方法。使用該方法，這個微軟團(tuán)隊訓(xùn)練了一個 14B 的推理模型rStar2-Agent-14B—— 該模型達(dá)到前沿級別的性能，媲美甚至超越了 671B 的 DeepSeek-R1！

這項研究在社交網(wǎng)絡(luò)上獲得了廣泛關(guān)注。

下面我們就來簡單了解一下微軟是如何造出了這個能以小搏大的模型。

論文標(biāo)題：rStar2-Agent: Agentic Reasoning Technical Report
論文地址：https://arxiv.org/pdf/2508.20722
代碼地址：https://github.com/microsoft/rStar

環(huán)境與問題描述

本研究使用的環(huán)境是 Python 編程工具和解釋器。

Python 編程工具可拓寬模型的行動空間，使其能夠探索替代方案并驗證中間步驟，從而在單靠較長的 CoT 不足的情況下補(bǔ)充內(nèi)部的自我反思。

然而，在該環(huán)境中有效地擴(kuò)展主動式強(qiáng)化學(xué)習(xí)非常困難。

首先，編程工具和 Python 解釋器的固有復(fù)雜性會將環(huán)境噪聲引入推理過程。當(dāng)模型不可避免地生成語法或邏輯上錯誤的代碼時，由此產(chǎn)生的環(huán)境反饋（例如，錯誤消息）可能會導(dǎo)致模型浪費寶貴的 token 來糾正錯誤，而不是推進(jìn)推理。遺憾的是，當(dāng)前的強(qiáng)化學(xué)習(xí)方法主要依賴于「僅結(jié)果獎勵」，而這只會加劇這個問題，因為即使中間工具調(diào)用失敗的軌跡仍然會獲得正獎勵，只要最終答案正確即可。如此一來，該模型就會將錯誤視為可接受的，并生成冗長且低質(zhì)量的推理軌跡。

其次，大規(guī)模主動式強(qiáng)化學(xué)習(xí)訓(xùn)練對基礎(chǔ)設(shè)施的要求很高。單個訓(xùn)練批次可以觸發(fā)數(shù)萬個并發(fā)工具調(diào)用，這使得構(gòu)建可靠且響應(yīng)迅速的代碼執(zhí)行環(huán)境變得極具挑戰(zhàn)性。

此外，與環(huán)境交互的智能體部署會放大標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)系統(tǒng)中部署效率低下的現(xiàn)象，從而顯著減慢整體訓(xùn)練速度。

rStar2-Agent 三大創(chuàng)新

微軟提出的 rStar2-Agent 包含三大關(guān)鍵創(chuàng)新。

第一，該團(tuán)隊為大規(guī)模主動式強(qiáng)化學(xué)習(xí)構(gòu)建了一個高效可靠的基礎(chǔ)架構(gòu)

他們構(gòu)建了一個高吞吐量、獨立的代碼環(huán)境，能夠處理 45K 個并發(fā)工具調(diào)用，平均執(zhí)行反饋僅需 0.3 秒即可返回。

為了解決強(qiáng)化學(xué)習(xí) rollout 效率低下的問題，他們引入了一個負(fù)載均衡的 rollout 調(diào)度程序，該調(diào)度程序會根據(jù) GPU 上可用的鍵值緩存容量動態(tài)分配 rollout 請求，從而最大限度地提高計算利用率。

即使在 GPU 資源有限的情況下，該基礎(chǔ)架構(gòu)也能實現(xiàn)高效的強(qiáng)化學(xué)習(xí)訓(xùn)練。使用 64 塊 MI300X GPU，該團(tuán)隊僅用一周時間就完成了 rStar2-Agent-14B 的訓(xùn)練。

第二，為了在代碼環(huán)境中實現(xiàn)有效的主動式強(qiáng)化學(xué)習(xí)，該團(tuán)隊提出了基于正確重采樣的組相對策略優(yōu)化 (GRPO-RoC)，它將 GRPO 與基于正確重采樣 (RoC) 的 rollout 策略相結(jié)合，以解決稀疏且僅關(guān)注結(jié)果的獎勵條件下環(huán)境引起的噪聲。

具體而言，RoC 首先對較大的 rollout 組進(jìn)行過采樣，然后下采樣至標(biāo)準(zhǔn)批次大小。正向軌跡經(jīng)過篩選，僅保留質(zhì)量最高且工具導(dǎo)致錯誤或格式問題最少的軌跡，而負(fù)向軌跡則進(jìn)行均勻下采樣。

這種簡單而有效的非對稱采樣方法將各種故障模式保留為信息豐富的負(fù)向信號，同時強(qiáng)調(diào)更高質(zhì)量的成功案例以進(jìn)行正向監(jiān)督。

相比于在獎勵函數(shù)中明確懲罰工具使用錯誤的方法，GRPO-RoC 可提高訓(xùn)練穩(wěn)定性，并可避免 reward-hacking 的風(fēng)險。

通過學(xué)習(xí)更清潔、更高質(zhì)量的正向軌跡，該模型不僅能提升 Python 編程工具的使用率，還展現(xiàn)出高級認(rèn)知能力，能夠在真實的代碼環(huán)境交互下更高效、更簡潔地進(jìn)行推理。

第三，該團(tuán)隊還提出了一套訓(xùn)練方案，能以最少的計算量將一個 14B 預(yù)訓(xùn)練基礎(chǔ)模型提升到前沿數(shù)學(xué)推理水平。

不同于先前的研究（在強(qiáng)化學(xué)習(xí)之前應(yīng)用推理密集型 SFT ），該團(tuán)隊從非推理 SFT 階段開始 —— 僅用于灌輸一般的指令遵循、編程工具使用和格式，而不增強(qiáng)推理能力。這可避免潛在的 SFT 過擬合，并保持初始平均響應(yīng)較短，從而使強(qiáng)化學(xué)習(xí)能夠更有效地培養(yǎng)推理能力，同時充分利用模型的預(yù)訓(xùn)練能力。

然后，該團(tuán)隊使用 GRPO-RoC 進(jìn)行多階段強(qiáng)化學(xué)習(xí)訓(xùn)練，逐漸增加任務(wù)難度和最大訓(xùn)練時長。不同于之前的強(qiáng)化學(xué)習(xí)方法，這些方法需要將 rollout 規(guī)模大幅擴(kuò)展至 16K→48K 甚至更高，該團(tuán)隊將每個階段的長度限制在較短的范圍內(nèi)（8K→12K）。這可顯著降低強(qiáng)化學(xué)習(xí)成本，同時鼓勵更高效的推理策略。

該模型僅需510個強(qiáng)化學(xué)習(xí)步驟，即可快速實現(xiàn)前沿水平的數(shù)學(xué)推理，展現(xiàn)出強(qiáng)大的能力和卓越的訓(xùn)練效率。

結(jié)果很驚艷

最終，使用新方法，他們訓(xùn)練得到了一個模型并將其命名為 rStar2-Agent-14B。它只有 14B 大小，但卻實現(xiàn)了超越 DeepSeek-R1 和 Kimi k1.5 等領(lǐng)先推理模型的強(qiáng)大數(shù)學(xué)推理性能。

值得注意的是，在 AIME24 上，它的準(zhǔn)確度達(dá)到了80.6%，比 o3-mini (medium)、DeepSeek-R1 和 Claude Opus 4.0 (thinking) 分別高出 1.0%、0.8% 和 3.6%，在 AIME25 和 HMMT25 上分別達(dá)到了 69.8% 和 52.7%，展現(xiàn)了穩(wěn)定一致的強(qiáng)大能力。

除了數(shù)學(xué)之外，盡管這里只使用數(shù)學(xué)的主動式強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，它仍然能夠有效地泛化。

它在 GPQA-Diamond 科學(xué)推理基準(zhǔn)上的表現(xiàn)優(yōu)于 DeepSeek-V3，在 BFCL v3 的智能體工具使用任務(wù)上也表現(xiàn)不錯，并在 IFEval 和 Arena-Hard 等通用基準(zhǔn)測試中取得了具有競爭力的結(jié)果。

該團(tuán)隊還報告了未成功的嘗試和分析，并重點介紹了由 rStar2-Agent 主動式強(qiáng)化學(xué)習(xí)帶來的對更高級認(rèn)知推理行為的發(fā)現(xiàn)，例如驅(qū)動更有效推理的環(huán)境反饋反思 token。

更多分析和消融研究請見原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.