成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁 > 網易號 > 正文 申請入駐

訓練步數翻倍=推理能力質變,小模型突破推理極限

0
分享至



強化學習(RL)到底是語言模型能力進化的「發(fā)動機」,還是只是更努力地背題、換個方式答題?這個問題,學界爭論已久:RL 真能讓模型學會新的推理技能嗎,還是只是提高了已有知識的調用效率?

過去的研究多數持悲觀態(tài)度:認為 RL 帶來的收益非常有限,有時甚至會讓模型「同質化」加重,失去多樣性。然而,來自英偉達的這項研究指出,造成這一現象的根本原因在于:數學、編程等任務在 base model 的訓練數據中被過度呈現,以及 RL 訓練步數不足。



  • 論文題目:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
  • 鏈接:https://arxiv.org/pdf/2505.24864

ProRL 來了!長期訓練 = 推理能力質變!

由 NVIDIA 團隊提出的 ProRL(Prolonged Reinforcement Learning)框架,將 RL 訓練步數從傳統的幾百步大幅提升至 2000 步以上,釋放了小模型潛藏的巨大潛力。結果令人震驚:

  • 原本完全不會做的邏輯謎題,ProRL 模型的 pass@k 能達到 100%
  • 創(chuàng)造力指標(Creativity Index)飆升,模型能主動生成全新解題路徑
  • 不再是「蒙對答案」,而是真正「開竅」了!



這一突破主要來自于穩(wěn)定長期的強化學習,然而,長期 RL 訓練并不容易,容易出現熵崩塌、性能震蕩、甚至「擺爛」。為此,團隊構建了完整的技術組合拳:

  • 多樣化可驗證獎勵任

引入了數學、編程、科學問答(STEM)、邏輯謎題、指令遵循等多領域數據,這些任務具有程序化可驗證的正確答案,為 RL 訓練提供了可靠、客觀的監(jiān)督信號,不再依賴「易被騙」的獎勵模型。

  • 改進算法組合:GRPO + DAPO

在 GRPO(Group Relative Policy Optimization)框架基礎上,融合 DAPO(Decoupled Clip and Dynamic Sampling)關鍵的解耦裁剪(Decoupled Clipping)來避免策略更新失衡,以及動態(tài)采樣(Dynamic Sampling)來過濾掉「太容易」或「完全不會」的無效樣本,提升訓練效率。

  • KL 正則化 + 周期性策略重置

與一些去 KL 正則的做法相反,本論文發(fā)現適度 KL 懲罰是穩(wěn)定訓練的關鍵。同時引入參考策略重置機制:當 KL 驟增或性能下滑時,重置參考策略為當前模型副本,并重置優(yōu)化器,讓訓練「重啟」。這個簡單機制有效打破訓練停滯,使模型持續(xù)進化。


基于 ProRL 技術,團隊訓練出 Nemotron-Research-Reasoning-Qwen-1.5B,展現出驚人的性能優(yōu)勢:

  • 在數學任務中提升 14.7%,趕超 7B 模型
  • 在代碼生成上領先 DeepCoder-1.5B 達 6.5%
  • 在邏輯推理方面,準確率提升高達 54.8%



ProRL 真的能夠拓寬模型能力邊界

近來,對于 RL 是否能夠拓寬模型的能力邊界一直有爭議。作者在文章中著重分析了 RL 是否能夠拓寬能力邊界的問題,并且發(fā)現,長期穩(wěn)定的 RL 能夠帶來模型能力的真正提升。圍繞著這個主題,文章主要揭示了三個方面的發(fā)現:

  • RL 模型能解出 base model 無論如何采樣都完全答不出的題,甚至做到 pass@k 100%。這不是隨機波動,而是新能力的誕生。

  • 強化學習帶來的提升與基礎模型的初始表現之間呈顯著負相關關系。在那些 base model 表現較弱的任務(初始 pass@k 較低),RL 展現出極強的「推理邊界擴展」能力。
  • 而在本身已經很強的領域,如數學和代碼(這些任務的「創(chuàng)造力指數」較低),ProRL 的邊界擴展則較為有限。對于圖中「Diminished Area」中提升較小的任務,作者觀察到一個共同特征:這些任務在預訓練數據中已被充分覆蓋,缺乏進一步擴展的空間,因此 RL 提供的增益有限。



  • 模型不僅「答對」,還「想得新」。作者使用 Creativity Index 對模型生成的解題路徑進行量化評估,發(fā)現:訓練步數越長,模型「跳出預訓練語料」的能力越強。解題方式不再拘泥于模板套路,而是展現出更豐富、更具創(chuàng)造性的推理策略。

總結

這項來自 NVIDIA 的研究,讓我們重新認識了 RL 的真正潛力——不僅能優(yōu)化策略,還能擴展模型的能力邊界。

通過 ProRL,我們第一次看到「小模型」也可以在復雜推理任務中「迎難而上」,甚至跑贏大模型。而這種進步,不靠更多數據、不靠更大模型,只靠更長、更穩(wěn)、更聰明的訓練流程。

未來,如果你想做出推理能力強、部署成本低、泛化能力強的小語言模型,ProRL 可能正是那把鑰匙。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
官宣:博格丹遭遇腿筋撕裂 將缺席歐洲杯剩余比賽

官宣:博格丹遭遇腿筋撕裂 將缺席歐洲杯剩余比賽

北青網-北京青年報
2025-08-31 19:47:15
社保的石頭 韓國已經摸過了

社保的石頭 韓國已經摸過了

盧詩翰
2025-08-13 21:58:51
儒·釋·道的最高境界,總結的太好了!

儒·釋·道的最高境界,總結的太好了!

金沛的國學筆記
2025-08-25 18:14:30
中央匯金,萬億元持倉曝光!

中央匯金,萬億元持倉曝光!

新浪財經
2025-08-31 15:06:40
周恩來去世當天,葉劍英鄧小平紛紛到場,江青當眾高喊:小超小超

周恩來去世當天,葉劍英鄧小平紛紛到場,江青當眾高喊:小超小超

大運河時空
2025-08-30 13:09:33
1699 元!蘋果新品官宣,即將發(fā)布

1699 元!蘋果新品官宣,即將發(fā)布

芝麻科技訊官方號
2025-08-31 15:07:08
矛盾升級!石家莊某小區(qū)物業(yè)通知,更換電梯需每戶業(yè)主平攤6593元

矛盾升級!石家莊某小區(qū)物業(yè)通知,更換電梯需每戶業(yè)主平攤6593元

火山詩話
2025-08-31 08:38:18
美國宣布取消三星、SK海力士對華出售許可,人民日報的話說的沒錯

美國宣布取消三星、SK海力士對華出售許可,人民日報的話說的沒錯

一個有靈魂的作者
2025-08-31 15:40:38
6比0泰山主場狂屠國安!瓦科大四喜手刃仇敵,韓鵬神指揮雪恥戰(zhàn)

6比0泰山主場狂屠國安!瓦科大四喜手刃仇敵,韓鵬神指揮雪恥戰(zhàn)

體壇小鵬
2025-08-31 21:40:03
羅馬諾:曼聯已與大馬丁談妥個人條款,正與維拉展開接洽

羅馬諾:曼聯已與大馬丁談妥個人條款,正與維拉展開接洽

雷速體育
2025-08-31 21:18:53
調查發(fā)現:高血脂患者若常吃西紅柿,過不了多久,身體或有4改善

調查發(fā)現:高血脂患者若常吃西紅柿,過不了多久,身體或有4改善

泠泠說史
2025-08-30 17:31:49
閱兵還剩5天,美軍終于坐不住:新裝備是重大挑戰(zhàn),航母危險了!

閱兵還剩5天,美軍終于坐不住:新裝備是重大挑戰(zhàn),航母危險了!

墨蘭史書
2025-08-30 04:05:03
利物浦vs阿森納:維爾茨、?;倏恕ⅠR丁內利首發(fā),埃澤替補

利物浦vs阿森納:維爾茨、?;倏?、馬丁內利首發(fā),埃澤替補

懂球帝
2025-08-31 22:27:15
1-1!55歲西蒙尼麻了 馬競夏窗砸1.75億卻3輪不勝 格子失空門絕殺

1-1!55歲西蒙尼麻了 馬競夏窗砸1.75億卻3輪不勝 格子失空門絕殺

我愛英超
2025-08-31 01:07:08
8歲女童將體溫計放入開水中爆炸,媽媽不慎喝下含水銀的水,醫(yī)生:少量在身體中不會被吸收,揮發(fā)在空氣中毒性更大

8歲女童將體溫計放入開水中爆炸,媽媽不慎喝下含水銀的水,醫(yī)生:少量在身體中不會被吸收,揮發(fā)在空氣中毒性更大

大象新聞
2025-08-30 20:21:23
有情有義!首鋼球員趙睿罕見發(fā)表長文致謝,主要談了以下6點!

有情有義!首鋼球員趙睿罕見發(fā)表長文致謝,主要談了以下6點!

田先生籃球
2025-08-30 22:45:46
1-0!鄧卓翔戰(zhàn)術完爆司機!鄧涵文太強了 朱辰杰蔣圣龍狀態(tài)太差了

1-0!鄧卓翔戰(zhàn)術完爆司機!鄧涵文太強了 朱辰杰蔣圣龍狀態(tài)太差了

刀鋒體育
2025-08-31 22:01:16
54歲汪峰對35歲的女友森林北,不僅是靈魂依賴,更是生理性喜歡

54歲汪峰對35歲的女友森林北,不僅是靈魂依賴,更是生理性喜歡

草莓解說體育
2025-08-31 07:57:42
9月3日中國閱兵,歐美發(fā)達國家的領導人,為何選擇集體缺席?

9月3日中國閱兵,歐美發(fā)達國家的領導人,為何選擇集體缺席?

文史道
2025-08-30 06:45:03
我還是想把銀牌的故事寫下來…

我還是想把銀牌的故事寫下來…

后體工隊長
2025-08-31 22:41:43
2025-08-31 23:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11188文章數 142429關注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會了

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會了

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預售煥新11.28萬起

態(tài)度原創(chuàng)

旅游
親子
教育
游戲
房產

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

她有兩個子宮,同時懷孕!醫(yī)生:堪比中彩票

教育要聞

江蘇考生|??频奖究频哪嬉u!|幫學生成功“撿漏”本科名額

絕地潛兵2運營被噴 Xbox幾十萬玩家涌入仍未扭轉戰(zhàn)局

房產要聞

顛覆認知!海口真正的豪宅作品,終于出現了!

無障礙瀏覽 進入關懷版