這項由上海AI實驗室呂承麒、高松陽等研究人員領導的研究,發(fā)表于2025年2月10日的arXiv預印本平臺,有興趣深入了解的讀者可以通過arXiv:2502.06781v1訪問完整論文。研究團隊來自上海AI實驗室、上海交通大學、香港中文大學MMLab等多個頂尖科研機構,共同探索了在數學推理任務中使用強化學習的性能極限。
當你看到一個7B參數的AI模型在數學競賽中擊敗了參數量是它4倍多的32B模型,甚至超越了OpenAI的o1-mini時,你會不會感到震驚?更令人驚訝的是,這一突破并非來自更大的模型或更多的數據,而是源于一種全新的強化學習訓練方法。上海AI實驗室的研究團隊開發(fā)出了一個名為OREAL的算法框架,成功地讓一個相對較小的AI模型在數學推理能力上實現了歷史性突破。
要理解這項研究的重要性,我們首先需要明白AI數學推理面臨的根本挑戰(zhàn)。當前最強大的數學推理AI,比如OpenAI的o1系列模型,雖然在數學競賽中表現出色,但它們的技術細節(jié)完全保密。學術界只知道這些模型使用了強化學習和長推理鏈,但具體怎么做的,沒人知道。這就像看到別人做出了美味的菜肴,卻不知道配方和烹飪技巧一樣令人困惑。
更關鍵的問題在于,教AI做數學就像教一個學生解題一樣困難。在傳統(tǒng)的監(jiān)督學習中,我們可以告訴AI每一步應該怎么做,就像手把手教學生每個步驟。但在強化學習中,我們只能告訴AI最終答案是對是錯,就像只告訴學生考試成績,卻不指出哪些步驟做錯了。這種"稀疏獎勵"的問題在數學推理中特別嚴重,因為一道數學題的解答過程可能有幾千個詞,但我們只有一個最終的對錯判斷。
OREAL算法的核心創(chuàng)新在于解決了這個困難。研究團隊發(fā)現,在數學推理這個特殊領域,所有正確的解答路徑本質上都是等價的。無論你用哪種方法解出了正確答案,這些方法的價值都是相同的?;谶@個洞察,他們提出了一個反直覺的觀點:只需要從多個嘗試中挑選出正確的解答進行學習,就足以獲得最優(yōu)的學習效果。
這個想法的巧妙之處可以這樣理解:假設你在學習烹飪,每次嘗試后只知道菜好不好吃,不知道具體哪些步驟有問題。傳統(tǒng)方法會試圖分析每個步驟的貢獻,但OREAL發(fā)現,在數學這個特殊領域,只要收集足夠多的成功菜譜,仔細研究它們的共同特征,就能掌握烹飪的精髓。
不過,僅僅學習正確答案還不夠。研究團隊進一步發(fā)現,失敗的嘗試同樣包含寶貴信息。但這里有個微妙的問題:由于我們從成功樣本中學習時改變了原有的數據分布,學習失敗樣本時也需要相應調整,否則就會出現不一致的學習信號。OREAL通過一個巧妙的"獎勵重塑"機制解決了這個問題,確保正確和錯誤的解答都能為AI提供一致的學習信號。
另一個關鍵創(chuàng)新是解決長推理鏈中的信用分配問題。當一道數學題的解答有幾千個詞時,哪些詞對最終答案更重要?OREAL引入了一個輕量級的"詞級獎勵模型",能夠自動識別推理過程中每個詞的重要程度。這就像給每個詞打分,讓AI知道應該重點關注哪些關鍵步驟。
研究團隊的實驗結果令人印象深刻。在數學競賽的標準測試MATH-500上,OREAL訓練的7B模型達到了91.0分的pass@1準確率,這是第一次有如此小的模型通過強化學習而非知識蒸餾達到如此高的性能。更令人驚喜的是,當他們將OREAL應用到之前最強的7B模型DeepSeek-R1-Distill-Qwen-7B上時,性能從92.8分提升到了94.0分,達到了與32B模型相媲美的水平。
在32B模型上,OREAL同樣創(chuàng)造了新紀錄。OREAL-32B在MATH-500上達到了95.0分,在多個數學競賽測試中都超越了之前的最佳成績,包括擊敗了OpenAI的o1-preview和QwQ-32B-Preview等強勁對手。這些結果表明,OREAL不僅在小模型上有效,在大模型上同樣能夠帶來顯著提升。
為了驗證算法各個組件的有效性,研究團隊進行了細致的消融實驗。他們發(fā)現,每個組件都對最終性能有貢獻:獎勵重塑機制提升了0.8分,正確樣本的行為克隆貢獻了1.0分,重要性采樣帶來了1.4分的提升,而技能增強策略最終貢獻了2.0分的提升。這種逐步改進的過程展現了OREAL算法設計的合理性。
訓練過程中的一些觀察也很有趣。研究團隊發(fā)現,初始策略模型的質量對最終效果至關重要。一個強大的起點能讓強化學習事半功倍,而基礎薄弱的模型即使經過強化學習也難以達到頂尖水平。這提醒我們,強化學習并不是萬能藥,它需要建立在扎實的基礎之上。
另一個重要發(fā)現是訓練數據的質量和多樣性同樣關鍵。研究團隊特別設計了一個"技能增強"策略,針對模型在訓練過程中反復犯錯的特定技能點,專門收集相關的訓練樣本進行強化。這種做法就像針對學生的薄弱環(huán)節(jié)進行專項訓練,效果顯著。
OREAL算法的理論基礎也很扎實。研究團隊從數學角度證明了,在二元反饋環(huán)境中,對Best-of-N采樣得到的正確軌跡進行行為克隆就足以學習到KL正則化的最優(yōu)策略。這個理論結果為他們的方法提供了堅實的數學基礎,解釋了為什么這種看似簡單的方法能夠取得如此好的效果。
從技術實現的角度,OREAL算法相對簡潔優(yōu)雅。它避免了復雜的價值網絡設計,不需要昂貴的人工標注,主要依靠自動化的獎勵信號進行學習。這種簡潔性使得算法更容易復現和擴展,降低了研究和應用的門檻。
研究團隊也誠實地討論了當前方法的局限性。他們發(fā)現,在某些特定類型的數學競賽(如AIME系列)上,OREAL的表現相對較弱。這可能與訓練數據的覆蓋范圍和質量有關,表明還有進一步優(yōu)化的空間。
這項研究的意義不僅僅在于刷新了幾個測試分數。它提供了一個完整的框架來理解如何在結果獎勵環(huán)境中進行有效的強化學習。這個框架不僅適用于數學推理,還可能擴展到其他需要復雜推理的任務中。
更重要的是,OREAL的成功表明,學術界完全有能力開發(fā)出與商業(yè)閉源模型相媲美的技術。這種開放性對于科學進步和技術民主化具有重要意義。研究團隊承諾將公開代碼、模型和數據,這將進一步加速相關研究的發(fā)展。
從更廣闊的視角來看,這項研究揭示了AI發(fā)展的一個重要趨勢:算法創(chuàng)新往往比簡單的規(guī)模擴張更有價值。OREAL用巧妙的方法設計讓小模型展現出大模型的能力,這種效率提升對于資源有限的研究機構和應用場景具有重要價值。
展望未來,OREAL算法還有很大的發(fā)展空間。研究團隊指出,初始策略模型的質量和訓練數據的多樣性是影響最終效果的關鍵因素。隨著基礎模型和數據質量的不斷提升,OREAL的潛力還將進一步釋放。
說到底,這項研究最讓人興奮的地方在于它展現的可能性。當我們看到一個相對較小的模型通過巧妙的訓練方法就能在數學推理上達到頂尖水平時,我們不禁要問:還有多少看似不可能的突破正在等待著我們?OREAL算法只是一個開始,它打開了強化學習在復雜推理任務中應用的新篇章。對于每一個關注AI發(fā)展的人來說,這都是一個值得深入了解的里程碑式成果。
Q&A
Q1:OREAL算法是什么?它是如何讓小模型超越大模型的?
A:OREAL是由上海AI實驗室開發(fā)的強化學習算法,專門用于提升AI的數學推理能力。它的核心創(chuàng)新在于發(fā)現在數學推理中,所有正確答案的價值都相同,因此只需要從多次嘗試中篩選正確解答進行學習,再通過巧妙的獎勵重塑和重要性采樣機制,讓小模型也能達到大模型的推理水平。
Q2:OREAL算法在數學測試中的具體表現如何?
A:OREAL創(chuàng)造了多項紀錄:7B模型在MATH-500測試中達到91.0分,首次讓如此小的模型通過強化學習達到這個水平;32B模型更是達到95.0分的新紀錄,在多個數學競賽測試中都超越了OpenAI的o1系列和其他頂尖模型。
Q3:為什么OREAL算法比傳統(tǒng)的AI數學訓練方法更有效?
A:傳統(tǒng)方法面臨"稀疏獎勵"問題,即只知道最終答案對錯,不知道中間步驟的好壞。OREAL通過三個關鍵創(chuàng)新解決了這個問題:只學習正確解答的行為克隆、針對錯誤樣本的獎勵重塑、以及詞級重要性評估。這使得AI能夠更有效地從成功和失敗中學習。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.