本文第一作者黃呈松 (Chengsong Huang) 是圣路易斯華盛頓大學(xué)的博士生,Google scholar citation 五百多次,目前的研究的興趣是強(qiáng)化學(xué)習(xí)和大語言模型。機(jī)器之心曾經(jīng)報道過其之前工作 Lorahub 已經(jīng)被引超過 250 次。
大型語言模型(LLM)的發(fā)展長期以來受限于對大規(guī)模、高質(zhì)量人工標(biāo)注數(shù)據(jù)的依賴,這不僅成本高昂,也從根本上限制了 AI 超越人類知識邊界的潛力 ?!禦-Zero:從零數(shù)據(jù)中自我進(jìn)化的推理大模型》提出了一種全新的范式,旨在打破這一瓶頸。該研究設(shè)計了一個名為 R-Zero 的全自主框架,使模型能夠從零開始,通過自我驅(qū)動的協(xié)同進(jìn)化生成課程并提升推理能力,為通往更自主的人工智能提供了一條值得深入探討的路徑。
《R-Zero》論文的核心,是構(gòu)建一個能從「零數(shù)據(jù)」開始自我進(jìn)化的 AI 框架 ,主要依賴于兩個 AI 角色挑戰(zhàn)者(Challenger)解決者(Solver)
- 論文鏈接: https://www.arxiv.org/abs/2508.05004
- 項目代碼: https://github.com/Chengsong-Huang/R-Zero
- 項目主頁: https://chengsong-huang.github.io/R-Zero.github.io/
挑戰(zhàn)者 - 解決者的協(xié)同進(jìn)化
R-Zero 的架構(gòu)核心是從一個基礎(chǔ) LLM 出發(fā),初始化兩個功能獨(dú)立但目標(biāo)協(xié)同的智能體:挑戰(zhàn)者(Challenger, Qθ)解決者(Solver, S?)
- 挑戰(zhàn)者 (Challenger):其角色是課程生成器。它的優(yōu)化目標(biāo)并非生成絕對難度最高的問題,而是精準(zhǔn)地創(chuàng)造出位于當(dāng)前解決者能力邊界的任務(wù),即那些最具信息增益和學(xué)習(xí)價值的挑戰(zhàn) 。
- 解決者 (Solver):其角色是學(xué)生。它的目標(biāo)是解決由挑戰(zhàn)者提出的問題,并通過這一過程持續(xù)提升自身的推理能力 。
這兩個智能體在一個迭代的閉環(huán)中協(xié)同進(jìn)化,整個過程無需人類干預(yù) :
1.挑戰(zhàn)者訓(xùn)練:在當(dāng)前凍結(jié)的解決者模型上,挑戰(zhàn)者通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,學(xué)習(xí)如何生成能使解決者表現(xiàn)出最大不確定性的問題。
2.課程構(gòu)建:更新后的挑戰(zhàn)者生成一個大規(guī)模的問題池,作為解決者下一階段的學(xué)習(xí)材料。
3.解決者訓(xùn)練:解決者在這個由挑戰(zhàn)者量身定制的新課程上進(jìn)行微調(diào),提升自身能力。
4.迭代循環(huán):能力增強(qiáng)后的解決者,成為下一輪挑戰(zhàn)者訓(xùn)練的新目標(biāo)。如此循環(huán)往復(fù),兩個智能體的能力共同螺旋式上升。
這是一個完全封閉、自我驅(qū)動的進(jìn)化循環(huán)。在這個過程中,AI 自己生成問題,自己生成用于學(xué)習(xí)的「偽標(biāo)簽」,自己完成訓(xùn)練,完全不需要任何外部人類數(shù)據(jù)的輸入。
具體實現(xiàn)方法
由于沒有外部「標(biāo)準(zhǔn)答案」,解決者必須自我生成監(jiān)督信號。
- 偽標(biāo)簽生成:采用自我一致性(self-consistency)策略。對于每個問題,解決者會生成多個(例如 10 個)候選答案,其中出現(xiàn)頻率最高的答案被選為該問題的「偽標(biāo)簽」(pseudo-label)。
- 過濾器:這是框架設(shè)計的關(guān)鍵一環(huán)。并非所有生成的問題都被用于訓(xùn)練,只有那些解決者經(jīng)驗正確率 p^i 落在特定「信息帶」內(nèi)(例如,正確率在 25% 到 75% 之間)的問題才會被保留 。該過濾器起到了雙重作用:
1.難度校準(zhǔn):顯式地剔除了過易或過難的任務(wù)。
2.質(zhì)量控制:一致性極低的問題(例如 10 次回答各不相同)往往是定義不清或邏輯混亂的,該機(jī)制能有效過濾掉這類噪聲數(shù)據(jù)。消融實驗證明,移除該步驟會導(dǎo)致模型性能顯著下降 。
為了生成高效的課程,挑戰(zhàn)者的獎勵函數(shù)由三部分構(gòu)成 :
- 不確定性獎勵(Uncertainty Reward):這是獎勵函數(shù)的核心。其公式為 runcertainty=1?2∣p^(x;S?)?1/2∣,其中 p^ 是解決者對問題 x 的經(jīng)驗正確率。當(dāng)解決者的正確率接近 50% 時,獎勵最大化。這一設(shè)計的理論依據(jù)是,此時學(xué)習(xí)者的學(xué)習(xí)效率最高,每個樣本帶來的信息增益也最大 。
- 重復(fù)懲罰(Repetition Penalty):為保證課程的多樣性,框架利用 BLEU 分?jǐn)?shù)來衡量批次內(nèi)問題的相似度,并對過于相似的問題施加懲罰 。
實驗結(jié)果與分析
數(shù)學(xué)推理能力顯著提升:經(jīng)過三輪自我進(jìn)化,Qwen3-8B-Base 模型在多個數(shù)學(xué)基準(zhǔn)測試上的平均分從 49.18 提升至 54.69(+5.51)。
向通用領(lǐng)域的強(qiáng)大泛化能力:盡管訓(xùn)練任務(wù)集中于數(shù)學(xué),但模型的核心推理能力得到了泛化。在 MMLU-Pro、SuperGPQA 等通用推理基準(zhǔn)上,Qwen3-8B-Base 的平均分提升了 3.81 分 。這表明 R-Zero 增強(qiáng)的是模型底層的通用能力,而非特定領(lǐng)域的知識記憶。
與人類數(shù)據(jù)的協(xié)同效應(yīng)
實驗證明,先經(jīng)過 R-Zero 訓(xùn)練的基礎(chǔ)模型,再使用人類標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),能達(dá)到比直接微調(diào)更高的性能。這說明 R-Zero 可以作為一種高效的中間訓(xùn)練階段,最大化人類標(biāo)注數(shù)據(jù)的價值 。
核心局限與未來展望
盡管成果顯著,R-Zero 框架也揭示了其內(nèi)在的挑戰(zhàn)和局限性。
- 偽標(biāo)簽準(zhǔn)確率的衰減:這是該框架最核心的挑戰(zhàn)。分析表明,隨著課程難度在迭代中提升,由自我一致性生成的偽標(biāo)簽的真實準(zhǔn)確率,從第一輪的 79.0% 系統(tǒng)性地下降到了第三輪的 63.0%。這意味著模型在后期學(xué)習(xí)的監(jiān)督信號中包含了更多的噪聲。如何在這種難度與質(zhì)量的權(quán)衡中找到穩(wěn)定點(diǎn),是決定該框架能否長期進(jìn)化的關(guān)鍵。
- 領(lǐng)域局限性:當(dāng)前框架高度依賴于那些存在客觀、可驗證正確答案的領(lǐng)域(如數(shù)學(xué))。對于評估標(biāo)準(zhǔn)主觀、解決方案多元的任務(wù)(如創(chuàng)意寫作、戰(zhàn)略規(guī)劃),基于多數(shù)投票的自我監(jiān)督機(jī)制將難以適用 。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.