- 傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)在有標(biāo)準(zhǔn)答案的指令遵循任務(wù)(如數(shù)學(xué)、代碼)上已趨成熟,但在開放式的創(chuàng)意寫作領(lǐng)域卻因缺乏客觀對錯(cuò)而舉步維艱。如何讓 RL 突破「可驗(yàn)證獎(jiǎng)勵(lì)」的邊界?螞蟻技術(shù)研究院聯(lián)合浙江大學(xué)開源全新強(qiáng)化學(xué)習(xí)范式 Rubicon,通過構(gòu)建業(yè)界最大規(guī)模的 10,000+ 條「評分標(biāo)尺」,成功將強(qiáng)化學(xué)習(xí)的應(yīng)用范圍拓展至更廣闊的主觀任務(wù)領(lǐng)域。用 5000 樣本即超越 671B 模型,讓 AI 告別「機(jī)械味」。
自 OpenAI o1 系列模型問世以來,基于「可驗(yàn)證獎(jiǎng)勵(lì)」的強(qiáng)化學(xué)習(xí)(RLVR)已成為提升大模型推理能力的主流。通過海量的數(shù)學(xué)題、代碼題進(jìn)行訓(xùn)練,AI 在客觀對錯(cuò)分明的領(lǐng)域取得了巨大成功。
然而,這也暴露了當(dāng)前技術(shù)路線的瓶頸:當(dāng)面對沒有標(biāo)準(zhǔn)答案的開放性、主觀性任務(wù)時(shí),AI 怎么辦?
如何讓 AI 寫出情感充沛的文字,而不是「AI 味」十足的模板?如何讓它進(jìn)行有深度的創(chuàng)意構(gòu)思,而不是簡單的信息羅列?這正是當(dāng)前 AI 邁向更高層次智能需要破解的「靈魂難題」。
基于此,螞蟻技術(shù)研究院聯(lián)合浙江大學(xué),正式開源其最新研究成果 ——Rubicon-preview 模型,并推出一套名為「基于評分標(biāo)尺的強(qiáng)化學(xué)習(xí)(Rubric-basedReinforcement Learning)」的全新范式,為 AI 的主觀創(chuàng)造力提升開辟了一條新路。
- 論文標(biāo)題:Reinforcement Learning with Rubric Anchors
- 論文地址:https://arxiv.org/pdf/2508.12790
- 項(xiàng)目地址: https://huggingface.co/inclusionAI/Rubicon-Preview
Rubicon:為 AI 裝上「萬能標(biāo)尺」,量化主觀世界
傳統(tǒng)強(qiáng)化學(xué)習(xí)依賴非黑即白的獎(jiǎng)勵(lì)信號,而團(tuán)隊(duì)方法 Rubicon 的核心思想是:放棄尋找客觀的「標(biāo)準(zhǔn)答案」,轉(zhuǎn)而教會(huì) AI 理解主觀的「評分標(biāo)準(zhǔn)(Rubric)」?!窻ubicon」一名源自 RUBrIC aNchOrs (評分標(biāo)尺構(gòu)成的錨點(diǎn)),意在為模型在主觀世界中提供穩(wěn)定、可靠的航向。
為了將這一理念落地,尤其是在人文、社科等實(shí)用領(lǐng)域的復(fù)雜主觀任務(wù)上,團(tuán)隊(duì)構(gòu)建了業(yè)界已知最大規(guī)模的 Rubric 知識庫,包含了超過 10,000 條精細(xì)化評分標(biāo)準(zhǔn),首次大規(guī)模地將人類在創(chuàng)意寫作、情感對話中的微妙偏好,轉(zhuǎn)化為 AI 可學(xué)習(xí)的指導(dǎo)信號。
這不僅是數(shù)據(jù)量的提升,更是為強(qiáng)化學(xué)習(xí)范式開辟了全新的獎(jiǎng)勵(lì)(Reward)來源,從根本上拓展了其應(yīng)用邊界。
Rubicon-preview 模型亮點(diǎn)
1. 四兩撥千斤:5000 樣本超越 671B 模型,訓(xùn)練效率驚人
實(shí)驗(yàn)證明,僅用 5000+ 訓(xùn)練樣本,團(tuán)隊(duì)訓(xùn)練的 30B 模型 Rubicon-preview 在多項(xiàng)開放性、人文類任務(wù)上實(shí)現(xiàn)了 +5.2% 的絕對性能提升,甚至超越了 671B 參數(shù)的 DeepSeek-V3 模型。
這一成果揭示了「規(guī)?;u分標(biāo)準(zhǔn) (Scaling Rubrics)」的巨大潛力,有望在一定程度上緩解 AI 對海量訓(xùn)練數(shù)據(jù)的依賴。
2. 告別「AI 味」:精準(zhǔn)的風(fēng)格控制,更具人性的表達(dá)
Rubric 的深度指導(dǎo)賦予了模型前所未有的風(fēng)格掌控力。
面對同一個(gè)情感類問題,傳統(tǒng)模型往往會(huì)給出「作為 AI,我沒有感情」的機(jī)械式回答,而基于 rubrics RL 訓(xùn)練的模型則能生成充滿共情和故事性的內(nèi)容。
3. 破解「蹺蹺板效應(yīng)」:創(chuàng)意與推理能力兼得
在 AI 訓(xùn)練中,提升創(chuàng)意能力往往會(huì)犧牲邏輯推理能力,形成「蹺蹺板效應(yīng)」。Rubicon 框架通過巧妙的多階段訓(xùn)練策略,成功破解了這一難題。
模型在主觀任務(wù)性能大幅提升的同時(shí),在 AIME 等數(shù)學(xué)推理基準(zhǔn)上仍有穩(wěn)定提升,實(shí)現(xiàn)了感性與理性的協(xié)同進(jìn)化。
螞蟻技術(shù)研究院與浙江大學(xué)團(tuán)隊(duì)表示,此次開源不僅是分享一個(gè)模型,更是希望將這套全新的、行之有效的強(qiáng)化學(xué)習(xí)范式與核心基礎(chǔ)設(shè)施貢獻(xiàn)給全球開發(fā)者。團(tuán)隊(duì)相信,一個(gè)能更好地理解人類情感與創(chuàng)造力的 AI 時(shí)代正加速到來,并期待與社區(qū)共同探索其無限可能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.