僅5000+樣本，全新強(qiáng)化學(xué)習(xí)范式讓30B輕松擊敗671B的DeepSeek V3

2025-08-25 12:30:33　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

傳統(tǒng)強(qiáng)化學(xué)習(xí)（RL）在有標(biāo)準(zhǔn)答案的指令遵循任務(wù)（如數(shù)學(xué)、代碼）上已趨成熟，但在開放式的創(chuàng)意寫作領(lǐng)域卻因缺乏客觀對錯(cuò)而舉步維艱。如何讓 RL 突破「可驗(yàn)證獎(jiǎng)勵(lì)」的邊界？螞蟻技術(shù)研究院聯(lián)合浙江大學(xué)開源全新強(qiáng)化學(xué)習(xí)范式 Rubicon，通過構(gòu)建業(yè)界最大規(guī)模的 10,000+ 條「評分標(biāo)尺」，成功將強(qiáng)化學(xué)習(xí)的應(yīng)用范圍拓展至更廣闊的主觀任務(wù)領(lǐng)域。用 5000 樣本即超越 671B 模型，讓 AI 告別「機(jī)械味」。

自 OpenAI o1 系列模型問世以來，基于「可驗(yàn)證獎(jiǎng)勵(lì)」的強(qiáng)化學(xué)習(xí)（RLVR）已成為提升大模型推理能力的主流。通過海量的數(shù)學(xué)題、代碼題進(jìn)行訓(xùn)練，AI 在客觀對錯(cuò)分明的領(lǐng)域取得了巨大成功。

然而，這也暴露了當(dāng)前技術(shù)路線的瓶頸：當(dāng)面對沒有標(biāo)準(zhǔn)答案的開放性、主觀性任務(wù)時(shí)，AI 怎么辦？

如何讓 AI 寫出情感充沛的文字，而不是「AI 味」十足的模板？如何讓它進(jìn)行有深度的創(chuàng)意構(gòu)思，而不是簡單的信息羅列？這正是當(dāng)前 AI 邁向更高層次智能需要破解的「靈魂難題」。

基于此，螞蟻技術(shù)研究院聯(lián)合浙江大學(xué)，正式開源其最新研究成果 ——Rubicon-preview 模型，并推出一套名為「基于評分標(biāo)尺的強(qiáng)化學(xué)習(xí)（Rubric-basedReinforcement Learning）」的全新范式，為 AI 的主觀創(chuàng)造力提升開辟了一條新路。

論文標(biāo)題：Reinforcement Learning with Rubric Anchors
論文地址：https://arxiv.org/pdf/2508.12790
項(xiàng)目地址： https://huggingface.co/inclusionAI/Rubicon-Preview

Rubicon：為 AI 裝上「萬能標(biāo)尺」，量化主觀世界

傳統(tǒng)強(qiáng)化學(xué)習(xí)依賴非黑即白的獎(jiǎng)勵(lì)信號，而團(tuán)隊(duì)方法 Rubicon 的核心思想是：放棄尋找客觀的「標(biāo)準(zhǔn)答案」，轉(zhuǎn)而教會(huì) AI 理解主觀的「評分標(biāo)準(zhǔn)（Rubric）」?！窻ubicon」一名源自 RUBrIC aNchOrs (評分標(biāo)尺構(gòu)成的錨點(diǎn))，意在為模型在主觀世界中提供穩(wěn)定、可靠的航向。

為了將這一理念落地，尤其是在人文、社科等實(shí)用領(lǐng)域的復(fù)雜主觀任務(wù)上，團(tuán)隊(duì)構(gòu)建了業(yè)界已知最大規(guī)模的 Rubric 知識庫，包含了超過 10,000 條精細(xì)化評分標(biāo)準(zhǔn)，首次大規(guī)模地將人類在創(chuàng)意寫作、情感對話中的微妙偏好，轉(zhuǎn)化為 AI 可學(xué)習(xí)的指導(dǎo)信號。

這不僅是數(shù)據(jù)量的提升，更是為強(qiáng)化學(xué)習(xí)范式開辟了全新的獎(jiǎng)勵(lì)（Reward）來源，從根本上拓展了其應(yīng)用邊界。

Rubicon-preview 模型亮點(diǎn)

1. 四兩撥千斤：5000 樣本超越 671B 模型，訓(xùn)練效率驚人

實(shí)驗(yàn)證明，僅用 5000+ 訓(xùn)練樣本，團(tuán)隊(duì)訓(xùn)練的 30B 模型 Rubicon-preview 在多項(xiàng)開放性、人文類任務(wù)上實(shí)現(xiàn)了 +5.2% 的絕對性能提升，甚至超越了 671B 參數(shù)的 DeepSeek-V3 模型。

這一成果揭示了「規(guī)?；u分標(biāo)準(zhǔn) (Scaling Rubrics)」的巨大潛力，有望在一定程度上緩解 AI 對海量訓(xùn)練數(shù)據(jù)的依賴。

2. 告別「AI 味」：精準(zhǔn)的風(fēng)格控制，更具人性的表達(dá)

Rubric 的深度指導(dǎo)賦予了模型前所未有的風(fēng)格掌控力。

面對同一個(gè)情感類問題，傳統(tǒng)模型往往會(huì)給出「作為 AI，我沒有感情」的機(jī)械式回答，而基于 rubrics RL 訓(xùn)練的模型則能生成充滿共情和故事性的內(nèi)容。

3. 破解「蹺蹺板效應(yīng)」：創(chuàng)意與推理能力兼得

在 AI 訓(xùn)練中，提升創(chuàng)意能力往往會(huì)犧牲邏輯推理能力，形成「蹺蹺板效應(yīng)」。Rubicon 框架通過巧妙的多階段訓(xùn)練策略，成功破解了這一難題。

模型在主觀任務(wù)性能大幅提升的同時(shí)，在 AIME 等數(shù)學(xué)推理基準(zhǔn)上仍有穩(wěn)定提升，實(shí)現(xiàn)了感性與理性的協(xié)同進(jìn)化。

螞蟻技術(shù)研究院與浙江大學(xué)團(tuán)隊(duì)表示，此次開源不僅是分享一個(gè)模型，更是希望將這套全新的、行之有效的強(qiáng)化學(xué)習(xí)范式與核心基礎(chǔ)設(shè)施貢獻(xiàn)給全球開發(fā)者。團(tuán)隊(duì)相信，一個(gè)能更好地理解人類情感與創(chuàng)造力的 AI 時(shí)代正加速到來，并期待與社區(qū)共同探索其無限可能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.