成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

僅5000+樣本,全新強(qiáng)化學(xué)習(xí)范式讓30B輕松擊敗671B的DeepSeek V3

0
分享至



  • 傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)在有標(biāo)準(zhǔn)答案的指令遵循任務(wù)(如數(shù)學(xué)、代碼)上已趨成熟,但在開放式的創(chuàng)意寫作領(lǐng)域卻因缺乏客觀對錯(cuò)而舉步維艱。如何讓 RL 突破「可驗(yàn)證獎(jiǎng)勵(lì)」的邊界?螞蟻技術(shù)研究院聯(lián)合浙江大學(xué)開源全新強(qiáng)化學(xué)習(xí)范式 Rubicon,通過構(gòu)建業(yè)界最大規(guī)模的 10,000+ 條「評分標(biāo)尺」,成功將強(qiáng)化學(xué)習(xí)的應(yīng)用范圍拓展至更廣闊的主觀任務(wù)領(lǐng)域。用 5000 樣本即超越 671B 模型,讓 AI 告別「機(jī)械味」。

自 OpenAI o1 系列模型問世以來,基于「可驗(yàn)證獎(jiǎng)勵(lì)」的強(qiáng)化學(xué)習(xí)(RLVR)已成為提升大模型推理能力的主流。通過海量的數(shù)學(xué)題、代碼題進(jìn)行訓(xùn)練,AI 在客觀對錯(cuò)分明的領(lǐng)域取得了巨大成功。

然而,這也暴露了當(dāng)前技術(shù)路線的瓶頸:當(dāng)面對沒有標(biāo)準(zhǔn)答案的開放性、主觀性任務(wù)時(shí),AI 怎么辦?

如何讓 AI 寫出情感充沛的文字,而不是「AI 味」十足的模板?如何讓它進(jìn)行有深度的創(chuàng)意構(gòu)思,而不是簡單的信息羅列?這正是當(dāng)前 AI 邁向更高層次智能需要破解的「靈魂難題」。

基于此,螞蟻技術(shù)研究院聯(lián)合浙江大學(xué),正式開源其最新研究成果 ——Rubicon-preview 模型,并推出一套名為「基于評分標(biāo)尺的強(qiáng)化學(xué)習(xí)(Rubric-basedReinforcement Learning)」的全新范式,為 AI 的主觀創(chuàng)造力提升開辟了一條新路。



  • 論文標(biāo)題:Reinforcement Learning with Rubric Anchors
  • 論文地址:https://arxiv.org/pdf/2508.12790
  • 項(xiàng)目地址: https://huggingface.co/inclusionAI/Rubicon-Preview

Rubicon:為 AI 裝上「萬能標(biāo)尺」,量化主觀世界

傳統(tǒng)強(qiáng)化學(xué)習(xí)依賴非黑即白的獎(jiǎng)勵(lì)信號,而團(tuán)隊(duì)方法 Rubicon 的核心思想是:放棄尋找客觀的「標(biāo)準(zhǔn)答案」,轉(zhuǎn)而教會(huì) AI 理解主觀的「評分標(biāo)準(zhǔn)(Rubric)」?!窻ubicon」一名源自 RUBrIC aNchOrs (評分標(biāo)尺構(gòu)成的錨點(diǎn)),意在為模型在主觀世界中提供穩(wěn)定、可靠的航向。

為了將這一理念落地,尤其是在人文、社科等實(shí)用領(lǐng)域的復(fù)雜主觀任務(wù)上,團(tuán)隊(duì)構(gòu)建了業(yè)界已知最大規(guī)模的 Rubric 知識庫,包含了超過 10,000 條精細(xì)化評分標(biāo)準(zhǔn),首次大規(guī)模地將人類在創(chuàng)意寫作、情感對話中的微妙偏好,轉(zhuǎn)化為 AI 可學(xué)習(xí)的指導(dǎo)信號。

這不僅是數(shù)據(jù)量的提升,更是為強(qiáng)化學(xué)習(xí)范式開辟了全新的獎(jiǎng)勵(lì)(Reward)來源,從根本上拓展了其應(yīng)用邊界。



Rubicon-preview 模型亮點(diǎn)

1. 四兩撥千斤:5000 樣本超越 671B 模型,訓(xùn)練效率驚人

實(shí)驗(yàn)證明,僅用 5000+ 訓(xùn)練樣本,團(tuán)隊(duì)訓(xùn)練的 30B 模型 Rubicon-preview 在多項(xiàng)開放性、人文類任務(wù)上實(shí)現(xiàn)了 +5.2% 的絕對性能提升,甚至超越了 671B 參數(shù)的 DeepSeek-V3 模型。

這一成果揭示了「規(guī)?;u分標(biāo)準(zhǔn) (Scaling Rubrics)」的巨大潛力,有望在一定程度上緩解 AI 對海量訓(xùn)練數(shù)據(jù)的依賴。



2. 告別「AI 味」:精準(zhǔn)的風(fēng)格控制,更具人性的表達(dá)

Rubric 的深度指導(dǎo)賦予了模型前所未有的風(fēng)格掌控力。

面對同一個(gè)情感類問題,傳統(tǒng)模型往往會(huì)給出「作為 AI,我沒有感情」的機(jī)械式回答,而基于 rubrics RL 訓(xùn)練的模型則能生成充滿共情和故事性的內(nèi)容。

3. 破解「蹺蹺板效應(yīng)」:創(chuàng)意與推理能力兼得

在 AI 訓(xùn)練中,提升創(chuàng)意能力往往會(huì)犧牲邏輯推理能力,形成「蹺蹺板效應(yīng)」。Rubicon 框架通過巧妙的多階段訓(xùn)練策略,成功破解了這一難題。

模型在主觀任務(wù)性能大幅提升的同時(shí),在 AIME 等數(shù)學(xué)推理基準(zhǔn)上仍有穩(wěn)定提升,實(shí)現(xiàn)了感性與理性的協(xié)同進(jìn)化。



螞蟻技術(shù)研究院與浙江大學(xué)團(tuán)隊(duì)表示,此次開源不僅是分享一個(gè)模型,更是希望將這套全新的、行之有效的強(qiáng)化學(xué)習(xí)范式與核心基礎(chǔ)設(shè)施貢獻(xiàn)給全球開發(fā)者。團(tuán)隊(duì)相信,一個(gè)能更好地理解人類情感與創(chuàng)造力的 AI 時(shí)代正加速到來,并期待與社區(qū)共同探索其無限可能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
43歲范冰冰國外被偶遇,白色休閑裝灑脫大氣,又白又瘦毫無年齡感

43歲范冰冰國外被偶遇,白色休閑裝灑脫大氣,又白又瘦毫無年齡感

小喬古裝漢服
2025-08-31 10:20:03
“兒媳,你新房這么小,我住哪里”“阿姨,您怎能住外人的房呢”

“兒媳,你新房這么小,我住哪里”“阿姨,您怎能住外人的房呢”

清水家庭故事
2025-09-03 06:17:03
劇透!詹姆斯中國行現(xiàn)場大揭秘,巨型logo霸氣亮相

劇透!詹姆斯中國行現(xiàn)場大揭秘,巨型logo霸氣亮相

雷速體育
2025-09-03 18:10:40
美團(tuán)CEO王興和騎手一同受邀觀禮,還有員工參加受閱方隊(duì)

美團(tuán)CEO王興和騎手一同受邀觀禮,還有員工參加受閱方隊(duì)

第一財(cái)經(jīng)資訊
2025-09-03 17:53:25
她在“非誠勿擾”站了五年,頻頻爆燈卻無人牽手,最終被孟非趕走

她在“非誠勿擾”站了五年,頻頻爆燈卻無人牽手,最終被孟非趕走

牛牛叨史
2025-08-25 23:52:49
網(wǎng)友臺北偶遇許瑋甯,產(chǎn)后復(fù)出工作很認(rèn)真,皮膚白皙?dú)赓|(zhì)出眾

網(wǎng)友臺北偶遇許瑋甯,產(chǎn)后復(fù)出工作很認(rèn)真,皮膚白皙?dú)赓|(zhì)出眾

笑貓說說
2025-09-04 01:36:23
小鵬汽車“5年0息0首付0手續(xù)費(fèi)”本月限時(shí)回歸,至高貼息55700元

小鵬汽車“5年0息0首付0手續(xù)費(fèi)”本月限時(shí)回歸,至高貼息55700元

IT之家
2025-09-03 18:20:23
民調(diào)出爐,鄭麗文成陪跑,第二個(gè)盧秀燕出現(xiàn),洪秀柱直接選擇北上

民調(diào)出爐,鄭麗文成陪跑,第二個(gè)盧秀燕出現(xiàn),洪秀柱直接選擇北上

劉森森
2025-09-03 12:46:36
杭州一面館一碗面賣2188元,食材含黃鱔、紅蝦、鮑魚等,老板:半月內(nèi)賣出十多碗

杭州一面館一碗面賣2188元,食材含黃鱔、紅蝦、鮑魚等,老板:半月內(nèi)賣出十多碗

極目新聞
2025-09-02 12:36:58
沈陽師范大學(xué)“黑水事件”

沈陽師范大學(xué)“黑水事件”

吃瓜體
2025-09-03 21:13:01
九三閱兵現(xiàn)場:外交天團(tuán)好興奮,雷軍3點(diǎn)去排隊(duì),讓人意外的是他

九三閱兵現(xiàn)場:外交天團(tuán)好興奮,雷軍3點(diǎn)去排隊(duì),讓人意外的是他

鯨探所長
2025-09-03 19:43:24
洪秀柱凌晨怒斥民進(jìn)黨:紀(jì)念先烈要你批準(zhǔn)?45個(gè)方隊(duì)碾碎臺獨(dú)幻想

洪秀柱凌晨怒斥民進(jìn)黨:紀(jì)念先烈要你批準(zhǔn)?45個(gè)方隊(duì)碾碎臺獨(dú)幻想

現(xiàn)代小青青慕慕
2025-09-04 07:36:42
窮人突然有錢后能揮霍到什么程度?網(wǎng)友:暴富后的膨脹太可怕了!

窮人突然有錢后能揮霍到什么程度?網(wǎng)友:暴富后的膨脹太可怕了!

特約前排觀眾
2025-07-11 00:05:10
特朗普病情藏不住了!不到72小時(shí),萬斯公開表態(tài):已做好接班準(zhǔn)備

特朗普病情藏不住了!不到72小時(shí),萬斯公開表態(tài):已做好接班準(zhǔn)備

古史青云啊
2025-09-03 11:43:12
拔出蘿卜帶出泥!吳京風(fēng)波牽連張譯,怪不得謝楠說下輩子不愿嫁他

拔出蘿卜帶出泥!吳京風(fēng)波牽連張譯,怪不得謝楠說下輩子不愿嫁他

無處不風(fēng)景l(fā)ove
2025-09-01 23:20:37
美軍突然攻擊委內(nèi)瑞拉目標(biāo),戰(zhàn)斧導(dǎo)彈擊沉船只,人員死傷慘重

美軍突然攻擊委內(nèi)瑞拉目標(biāo),戰(zhàn)斧導(dǎo)彈擊沉船只,人員死傷慘重

松林看世界
2025-09-04 07:02:47
受邀參加閱兵式后,上海這位小學(xué)校長在天安門廣場和孩子們現(xiàn)場連線

受邀參加閱兵式后,上海這位小學(xué)校長在天安門廣場和孩子們現(xiàn)場連線

上觀新聞
2025-09-03 19:10:52
她靠出演情色電影走紅,從不愿意找替身,次次真槍實(shí)戰(zhàn)、假戲真做

她靠出演情色電影走紅,從不愿意找替身,次次真槍實(shí)戰(zhàn)、假戲真做

素然追光
2025-09-03 00:20:59
楊昌濟(jì)臨終遺言:救國必倚仗二人,一個(gè)是毛澤東,另一個(gè)是誰?

楊昌濟(jì)臨終遺言:救國必倚仗二人,一個(gè)是毛澤東,另一個(gè)是誰?

好玩的國學(xué)
2025-09-02 11:44:05
臺媒驚呼無解:解決臺灣問題最佳方案問世,法律與心理戰(zhàn)雙管齊下

臺媒驚呼無解:解決臺灣問題最佳方案問世,法律與心理戰(zhàn)雙管齊下

放開他讓wo來
2025-08-25 08:48:28
2025-09-04 09:12:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11224文章數(shù) 142440關(guān)注度
往期回顧 全部

科技要聞

傳蘋果自研AI搜索,明年iPhone將大升級

頭條要聞

19歲姑娘在九三閱兵儀式上擔(dān)任長號手 暑假結(jié)束上大二

頭條要聞

19歲姑娘在九三閱兵儀式上擔(dān)任長號手 暑假結(jié)束上大二

體育要聞

排面!德國大使館盛贊樊振東:世界級巨星

娛樂要聞

劉尚嫻 最幸運(yùn)的事 就是嫁給初戀丈夫

財(cái)經(jīng)要聞

美國8月份關(guān)稅突破310億美元 創(chuàng)歷史新高

汽車要聞

一天一個(gè)樣 方程豹鈦3玩轉(zhuǎn)“面部重組”

態(tài)度原創(chuàng)

時(shí)尚
房產(chǎn)
旅游
手機(jī)
公開課

鄭合惠子,好容易出cp的一款“雜草系”女演員

房產(chǎn)要聞

海南樓市,最新榜單發(fā)布!有盤單月狂賣11.7億!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機(jī)要聞

iPhone 17發(fā)布在即,華爾街預(yù)計(jì)新機(jī)難逃提價(jià)命運(yùn)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版