成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

不用千億參數(shù)也能合成高質(zhì)量數(shù)據(jù)!開源框架讓小模型“組團(tuán)逆襲”

0
分享至

GRA團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

無(wú)需蒸餾任何大規(guī)模語(yǔ)言模型,小模型也能自給自足、聯(lián)合提升?

上海人工智能實(shí)驗(yàn)室聯(lián)合中國(guó)人民大學(xué)提出的GRA框架(Generator–Reviewer–Adjudicator) 正是這樣一種新范式:

該方法以“多人協(xié)作”、“角色分工”的理念為核心,系統(tǒng)性探索了多開源小模型如何通過(guò)協(xié)同機(jī)制生成高質(zhì)量訓(xùn)練數(shù)據(jù)。



實(shí)驗(yàn)結(jié)果顯示,在涵蓋數(shù)學(xué)、代碼、邏輯推理、通識(shí)問(wèn)答等10個(gè)主流數(shù)據(jù)集上,GRA生成的數(shù)據(jù)質(zhì)量與單個(gè)大型語(yǔ)言模型(如Qwen-2.5-72B-Instruct)輸出相當(dāng)或更高,并在多數(shù)任務(wù)中取得了顯著領(lǐng)先。



該項(xiàng)目已開源,詳細(xì)可見(jiàn)文末鏈接。

GRA框架:“模擬論文投稿”



如果說(shuō)傳統(tǒng)方法是單槍匹馬生成數(shù)據(jù),那GRA更像是一次“模擬頂會(huì)審稿流程”——作者、審稿人、AC各就各位,小模型分工合作、打分評(píng)審,確保數(shù)據(jù)內(nèi)容質(zhì)量穩(wěn)定、標(biāo)準(zhǔn)統(tǒng)一。

1.Generator:像“作者”一樣創(chuàng)作新樣本

GRA會(huì)先將任務(wù)劃分為多個(gè)領(lǐng)域(如數(shù)學(xué)、編程、邏輯推理等),每個(gè)Generator小模型負(fù)責(zé)在對(duì)應(yīng)領(lǐng)域生成新指令與響應(yīng)。它們從種子數(shù)據(jù)中提取關(guān)鍵詞與摘要,結(jié)合領(lǐng)域知識(shí)生成高質(zhì)量樣本,確保內(nèi)容豐富、主題聚焦、語(yǔ)義清晰。

2.Reviewer:像“審稿人”一樣嚴(yán)格評(píng)審

每條數(shù)據(jù)生成后,會(huì)交由多個(gè)Reviewer小模型進(jìn)行兩輪審查:

  • 首先檢查指令是否合理、清晰;
  • 然后全面評(píng)估響應(yīng)的正確性、相關(guān)性與語(yǔ)言質(zhì)量,并打分附評(píng)語(yǔ)。

系統(tǒng)會(huì)根據(jù)平均評(píng)分與評(píng)分一致性篩選樣本——分?jǐn)?shù)偏低的直接淘汰,意見(jiàn)分歧的則送入下一環(huán)節(jié)。

3.Adjudicator:像“AC”一樣做出最終裁決

當(dāng)Reviewer之間出現(xiàn)評(píng)分沖突時(shí),Adjudicator小模型將登場(chǎng),獨(dú)立復(fù)審并做出最終判斷。它如同學(xué)術(shù)審稿中的AreaChair,有效避免“多數(shù)誤判”,確保留下來(lái)的數(shù)據(jù)客觀、可靠。

4.后處理模塊:讓好數(shù)據(jù)更“精致”

通過(guò)評(píng)審后,系統(tǒng)還將進(jìn)行語(yǔ)義去重、摘要補(bǔ)全與格式統(tǒng)一,進(jìn)一步提升樣本的一致性與表達(dá)質(zhì)量。

總的來(lái)說(shuō),GRA構(gòu)建了一個(gè)“模擬頂會(huì)審稿”的自動(dòng)化系統(tǒng):小模型們輪流扮演創(chuàng)作、審閱、仲裁等角色,在多輪協(xié)作中生成高質(zhì)量訓(xùn)練數(shù)據(jù)。

這種機(jī)制不僅提升了數(shù)據(jù)生成的多樣性與公正性,也打破了以往對(duì)大模型蒸餾的依賴——實(shí)現(xiàn)了真正屬于小模型的“集體智能”路徑。

實(shí)驗(yàn)驗(yàn)證:“三個(gè)臭皮匠賽過(guò)諸葛亮”

GRA團(tuán)隊(duì)選取了覆蓋數(shù)學(xué)推理(如Math、GSM8K)、代碼生成(HumanEval、MBPP)、推理問(wèn)答(HellaSwag、ARC-C、GPQA、BBH)和通識(shí)問(wèn)答(MMLU、IFEval)四個(gè)領(lǐng)域的10個(gè)公開數(shù)據(jù)集,以全面評(píng)GRA框架的性能。

GRA框架集成了5個(gè)參數(shù)量在7–8B之間的開源小型語(yǔ)言模型,包括LLaMA-3.1-8B-Instruct、Qwen-2.5-7B-Instruct、InternLM3-8B-Instruct、Mistral-7B-Instruct-v0.3和Tulu-3-8B。

將GRA生成的數(shù)據(jù)用于訓(xùn)練兩個(gè)基礎(chǔ)模型(LLaMA-3.1-8B-Base和Qwen-2.5-7B-Base),并與原始種子數(shù)據(jù)以及Qwen-2.5-32B、Qwen-2.5-72B-Instruct蒸餾生成的數(shù)據(jù)進(jìn)行了系統(tǒng)對(duì)比。



實(shí)驗(yàn)核心結(jié)果表明:

1.明顯優(yōu)于原始數(shù)據(jù):GRA生成的數(shù)據(jù)在LLaMA-3.1上平均提升了6.18%,在Qwen-2.5上平均提升了11.81%,說(shuō)明即便在小模型之間協(xié)作,GRA也能顯著提升數(shù)據(jù)質(zhì)量和訓(xùn)練效果。

2.能和大模型蒸餾正面硬剛:GRA在LLaMA-3.1生成數(shù)據(jù)訓(xùn)練的模型性能,僅比Qwen-72B蒸餾版低0.59%;在Qwen-2.5生成數(shù)據(jù)訓(xùn)練的模型性能,平均領(lǐng)先Qwen-72B蒸餾版達(dá)8.83%。表明小模型協(xié)同機(jī)制有望成為更低成本、更高性價(jià)比的大模型替代方案。

3.大模型“更大”≠更好:實(shí)驗(yàn)還發(fā)現(xiàn),Qwen-72B相比32B的性能增幅有限,反映出傳統(tǒng)蒸餾范式在進(jìn)一步擴(kuò)大參數(shù)規(guī)模時(shí),收益正逐漸遞減。相比之下,GRA的“群體智慧”路徑更具擴(kuò)展?jié)摿Α?/p>

一句話總結(jié):多個(gè)小模型合理分工,也能“卷”出媲美甚至超越大模型的訓(xùn)練效果。這不僅節(jié)省算力,更可能重塑我們對(duì)“什么才是有效數(shù)據(jù)合成”的認(rèn)知。

要素分析:“1+1+1>3”

從數(shù)據(jù)多樣性、質(zhì)量、難度控制等維度對(duì)GRA的優(yōu)勢(shì)進(jìn)行分析,發(fā)現(xiàn)以下關(guān)鍵因素:

1.數(shù)據(jù)多樣,補(bǔ)充盲區(qū)

通過(guò)t-SNE可視化對(duì)比發(fā)現(xiàn),GRA生成的數(shù)據(jù)分布明顯比原始種子數(shù)據(jù)和大模型蒸餾數(shù)據(jù)更廣、更均勻,尤其在原始數(shù)據(jù)未覆蓋的語(yǔ)義空間中表現(xiàn)出良好的補(bǔ)充能力。這表明GRA所產(chǎn)數(shù)據(jù)具備更強(qiáng)的覆蓋面和多樣性。



2.數(shù)據(jù)質(zhì)量靠譜,審得細(xì)也審得穩(wěn)

GRA生成的數(shù)據(jù)不僅通過(guò)多個(gè)小模型評(píng)審,還在對(duì)比實(shí)驗(yàn)中獲得了來(lái)自Qwen-2.5-72B的高分認(rèn)可——其中超過(guò)87.3%的樣本評(píng)分高度一致。

同時(shí),GRA的評(píng)分體系呈現(xiàn)出更平滑、細(xì)膩的分布,表明其在數(shù)據(jù)質(zhì)量評(píng)估中具備更強(qiáng)的分辨力和一致性,驗(yàn)證了其數(shù)據(jù)篩選機(jī)制的可靠性。



3.數(shù)據(jù)更“難啃”,訓(xùn)練更有效

通過(guò)Instruction-Following Difficulty(IFD)指標(biāo)分析,GRA生成數(shù)據(jù)的任務(wù)難度比種子數(shù)據(jù)高出14.58%,并且與大模型蒸餾數(shù)據(jù)基本持平(GRA:75.82%,Qwen-72B蒸餾:75.49%)。這意味著GRA能夠構(gòu)建具挑戰(zhàn)性、高知識(shí)密度的數(shù)據(jù),為小模型提供更具張力的訓(xùn)練樣本。



論文地址:https://arxiv.org/abs/2504.12322
項(xiàng)目地址:https://github.com/GX-XinGao/GRA
模型地址:https://huggingface.co/collections/GX-XinGao/gra-6801cba58ceb0074566cdb4e

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
網(wǎng)友們已經(jīng)猜出了今年的新出生人口數(shù)據(jù)了

網(wǎng)友們已經(jīng)猜出了今年的新出生人口數(shù)據(jù)了

清暉有墨
2025-09-01 17:42:14
宋軼的臉到底怎么了?她一句話讓全網(wǎng)炸鍋!

宋軼的臉到底怎么了?她一句話讓全網(wǎng)炸鍋!

毒舌八卦
2025-08-31 22:34:38
老梁炮轟《南京照相館》與史實(shí)不符!卻被沈逸揭開遮羞布:精日

老梁炮轟《南京照相館》與史實(shí)不符!卻被沈逸揭開遮羞布:精日

小徐講八卦
2025-09-01 08:13:42
外國(guó)專家很不解:很多國(guó)家都侵略過(guò)中國(guó),為何中國(guó)人最恨日本人?

外國(guó)專家很不解:很多國(guó)家都侵略過(guò)中國(guó),為何中國(guó)人最恨日本人?

大千世界觀
2025-08-31 21:58:06
孟村女子家現(xiàn)場(chǎng):墻上寫了大字,門口停了兒童車,男方朋友圈曝光

孟村女子家現(xiàn)場(chǎng):墻上寫了大字,門口停了兒童車,男方朋友圈曝光

古希臘掌管松餅的神
2025-09-01 18:18:33
九三閱兵將開幕:中方7大鄰國(guó)拒絕出席;1國(guó)總統(tǒng)在人民日?qǐng)?bào)撰文

九三閱兵將開幕:中方7大鄰國(guó)拒絕出席;1國(guó)總統(tǒng)在人民日?qǐng)?bào)撰文

吳欣純Deborah
2025-09-01 15:52:08
又一知名家居公司創(chuàng)始人疑墜亡

又一知名家居公司創(chuàng)始人疑墜亡

新浪財(cái)經(jīng)
2025-09-01 00:08:36
高盛預(yù)言:2027年房?jī)r(jià)再跌10%,2027年谷底將至,現(xiàn)在買房等于首付打水漂!

高盛預(yù)言:2027年房?jī)r(jià)再跌10%,2027年谷底將至,現(xiàn)在買房等于首付打水漂!

新浪財(cái)經(jīng)
2025-09-01 09:05:49
瑤瑤哭聲求救45秒錄音曝光:“別打了,疼死了,我答應(yīng)跟你離婚”

瑤瑤哭聲求救45秒錄音曝光:“別打了,疼死了,我答應(yīng)跟你離婚”

漢史趣聞
2025-09-01 11:32:17
重磅:烏克蘭火烈鳥導(dǎo)彈攻擊克里米亞!擊毀俄安全局大樓

重磅:烏克蘭火烈鳥導(dǎo)彈攻擊克里米亞!擊毀俄安全局大樓

項(xiàng)鵬飛
2025-09-01 18:07:01
“最快女護(hù)士”奪冠后哭訴想要領(lǐng)導(dǎo)多給調(diào)休,情商欠佳?

“最快女護(hù)士”奪冠后哭訴想要領(lǐng)導(dǎo)多給調(diào)休,情商欠佳?

新民周刊
2025-09-01 20:45:09
成都成華區(qū):中鐵二十二局一在建工地塔吊坍塌致5人遇難,涉事工地已封停

成都成華區(qū):中鐵二十二局一在建工地塔吊坍塌致5人遇難,涉事工地已封停

界面新聞
2025-09-01 21:22:14
莫迪的演技,已到頂級(jí)

莫迪的演技,已到頂級(jí)

虛聲
2025-09-01 21:09:47
從上合到九三閱兵,兩個(gè)主場(chǎng)外交……

從上合到九三閱兵,兩個(gè)主場(chǎng)外交……

新民周刊
2025-09-01 13:04:48
索帥、穆里尼奧及滕哈格均下課,四天內(nèi)三位曼聯(lián)前主帥被解雇

索帥、穆里尼奧及滕哈格均下課,四天內(nèi)三位曼聯(lián)前主帥被解雇

懂球帝
2025-09-01 19:54:08
那么多臺(tái)企,為什么只有旺旺集團(tuán)敢公開反“臺(tái)獨(dú)”?

那么多臺(tái)企,為什么只有旺旺集團(tuán)敢公開反“臺(tái)獨(dú)”?

寒叔說(shuō)國(guó)際
2025-09-01 11:46:44
交投集團(tuán)原董事長(zhǎng)、黨委書記被查!

交投集團(tuán)原董事長(zhǎng)、黨委書記被查!

新浪財(cái)經(jīng)
2025-09-01 22:00:51
夜間訂單暴增:“下單的幾乎都是年輕女性,有點(diǎn)不好意思”…專家緊急提醒

夜間訂單暴增:“下單的幾乎都是年輕女性,有點(diǎn)不好意思”…專家緊急提醒

佛山電視臺(tái)小強(qiáng)熱線
2025-09-01 19:42:58
潮汕富豪曬兒子成人禮,一箱金條還有大金鏈,男孩嘴角壓不住笑了

潮汕富豪曬兒子成人禮,一箱金條還有大金鏈,男孩嘴角壓不住笑了

小嵩
2025-09-01 18:05:22
網(wǎng)易號(hào)平臺(tái)每日辟謠公告(九月一日)

網(wǎng)易號(hào)平臺(tái)每日辟謠公告(九月一日)

網(wǎng)易號(hào)官方平臺(tái)
2025-09-01 18:01:11
2025-09-02 00:16:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11221文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

8月造車新勢(shì)力:零跑小鵬再創(chuàng)單月銷量新高

頭條要聞

金正恩坐防彈專列來(lái)北京 路程超20小時(shí)

頭條要聞

金正恩坐防彈專列來(lái)北京 路程超20小時(shí)

體育要聞

一支穿云箭,紅軍雙喜臨門

娛樂(lè)要聞

蘇有朋,禍從口出?

財(cái)經(jīng)要聞

行情剛好點(diǎn),創(chuàng)始人立馬漲估值

汽車要聞

激光雷達(dá)上車/配云輦-C 26款海豹07 DM-i全是硬貨

態(tài)度原創(chuàng)

數(shù)碼
本地
親子
手機(jī)
房產(chǎn)

數(shù)碼要聞

vivo Y500發(fā)布:vivo史上最強(qiáng)藍(lán)海電池,續(xù)航耐用雙滅霸

本地新聞

換個(gè)城市過(guò)夏天 | 夏末狂歡,浪在阜新黃家溝!

親子要聞

開學(xué)了,躺平孩子的復(fù)學(xué)難題,1招就解決!

手機(jī)要聞

一加也要有小金剛系列?覆蓋更多市場(chǎng)端

房產(chǎn)要聞

海珠宅地上新!廣州大道南788號(hào)二期8.6億起拍!

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版