成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

7B模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強推理LLM

0
分享至

不圓 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

Thinking模式當(dāng)?shù)?,教師模型也該學(xué)會“啟發(fā)式”教學(xué)了——

由Transformer作者之一Llion Jones創(chuàng)立的明星AI公司Sakana AI,帶著他們的新方法來了!

這個方法要求教師模型像優(yōu)秀的人類教師一樣,根據(jù)已知解決方案輸出清晰的逐步解釋,而不再是從頭開始自己解決。



用Sanaka AI的新方法訓(xùn)練出的7B小模型,在傳授推理技能方面,比671B的DeepSeek-R1還要有效。

訓(xùn)練比自己大3倍的學(xué)生模型也不在話下。



對此有網(wǎng)友評價:我們剛剛才意識到,最好的老師不是房間里最聰明的人。





像人類老師一樣



許多高級推理模型,如DeepSeek-R1,遵循兩階段的訓(xùn)練過程:首先訓(xùn)練教師模型,然后使用其輸出訓(xùn)練學(xué)生模型,最終產(chǎn)品為學(xué)生模型。

傳統(tǒng)上,這些教師模型通過昂貴的強化學(xué)習(xí)(RL)進行訓(xùn)練,模型必須從頭學(xué)習(xí)解決復(fù)雜問題,只有在得到正確答案時才會獲得獎勵:

先讓教師模型得到問題的答案,再把答案仔細過濾并重新用作學(xué)生模型的訓(xùn)練數(shù)據(jù)。



這種方法緩慢、昂貴且往往過于偏狹,過于依賴教師模型自身能力。因為教師模型拿到的僅僅只有問題,它們需要自己思考給出結(jié)果。

而Sanaka AI的新方法不再通過解決問題來教學(xué),而是讓新的強化學(xué)習(xí)教師(RLTs)“學(xué)會教學(xué)”

要求它們根據(jù)已知解決方案輸出清晰的逐步解釋,就像優(yōu)秀的人類教師一樣。



就像一位好教師不需要重新發(fā)現(xiàn)數(shù)學(xué)定理來解釋它們一樣,RLTs在輸入提示中既獲得問題的內(nèi)容,也獲得每個問題的正確答案。

它們的任務(wù)是提供有助于學(xué)生模型學(xué)習(xí)的、逐步的詳細解釋,從而連接這些知識點。如果學(xué)生模型能夠根據(jù)教師對問題的解釋輕松理解正確解決方案,那么這就是RLTs做得好的信號。

也就是說,對RLTs的獎勵不再是能自己解決問題,而是能解釋對學(xué)生模型有多有幫助。



Sanaka AI的新方法解決了傳統(tǒng)方法中的兩個問題:

首先,新方法的訓(xùn)練循環(huán)使教師訓(xùn)練與其真正目的(為學(xué)生進行蒸餾/冷啟動提供幫助)保持一致,從而大大提高了效率。

其次,將問題和正確答案同時輸入RLT,能幫助原本無法獨立解決問題的小型模型學(xué)會教學(xué)。

這些特性使Sanaka AI的新方法能更快、更經(jīng)濟、更有效地訓(xùn)練出具有強大推理能力的學(xué)生模型。

小型教師模型的“不合理但有效”

為了驗證新方法的有效性,Sanaka AI用新方法訓(xùn)練了一個7B的RLT小模型作為教學(xué)模型與此前最先進的方法進行比較。

競爭方法使用規(guī)模更大的模型,如DeepSeek-R1和QwQ,并結(jié)合GPT-4o-mini等工具在用于訓(xùn)練學(xué)生模型之前清理其輸出,以獲得額外幫助。



結(jié)果發(fā)現(xiàn):使用相同的Qwen2.5學(xué)生模型、相同的問題以及相同的評估設(shè)置,RLT以遠少的計算量取得了比DeepSeek-R1和QwQ更好的效果。

把學(xué)生模型的規(guī)模擴大,結(jié)果同樣令人驚訝:7B的RLT成功訓(xùn)練了一個32B的學(xué)生模型,其規(guī)模是自己四倍以上,并取得了優(yōu)異的成果。

Sanaka AI的新方法還可以和傳統(tǒng)RL方法相輔相成:



上圖展示了在2024年美國邀請數(shù)學(xué)考試(AIME)、競賽數(shù)學(xué)和研究生級問答基準(zhǔn)(GPQA)上的平均性能。

新方法和傳統(tǒng)RL方法聯(lián)合使用,使RLT獲得了改進性能,并補充了傳統(tǒng)RL方法在問題解決方面的應(yīng)用。

用作起點時,RLT幫助學(xué)生模型達到了更高的性能水平。

從成本角度來看,差異非常顯著:使用RLT訓(xùn)練32B的學(xué)生模型僅需單個計算節(jié)點一天時間,而傳統(tǒng)RL方法在相同硬件上需要數(shù)月。

一項定性分析揭示了RLTs提供的解釋與Deepseek-R1的蒸餾軌跡之間存在一些差異:



Deepseek-R1的輸出常常依賴于外部工具,例如計算器、網(wǎng)絡(luò)上的討論以及玩梗,包括一些具有誤導(dǎo)性的內(nèi)容。

相比之下,RLT提供的解釋避免了令人困惑的語言,并增加了額外的邏輯步驟來幫助學(xué)生。

這些直觀的改進能夠轉(zhuǎn)化為學(xué)生語言模型的改進學(xué)習(xí),像人類專家一樣簡潔且清晰。

參考鏈接:
https://x.com/SakanaAILabs/status/1936965841188425776
博客:https://sakana.ai/rlt
論文:https://arxiv.org/abs/2506.08388
代碼:github.com/SakanaAI/RLT

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
這是毛主席重回井岡山25張照,見袁文才遺孀,脫口而出“袁嫂子”

這是毛主席重回井岡山25張照,見袁文才遺孀,脫口而出“袁嫂子”

博古通今天下事
2025-08-31 07:05:08
日本成人影視界05后新星,你知道幾個,誰最火?

日本成人影視界05后新星,你知道幾個,誰最火?

素然追光
2025-08-31 04:35:02
重磅賽事!8月31日晚20:00!中央5套CCTV5、CCTV5+直播節(jié)目表

重磅賽事!8月31日晚20:00!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2025-08-31 11:01:49
團滅胡賽總理及多名部長,哈馬斯真主黨伊朗之后、以軍重點打胡賽

團滅胡賽總理及多名部長,哈馬斯真主黨伊朗之后、以軍重點打胡賽

邵旭峰域
2025-08-31 10:48:28
恭喜!社保沒繳滿15年的有福了?9月新規(guī)出爐,全都這樣辦!

恭喜!社保沒繳滿15年的有福了?9月新規(guī)出爐,全都這樣辦!

慧眼看世界哈哈
2025-08-30 09:50:37
江蘇三名干部,任上被查

江蘇三名干部,任上被查

魯中晨報
2025-08-29 17:45:35
男軍官拒絕給孕婦讓座,下車后,椅背上的紙條讓孕婦崩潰了

男軍官拒絕給孕婦讓座,下車后,椅背上的紙條讓孕婦崩潰了

第四思維
2025-08-27 09:22:11
62歲,血虧2.5億后,姜文也許后悔離開那個“金主弟弟”了

62歲,血虧2.5億后,姜文也許后悔離開那個“金主弟弟”了

柴叔帶你看電影
2025-08-29 15:40:28
痛!英程序員錯扔8000枚比特幣價值70億?12年間跪求挖垃圾場屢次被拒,如今倒欠百萬:我不挖了!

痛!英程序員錯扔8000枚比特幣價值70億?12年間跪求挖垃圾場屢次被拒,如今倒欠百萬:我不挖了!

英國報姐
2025-08-15 21:55:58
事實證明,“消失”7年的周立波,早已經(jīng)走上了一條“不歸路”

事實證明,“消失”7年的周立波,早已經(jīng)走上了一條“不歸路”

優(yōu)趣紀史記
2025-08-13 18:46:36
定了!澳大利亞,參加中國閱兵!

定了!澳大利亞,參加中國閱兵!

澳洲財經(jīng)見聞
2025-08-30 16:41:32
大量“毒洗發(fā)水”遭曝光!多家品牌檢出致癌物,速查洗漱臺停用

大量“毒洗發(fā)水”遭曝光!多家品牌檢出致癌物,速查洗漱臺停用

軒逸阿II
2025-08-30 15:52:54
今日!CCTV5直播中國女排+國羽陳雨菲PK山口茜,CCTV16轉(zhuǎn)中超國安

今日!CCTV5直播中國女排+國羽陳雨菲PK山口茜,CCTV16轉(zhuǎn)中超國安

晚池
2025-08-31 03:05:05
92年陶斯亮與李訥重逢,兩人談到一話題,李訥笑問:你能跟我比嗎

92年陶斯亮與李訥重逢,兩人談到一話題,李訥笑問:你能跟我比嗎

南書房
2025-08-30 17:35:06
《兵臨城下》沒拍透的斯大林格勒,真實比電影狠 10 倍

《兵臨城下》沒拍透的斯大林格勒,真實比電影狠 10 倍

陳天宇
2025-08-29 11:20:18
國家出手擒下的6名華人首富,看看他們干的事,根本不值得饒恕

國家出手擒下的6名華人首富,看看他們干的事,根本不值得饒恕

陌識
2025-08-30 16:17:10
弗朗西斯科32+7+5 東契奇空砍39+8+9 斯洛文尼亞46罰仍負法國

弗朗西斯科32+7+5 東契奇空砍39+8+9 斯洛文尼亞46罰仍負法國

直播吧
2025-08-31 01:49:12
廣西這座城市即將迎來高鐵站!

廣西這座城市即將迎來高鐵站!

南國今報
2025-08-31 14:09:58
林達:仇恨教育是砸自己腳的石頭!

林達:仇恨教育是砸自己腳的石頭!

深度報
2025-08-30 23:17:25
明天務(wù)必提早15分鐘出門!剛剛,杭州重要提醒!

明天務(wù)必提早15分鐘出門!剛剛,杭州重要提醒!

魯中晨報
2025-08-31 12:17:46
2025-08-31 16:51:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11216文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

考生考出691分超高分 拒絕多校邀請選南大"冷門絕學(xué)"

頭條要聞

考生考出691分超高分 拒絕多校邀請選南大"冷門絕學(xué)"

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

家居
游戲
藝術(shù)
教育
公開課

家居要聞

提升功能 靈活居住環(huán)境

學(xué)Switch?PS6掌機被曝主機與便攜雙模式自由切換

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

中考數(shù)學(xué),幾何里的整體思維

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版