成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

追求概率質(zhì)量的帕累托最優(yōu):廣義α-β散度引導(dǎo)知識(shí)蒸餾框架ABKD

0
分享至



知識(shí)蒸餾(KD)是一種將大模型(教師)的知識(shí)遷移到小模型(學(xué)生)的技術(shù),學(xué)生通過模仿教師預(yù)測(cè)分布,充分利用軟標(biāo)簽信息,通常優(yōu)于傳統(tǒng)監(jiān)督微調(diào),已在圖像分類、文本生成等任務(wù)及最新工作(如 DeepSeek-R1、Qwen-3)中得到驗(yàn)證。其核心在于分布匹配方式的選擇,主流方法多用前向 KL 散度(FKLD)或反向 KL 散度(RKLD),但 FKLD 易導(dǎo)致輸出過度平滑,難以聚焦關(guān)鍵類別,RKLD 則使學(xué)生過度自信、降低多樣性。實(shí)驗(yàn)證明,兩者在多任務(wù)中表現(xiàn)有限,且目前缺乏系統(tǒng)方法揭示其深層問題,阻礙了更通用高效 KD 框架的發(fā)展。因此,一個(gè)自然的問題產(chǎn)生了:

究竟是什么潛在因素導(dǎo)致了 FKLD 和 RKLD 的次優(yōu)表現(xiàn)?

為了解答這個(gè)問題,我們通過追蹤對(duì)數(shù)質(zhì)量比(LogR),分析不同散度在訓(xùn)練中如何影響學(xué)生分布的概率分配。進(jìn)一步分析表明在溫和假設(shè)下,LogR 與損失函數(shù)對(duì) logits 的梯度成正比,這使我們將問題轉(zhuǎn)化為分析:不同散度算法如何影響 ∣LogR∣ 下降。



  • 標(biāo)題:ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence
  • 論文:https://arxiv.org/abs/2505.04560
  • 代碼:https://github.com/ghwang-s/abkd

在此框架下,我們識(shí)別出兩種關(guān)鍵的「模式集中效應(yīng)」:難度集中與置信集中。

  • 「難度集中」指的是更關(guān)注于在教師分布 p 與學(xué)生分布 q 之間誤差較大的模式。
  • 「置信集中」指的是更關(guān)注于學(xué)生分布 q 本身高度自信的模式。

進(jìn)一步研究發(fā)現(xiàn),F(xiàn)KLD 和 RKLD 的局限性正源于對(duì)這兩種集中效應(yīng)的極端利用。



  • FKLD 集中效應(yīng)較弱,對(duì)所有類別誤差一視同仁,導(dǎo)致學(xué)生難以聚焦目標(biāo)類別,易出現(xiàn)錯(cuò)誤預(yù)測(cè)(見圖 1d)。
  • RKLD 集中效應(yīng)過強(qiáng),兼顧高誤差和高置信度類別,易陷入「平凡解」,即學(xué)生只關(guān)注目標(biāo)類別,忽略教師分布的其他知識(shí)(見圖 1e)。



揭示這些局限性后,我們提出一個(gè)關(guān)鍵問題:我們能否找到一種通用且理論上有依據(jù)的方法,來平衡「難度集中」與「置信集中」效應(yīng)?

方法

為此,我們引入了 α-β 散度。



其廣義統(tǒng)一了 FKLD、RKLD 及 Hellinger 距離等多種散度。



正如下一節(jié)理論表明,α-β 散度可通過調(diào)節(jié) α 和 β 在 FKLD 與 RKLD 間平滑插值,實(shí)現(xiàn)對(duì)難度集中和置信集中效應(yīng)的靈活權(quán)衡。這一機(jī)制帶來更合理的概率分配,據(jù)此我們提出了通用蒸餾框架 ABKD,形式為最小化:



基于 α-β 散度平衡難度集中和置信集中

ABKD 提供了一個(gè)統(tǒng)一空間權(quán)衡難度集中與置信集中。為解釋這一點(diǎn),回到對(duì)數(shù)質(zhì)量比(LogR)。下列命題解釋了超參數(shù) α 和 β 如何影響 ∣LogR∣ 的減小。





  1. 當(dāng) β→1 時(shí),退化為 RKLD 的效應(yīng)。
  2. 當(dāng) β→0 時(shí),退化為 FKLD 的效應(yīng)。

較大的 β 值會(huì)增強(qiáng)置信集中效應(yīng),使匹配性能更加專注于模型最有信心的類別(見圖 1c)。

在 (b) 和 (b1) 中,使用以下方式衡量難度集中效應(yīng):



  1. 當(dāng) α→1 時(shí),退化為 FKLD 的效應(yīng)。
  2. 當(dāng) α→0 時(shí),退化為 RKLD 的效應(yīng)。

較小的 α 會(huì)放大難度集中效應(yīng),在困難類別上進(jìn)行更強(qiáng)的誤差懲罰,從而實(shí)現(xiàn)更激進(jìn)的匹配(見圖 1b)。

通過調(diào)節(jié) α 和 β,ABKD 實(shí)現(xiàn)對(duì)兩種效應(yīng)的精細(xì)平衡,避免了傳統(tǒng)方法(FKLD/RKLD)的極端情況(見圖 1g)。

與 α-散度的比較

α-散度是 ABKD 框架的一個(gè)特例(當(dāng) β=1?α 時(shí)成立)。



雖然它也能實(shí)現(xiàn) FKLD(α→1)和 RKLD(α→0)之間的轉(zhuǎn)換,但根據(jù)命題 4.2,為了減小 α,必須相應(yīng)地增大 β,以滿足 α+β=1 的限制條件。這種不必要的限制阻礙了其性能的進(jìn)一步提升,具體如圖 1(a) 和圖 1(f) 所示。

與 WSD 的比較

另一種方案是對(duì) FKLD 和 RKLD 取加權(quán)和(WSD):



不幸的是,這種組合度量會(huì)過度強(qiáng)調(diào) p 和 q 中概率較小的模式。當(dāng) q(k)≈0,p(k)>0 或 p(k)≈0,q(k)>0 時(shí),有:



因此,算法必須關(guān)注極端情況以最小化目標(biāo)函數(shù),導(dǎo)致概率分配不合理。此外這種情況下梯度范數(shù)也會(huì)過度增長(zhǎng),導(dǎo)致參數(shù)更新中可能含有噪聲,破壞優(yōu)化穩(wěn)定性。

最后一種方法是使用 Jensen-Shannon 散度:

其中 m=(p+q)/2。它的缺點(diǎn)是當(dāng)分布 p 和 q 相距較遠(yuǎn)時(shí)(這是訓(xùn)練初期的常見情況),會(huì)出現(xiàn)梯度消失,阻礙模型收斂。

實(shí)驗(yàn)

自然語言任務(wù)

我們?cè)谖鍌€(gè)指令跟隨基準(zhǔn)上評(píng)估方法,使用 ROUGE-L 指標(biāo),對(duì)比了 SFT、FKLD、GKD 和 DISTILLM 等方法。



實(shí)驗(yàn)結(jié)果表明僅修改蒸餾目標(biāo),ABKD 在不同數(shù)據(jù)集上均優(yōu)于或匹配 FKLD、SFT。對(duì)比基于 SGO 的方法(如 GKD、DISTILLM)效果提升明顯,ABKD 在不公平對(duì)比下依然表現(xiàn)優(yōu)越。

  • 損失函數(shù)影響

α-β 散度優(yōu)于 α 或 β 散度及 WSD。在五個(gè)數(shù)據(jù)集上相較基線有穩(wěn)定提升。訓(xùn)練過程中的優(yōu)勢(shì)也體現(xiàn)在圖 2。

視覺任務(wù)

在 12 個(gè)常用圖像識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比方法比較了多種先進(jìn)蒸餾方法:KD、DKD、LSD 和 TTM 等。





結(jié)果表明 ABKD 能根據(jù)不同教師-學(xué)生組合自動(dòng)選擇合適的蒸餾目標(biāo)。此外 ABKD 可作為簡(jiǎn)單的插件工具,優(yōu)化現(xiàn)有方法的損失函數(shù),帶來額外性能提升。

敏感性分析



α 對(duì)難度集中的影響:圖 6(a)(b) 展示了不同 α 下的訓(xùn)練表現(xiàn)。在 CIFAR-100 中,較小 α 提升有限;在 Dolly 等大輸出空間任務(wù)中,適當(dāng)減小 α 有助于避免陷入局部最優(yōu)。

β 對(duì)置信集中的影響:圖 6(c)(d) 顯示了 β 對(duì)輸出分布的 Shannon 熵和 Self-BLEU 的影響。較小 β 使模型更關(guān)注低置信度類別,提升輸出分布的平滑性和多樣性(熵更高,Self-BLEU 更低)。

結(jié)語

本文指出,知識(shí)蒸餾的核心在于平衡「難度集中」和「置信集中」兩種效應(yīng),而傳統(tǒng) FKLD 和 RKLD 只覆蓋兩個(gè)極端,導(dǎo)致概率分配不合理。為此,我們提出基于 α-β 散度的 ABKD 框架,統(tǒng)一并推廣了現(xiàn)有方法,實(shí)現(xiàn)兩種效應(yīng)的靈活權(quán)衡。理論與大量實(shí)驗(yàn)均驗(yàn)證了 ABKD 的有效性。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
夠中國用2萬年!我國攻克世界級(jí)難題,搶先美國建造“無限能源”

夠中國用2萬年!我國攻克世界級(jí)難題,搶先美國建造“無限能源”

影史侃談
2025-08-20 07:41:28
Niche發(fā)布2026全美最佳大學(xué)排名:MIT重回榜首,UC系集體滑坡!

Niche發(fā)布2026全美最佳大學(xué)排名:MIT重回榜首,UC系集體滑坡!

留學(xué)咖啡館
2025-09-01 08:33:20
經(jīng)紀(jì)人發(fā)文:衷心感謝切爾西對(duì)杰克遜的信任 今天起他將專注拜仁

經(jīng)紀(jì)人發(fā)文:衷心感謝切爾西對(duì)杰克遜的信任 今天起他將專注拜仁

直播吧
2025-09-02 03:21:06
肉身與靈魂的雙重盛宴

肉身與靈魂的雙重盛宴

青蘋果sht
2025-09-01 05:45:26
被指不愛郭麒麟?郭德綱首次直播回應(yīng),為郭汾陽發(fā)聲,網(wǎng)友不買賬

被指不愛郭麒麟?郭德綱首次直播回應(yīng),為郭汾陽發(fā)聲,網(wǎng)友不買賬

有范又有料
2025-09-01 14:30:56
你最后悔的事是什么?發(fā)出來給大家避避雷,網(wǎng)友:三天三夜講不完

你最后悔的事是什么?發(fā)出來給大家避避雷,網(wǎng)友:三天三夜講不完

特約前排觀眾
2025-09-02 00:05:10
凌晨突然起火,2名老人不幸離世!你家也有這種 “定時(shí)炸彈” 嗎?

凌晨突然起火,2名老人不幸離世!你家也有這種 “定時(shí)炸彈” 嗎?

8099999街頭巷尾
2025-08-31 20:17:16
為毛主席做飯11年的炊事員李開文,被安排到地方當(dāng)干部,是何職務(wù)

為毛主席做飯11年的炊事員李開文,被安排到地方當(dāng)干部,是何職務(wù)

談古論今歷史有道
2025-08-31 16:05:03
調(diào)查發(fā)現(xiàn):高血脂患者若常吃西紅柿,過不了多久,身體或有4改善

調(diào)查發(fā)現(xiàn):高血脂患者若常吃西紅柿,過不了多久,身體或有4改善

泠泠說史
2025-08-30 17:31:49
一生撒謊的哈馬斯發(fā)言人因謊言而死,胡塞武裝綁架聯(lián)合國工作人員

一生撒謊的哈馬斯發(fā)言人因謊言而死,胡塞武裝綁架聯(lián)合國工作人員

近距離
2025-09-01 19:03:17
再有錢,在權(quán)力面前屁都不是

再有錢,在權(quán)力面前屁都不是

霹靂炮
2024-08-29 21:53:04
印度“靠山”終于露出真面目!我國被騙了幾十年?

印度“靠山”終于露出真面目!我國被騙了幾十年?

星辰故事屋
2025-08-30 10:25:08
河北孟村“金昊殺妻案”最新進(jìn)展:丈夫曾發(fā)朋友圈“保護(hù)媽媽”

河北孟村“金昊殺妻案”最新進(jìn)展:丈夫曾發(fā)朋友圈“保護(hù)媽媽”

史意生活
2025-08-31 21:41:37
又提升了!9月1日,陳佩斯《戲臺(tái)》排片0.6%,日票房90萬,打臉!

又提升了!9月1日,陳佩斯《戲臺(tái)》排片0.6%,日票房90萬,打臉!

史行途
2025-09-01 22:28:47
68歲元彪深夜約釋延能小聚,洋酒一口悶雪茄不離手,喝到滿臉放光

68歲元彪深夜約釋延能小聚,洋酒一口悶雪茄不離手,喝到滿臉放光

鑫鑫說說
2025-09-01 13:39:44
《劍星》體模申才恩曬瑜伽照!緊身服盡顯完美曲線

《劍星》體模申才恩曬瑜伽照!緊身服盡顯完美曲線

游民星空
2025-09-01 16:27:17
咱中國終于可以長(zhǎng)出一口氣了,巴基斯坦欠的300億美元,可以還了

咱中國終于可以長(zhǎng)出一口氣了,巴基斯坦欠的300億美元,可以還了

南權(quán)先生
2025-08-13 10:13:08
人禍遠(yuǎn)大于天災(zāi),中國女排止步16強(qiáng)

人禍遠(yuǎn)大于天災(zāi),中國女排止步16強(qiáng)

小驛拍客在北漂
2025-09-01 05:22:57
為啥相聲演員不去“降維打擊”說脫口秀?網(wǎng)友們的回答如出一轍!

為啥相聲演員不去“降維打擊”說脫口秀?網(wǎng)友們的回答如出一轍!

墻頭草
2025-08-30 08:32:52
1000多萬的坦克,為啥不裝5000元的空調(diào)?60度高溫讓士兵暈倒

1000多萬的坦克,為啥不裝5000元的空調(diào)?60度高溫讓士兵暈倒

西方尋史
2025-08-31 17:05:04
2025-09-02 03:35:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11206文章數(shù) 142432關(guān)注度
往期回顧 全部

科技要聞

8月造車新勢(shì)力:零跑小鵬再創(chuàng)單月銷量新高

頭條要聞

媒體:莫迪到天津參加一場(chǎng)國際峰會(huì) 結(jié)果惹得有人吃醋

頭條要聞

媒體:莫迪到天津參加一場(chǎng)國際峰會(huì) 結(jié)果惹得有人吃醋

體育要聞

一支穿云箭,紅軍雙喜臨門

娛樂要聞

蘇有朋,禍從口出?

財(cái)經(jīng)要聞

行情剛好點(diǎn),創(chuàng)始人立馬漲估值

汽車要聞

激光雷達(dá)上車/配云輦-C 26款海豹07 DM-i全是硬貨

態(tài)度原創(chuàng)

家居
時(shí)尚
本地
旅游
軍事航空

家居要聞

意式極簡(jiǎn) 盡顯時(shí)尚小眾

為什么“屁股大”的女生,更受直男歡迎?

本地新聞

換個(gè)城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

九三閱兵 具體安排來了

無障礙瀏覽 進(jìn)入關(guān)懷版