成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

差分注意力機制引領(lǐng)變革,DIFF Transformer攻克長序列建模難題

0
分享至




近年來,Transformer 架構(gòu)在自然語言處理領(lǐng)域取得了巨大成功,從機器翻譯到文本生成,其強大的建模能力為語言理解與生成帶來了前所未有的突破。

然而,隨著模型規(guī)模的不斷擴大和應(yīng)用場景的日益復(fù)雜,傳統(tǒng) Transformer 架構(gòu)逐漸暴露出缺陷,尤其是在處理長文本、關(guān)鍵信息檢索以及對抗幻覺等任務(wù)時,Transformer 常常因過度關(guān)注無關(guān)上下文而陷入困境,導(dǎo)致模型表現(xiàn)受限。

為攻克這一難題,來自微軟和清華的研究團隊提出了DIFF Transformer,一種基于差分注意力機制的創(chuàng)新基礎(chǔ)模型架構(gòu)。



  • 論文標題:Differential Transformer
  • 論文鏈接:https://openreview.net/pdf?id=OvoCm1gGhN
  • 代碼鏈接:https://aka.ms/Diff-Transformer

其核心思想是通過計算兩組 Softmax 注意力圖的差值來放大對關(guān)鍵上下文的關(guān)注,同時消除注意力噪聲干擾。DIFF Transformer 具備以下顯著優(yōu)勢:

在語言建模任務(wù)中,DIFF Transformer 在模型大小、訓(xùn)練 token 數(shù)量等方面展現(xiàn)出了卓越的可擴展性,僅需約 65% 的模型規(guī)模或訓(xùn)練 token 數(shù)量即可達到與傳統(tǒng) Transformer 相當?shù)男阅?,大幅提升了語言模型通用表現(xiàn)。

在長文本建模、關(guān)鍵信息檢索、數(shù)學(xué)推理、對抗幻覺、上下文學(xué)習(xí)、模型激活值量化等一系列任務(wù)中,DIFF Transformer 展現(xiàn)了獨特優(yōu)勢,相比傳統(tǒng) Transformer 有顯著提升。

DIFF Transformer 的特性使其在自然語言處理領(lǐng)域具有廣闊的應(yīng)用前景,有望成為推動語言模型發(fā)展的新動力。此外,已有跟進研究初步驗證方法在視覺、多模態(tài)等領(lǐng)域中的有效性,顯示出其跨模態(tài)通用的潛力。該研究已被 ICLR 2025 接收,并獲選為 Oral 論文(入選比例 1.8%)。

方法

本文提出了一種名為 Differential Transformer(DIFF Transformer) 的基礎(chǔ)模型架構(gòu),旨在解決傳統(tǒng) Transformer 在長文本建模中對無關(guān)上下文過度分配注意力的問題。該方法通過差分注意力機制(Differential Attention)放大對關(guān)鍵上下文的關(guān)注,同時消除注意力噪聲,從而顯著提升模型在多種任務(wù)中的性能。

差分注意力機制

傳統(tǒng) Transformer 的注意力機制通過 Softmax 函數(shù)對輸入序列中的不同 token 進行加權(quán),但 Softmax 的性質(zhì)導(dǎo)致模型難以完全消除無關(guān)上下文的影響。為了克服這一問題,DIFF Transformer 引入了差分注意力機制。

具體而言,該機制將查詢向量(Query)和鍵向量(Key)在注意力頭(Head)維度分為兩組,分別計算兩組的 Softmax 注意力圖,然后計算兩者的差值作為最終的注意力分數(shù)。這一設(shè)計類似于電子工程中的差分放大器,以及降噪耳機,通過兩組信號相減以消除共有噪聲。

差分注意力的數(shù)學(xué)表達如下:







圖 2. Transformer 與 DIFF Transformer 注意力分數(shù)分布可視化

圖 2 展示了 DIFF Transformer 和傳統(tǒng) Transformer 在注意力分數(shù)分配上的顯著差異。作者將一段關(guān)鍵信息插入大段不相關(guān)文本的中間位置,并對模型抽取關(guān)鍵信息時的注意力分數(shù)分配進行可視化。

傳統(tǒng) Transformer 的注意力分數(shù)被廣泛分配到整個上下文中,只有極少分數(shù)分配至關(guān)鍵信息;而 DIFF Transformer 能夠?qū)⒏叩姆謹?shù)集中在目標答案上,并且?guī)缀醪幌驘o關(guān)上下文分配注意力。

注意力分數(shù)分配的稀疏性與精準性也使得 DIFF Transformer 在處理長文本關(guān)鍵信息檢索任務(wù)時顯著優(yōu)于 Transformer。

實驗

作者通過一系列實驗驗證了 DIFF Transformer 在多個方面的卓越性能,證明了其在大語言模型中應(yīng)用的獨特潛力與優(yōu)勢。

語言建模

作者研究了 DIFF Transformer 在擴展模型規(guī)模和訓(xùn)練數(shù)據(jù)量時的性能,如圖 3 所示。實驗表明,DIFF Transformer 僅需約 65% 的參數(shù)規(guī)?;蛴?xùn)練數(shù)據(jù)量即可達到與 Transformer 相當?shù)恼Z言建模性能。例如,6.8B 參數(shù)規(guī)模的 DIFF Transformer 在語言建模損失上與 11B 參數(shù)規(guī)模的 Transformer 相當。



圖 3. 語言建模上的模型參數(shù)、訓(xùn)練數(shù)據(jù)量可擴展性實驗

長文本建模

作者將模型擴展到 64K 上下文長度,并在長文本書籍數(shù)據(jù)上進行了評估。結(jié)果顯示,考慮累積平均負對數(shù)似然(NLL)指標, DIFF Transformer 在不同序列位置上均優(yōu)于 Transformer,能夠更有效地利用長上下文信息。



圖 4. 長文本書籍數(shù)據(jù)模型性能評估

關(guān)鍵信息檢索

作者通過「多針檢索」(Multi-Needle Retrieval)實驗評估了模型從大量上下文中提取關(guān)鍵信息的能力,如圖 5 所示。實驗表明,DIFF Transformer 在不同上下文長度和答案深度下均表現(xiàn)出更高的準確率,尤其是在文本較長以及答案位于文本更靠前位置時,優(yōu)勢更為明顯。例如,在 64K 上下文中,DIFF Transformer 在答案位于 25% 深度時的準確率比 Transformer 高出 76%。此外,統(tǒng)計信息顯示,DIFF Transformer 在注意力分數(shù)分配上也表現(xiàn)出更高的聚焦能力,能夠準確定位關(guān)鍵信息,并展現(xiàn)了更高的信噪比。



圖 5. 多針檢索評估

上下文學(xué)習(xí)

作者從兩個角度評估了 DIFF Transformer 的上下文學(xué)習(xí)能力:多樣本上下文學(xué)習(xí)和樣本順序魯棒性測試。 如圖 6 所示,在多樣本上下文學(xué)習(xí)任務(wù)中,作者使用了 4 個不同的數(shù)據(jù)集(TREC、TREC-fine、Banking-77 和 Clinic-150),并逐步增加示例數(shù)量,直到總長度達到 64K tokens。結(jié)果顯示,DIFF Transformer 在不同數(shù)據(jù)集上均優(yōu)于 Transformer,平均準確率提升顯著。



圖 6. 多樣本上下文學(xué)習(xí)

在魯棒性測試中,作者通過打亂示例順序的方式評估了模型的性能穩(wěn)定性。如圖 7 所示,DIFF Transformer 在不同示例排列下的性能方差顯著低于 Transformer,表明其對輸入順序的敏感性更低,具有更強的魯棒性。



圖 7. 樣本順序魯棒性測試

幻覺評測

作者利用文本摘要和問答任務(wù)作為兩個典型的幻覺評測場景,評估了 DIFF Transformer 在降低大模型幻覺(hallucination)方面的表現(xiàn)。結(jié)果如圖 8 所示,DIFF Transformer 在生成摘要和回答問題時顯著提升了準確率,減少了幻覺現(xiàn)象。這是因為差分注意力機制能夠準確定位重要文段,避免無關(guān)上下文對模型預(yù)測的干擾。



圖 8. 利用文本摘要、問答任務(wù)進行幻覺評測

異常激活值分析

作者還發(fā)現(xiàn) DIFF Transformer 能夠顯著減少模型激活中的異常值,這為模型激活值的量化提供了新的可能性。實驗表明,DIFF Transformer 在注意力激活值(attention logits)和隱藏狀態(tài)(hidden states)中的最大激活值顯著低于 Transformer。例如,在注意力激活值的 Top-1 激活值上,DIFF Transformer 比 Transformer 低了近 8 倍。利用這一性質(zhì),DIFF Transformer 在注意力激活值的低比特量化下的性能也優(yōu)于 Transformer,如圖 9 所示。



圖 9. 注意力激活值的低比特量化

數(shù)學(xué)推理能力

作者在數(shù)學(xué)推理任務(wù)上進一步驗證了 DIFF Transformer 的性能。作者采用兩階段訓(xùn)練,在 3B 預(yù)訓(xùn)練模型的基礎(chǔ)上進行有監(jiān)督微調(diào),并在 MATH 等 8 個數(shù)學(xué)數(shù)據(jù)集上評測模型性能。在第一階段,采用 20B token 合成數(shù)學(xué)數(shù)據(jù)對模型進行微調(diào),使模型獲得基礎(chǔ)數(shù)學(xué)能力,評測結(jié)果如圖 10 所示。從 15B token 開始,DIFF Transformer 展現(xiàn)出了顯著優(yōu)于 Transformer 的數(shù)學(xué)能力,至 20B token 結(jié)束的時候,準確率的差距達到了 11% 左右。



圖 10. 第一階段數(shù)學(xué)合成數(shù)據(jù)微調(diào)

在第二階段,作者利用 Deepseek-R1 輸出所構(gòu)造的數(shù)據(jù)集 OpenThoughts-114K-Math 對模型進行蒸餾,使模型更強大的深度推理能力。如圖 11 所示,在 8 個數(shù)據(jù)集上,DIFF Transformer 相較 Transformer 均有不同程度的提升,平均準確率提升了 7.5%,這表明差分注意力機制更強大的上下文建模能力在推理任務(wù)中也至關(guān)重要。



圖 11. 第二階段深度推理能力評測

討論與未來工作

DIFF Transformer 自發(fā)布以來獲得了較大關(guān)注與討論。作者在Hugging Face論文討論平臺、alphaXiv平臺上與社區(qū)開展了深入的探討。在 X 平臺(原 Twitter)上,Google DeepMind 高級研究科學(xué)家(Senior Staff Research Scientist)Petar Veli?kovi?與作者就文章中的理論分析展開討論,ViT 核心作者Lucas Beyer也在閱讀文章后撰寫了一篇深入的論文總結(jié),相關(guān)發(fā)帖已獲得數(shù)十萬瀏覽。目前 DIFF Transformer 也已集成至 Hugging Face 的transformers 庫中。

  • Hugging Face:https://huggingface.co/papers/2410.05258
  • alphaXiv:https://www.alphaxiv.org/abs/2410.05258v1
  • Petar Veli?kovi?:https://x.com/PetarV_93/status/1874820028975267866
  • Lucas Beyer:https://x.com/giffmana/status/1873869654252544079
  • transformers庫:https://github.com/huggingface/transformers/tree/main/src/transformers/models/diffllama

未來工作方面,作者認為可以利用 DIFF Transformer 的性質(zhì)設(shè)計低比特注意力算子,以及利用差分注意力的稀疏特性進行鍵值緩存(key-value cache)的剪枝。此外,將 DIFF Transformer 應(yīng)用在除語言以外的其他模態(tài)上也值得探索。近期工作DiffCLIP將差分注意力擴展至視覺、多模態(tài)領(lǐng)域,揭示了 DIFF Transformer 在不同模態(tài)任務(wù)中的更多結(jié)構(gòu)特性與應(yīng)用潛力。

  • DiffCLIP:https://arxiv.org/abs/2503.06626

總結(jié)

本文的貢獻主要在兩個方面:

(1)DIFF Transformer 通過創(chuàng)新的差分注意力機制,有效解決了傳統(tǒng) Transformer 在處理文本時受到噪聲干擾、注意力分配不準確的問題;

(2)憑借對關(guān)鍵信息的關(guān)注和對噪聲的抵御能力,DIFF Transformer 在語言建模、長文本建模、關(guān)鍵信息檢索、數(shù)學(xué)推理、對抗幻覺、上下文學(xué)習(xí)、模型激活值量化等任務(wù)中表現(xiàn)出色,有望在自然語言處理、多模態(tài)等領(lǐng)域作為基礎(chǔ)模型架構(gòu)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
莫迪專機剛出中國領(lǐng)空,就發(fā)表涉華言論,美國人破防了

莫迪專機剛出中國領(lǐng)空,就發(fā)表涉華言論,美國人破防了

老張點評
2025-09-02 16:18:53
與中國僅隔一天,越南九二閱兵先登場,80周年大慶有哪些看點?

與中國僅隔一天,越南九二閱兵先登場,80周年大慶有哪些看點?

上觀新聞
2025-09-02 14:35:08
牛市多急跌!9月3日,明天股市將迎來更大的變盤?

牛市多急跌!9月3日,明天股市將迎來更大的變盤?

風口招財豬
2025-09-03 00:35:29
這位“問題少女”16歲當媽,44歲當副首相

這位“問題少女”16歲當媽,44歲當副首相

中國新聞周刊
2024-07-20 18:38:07
有一有二沒有再三!賈玲新片剛殺青就遭抵制,網(wǎng)友理由出奇一致

有一有二沒有再三!賈玲新片剛殺青就遭抵制,網(wǎng)友理由出奇一致

銀河史記
2025-08-31 23:33:19
臺灣受邀93閱兵名單公布,一人無法出席,另一人自稱沒有被邀請

臺灣受邀93閱兵名單公布,一人無法出席,另一人自稱沒有被邀請

聞識
2025-09-03 00:33:17
44歲女老板困在冷庫20多分鐘幸被外賣小哥救出,當事人:我用冷凍的餃子拍門,希望有人能聽到

44歲女老板困在冷庫20多分鐘幸被外賣小哥救出,當事人:我用冷凍的餃子拍門,希望有人能聽到

極目新聞
2025-09-02 18:14:42
丈夫回應(yīng)“最快女護士”哭訴調(diào)休難:她太激動未完整表達想法

丈夫回應(yīng)“最快女護士”哭訴調(diào)休難:她太激動未完整表達想法

南方都市報
2025-09-02 21:32:49
9月2日俄烏最新:川普呼吁美歐一起動手

9月2日俄烏最新:川普呼吁美歐一起動手

西樓飲月
2025-09-02 20:29:20
冰雹、大風、大暴雨!這波很猛,浙江發(fā)布96條天氣預(yù)警!15號臺風“琵琶”或?qū)⑸?>
    </a>
        <h3>
      <a href=FM93浙江交通之聲
2025-09-02 15:46:26
徐靜蕾和吳簽的瓜!

徐靜蕾和吳簽的瓜!

八卦瘋叔
2025-09-01 09:11:32
受邀參加九三大閱兵臺胞名單公布,首位明確拒絕出席的臺胞出現(xiàn)!

受邀參加九三大閱兵臺胞名單公布,首位明確拒絕出席的臺胞出現(xiàn)!

博卜talk
2025-09-02 17:10:39
大閱兵時北京天氣預(yù)報公布!江蘇繼續(xù)雨雨雨+悶熱!

大閱兵時北京天氣預(yù)報公布!江蘇繼續(xù)雨雨雨+悶熱!

江南晚報
2025-09-03 02:05:51
同學(xué)曝瑤瑤一要錢就打,生前向自己借50元,金某朋友圈曝光太扎心

同學(xué)曝瑤瑤一要錢就打,生前向自己借50元,金某朋友圈曝光太扎心

公子麥少
2025-09-02 13:42:05
破防了!凝視我胸部5次,深圳地鐵保安人員被一女子投訴引發(fā)熱議

破防了!凝視我胸部5次,深圳地鐵保安人員被一女子投訴引發(fā)熱議

火山詩話
2025-09-02 15:34:55
大瓜!木子美重出江湖曝猛料:著名女主持人和11位大哥“疊羅漢”

大瓜!木子美重出江湖曝猛料:著名女主持人和11位大哥“疊羅漢”

壹月情感
2025-09-02 22:07:58
后續(xù)!據(jù)說瑤瑤躲進次臥鎖門求生時,金某踹門而入進行拖拽

后續(xù)!據(jù)說瑤瑤躲進次臥鎖門求生時,金某踹門而入進行拖拽

另子維愛讀史
2025-09-02 23:20:33
廣東一公司宣布全員放假一天看閱兵,9月18日還組織免費看電影《731》,工作人員:不是作秀

廣東一公司宣布全員放假一天看閱兵,9月18日還組織免費看電影《731》,工作人員:不是作秀

極目新聞
2025-09-02 17:47:35
北京閱兵普京坐頭排,第二非常意外,西方多國缺席,全球格局重構(gòu)

北京閱兵普京坐頭排,第二非常意外,西方多國缺席,全球格局重構(gòu)

一個有靈魂的作者
2025-08-29 15:40:58
9月2日深夜特訊!金正恩抵京說了一句話,引爆國際輿論

9月2日深夜特訊!金正恩抵京說了一句話,引爆國際輿論

智觀科技
2025-09-02 23:13:46
2025-09-03 05:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11215文章數(shù) 142437關(guān)注度
往期回顧 全部

科技要聞

宇樹科技稱將在四季度提交IPO申請

頭條要聞

石破茂態(tài)度180度大轉(zhuǎn)彎 強硬表態(tài)將留任后又突然改口

頭條要聞

石破茂態(tài)度180度大轉(zhuǎn)彎 強硬表態(tài)將留任后又突然改口

體育要聞

獲頒德國足球聯(lián)盟榮譽獎!赫內(nèi)斯:這是對我過去50年努力的肯定

娛樂要聞

“廚神對決!”誰做的菜好吃?

財經(jīng)要聞

黃金破"次元" 年輕人熬夜買"金谷子"

汽車要聞

12分鐘大訂破3000 "配齊"的全新嵐圖知音滿血華為

態(tài)度原創(chuàng)

藝術(shù)
健康
旅游
游戲
手機

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

內(nèi)分泌科專家破解身高八大謠言

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

9月上旬XGP新增公布:《空洞騎士:絲之歌》來了!

手機要聞

盡管受到美國征收關(guān)稅影響 iPhone 17價格漲幅也不會太大

無障礙瀏覽 進入關(guān)懷版