網易首頁 > 網易號 > 正文申請入駐

超越RAG和DAPT！華人團隊：一個小解碼器讓所有模型當上領域專家

2025-08-19 14:40:31　來源: 量子位

北京舉報

分享至

一個小解碼器讓所有模型當上領域專家！華人團隊新研究正在引起熱議。

他們提出了一種比目前業(yè)界主流采用的DAPT（領域自適應預訓練）和RAG（檢索增強生成）更方便、且成本更低的方法。

相比DAPT，不需要昂貴的全參數訓練；
相比RAG，不依賴昂貴的檢索。

而且實驗結果顯示，其方法能夠顯著提升Qwen和Llama等模型在三個專門領域（生物醫(yī)學、金融、法律）的效果，并使困惑度平均降低6.17分（相當于預測下一個詞的正確率提升了約20%~25%）。

好好好，不賣關子了，原來這是來自上海交大、上海AI Lab等機構的研究人員提出的一個名為“Memory Decoder”的預訓練記憶模塊——

通過使用一個小型的前置解碼器（former decoder），能夠學習模仿外部非參數檢索器的行為。

翻譯成大白話就是，Memory Decoder就像給大模型加了一個“領域知識插件”，既高效又靈活，為大模型適應特定領域提供了一種新方法。

劃重點，即插即用、無需改變原始模型參數、可以和任何共享相同分詞器的大語言模型集成。

對于這一新研究，有網友激動表示，這改變了游戲規(guī)則。

下面詳細來看論文內容。

一種即插即用的預訓練記憶模塊

隨著大模型在通用任務中適應良好，業(yè)界目前均在嘗試用不同方法讓其更適配特定領域。

論文也是瞄準了這一目標，并提出了一種即插即用的預訓練記憶模塊——Memory Decoder。

和DAPT、RAG等主流方式相比，其優(yōu)勢相對明顯：

（1）DAPT（領域自適應預訓練）需要對模型全參數進行訓練（即把模型整個重新訓練一遍），成本高昂，且容易出現“災難性遺忘”（即忘記之前學到的通用知識）。

（2）RAG（檢索增強生成）則因需要進行耗時的近鄰搜索，且處理更長的上下文，通常會導致推理速度變慢（延遲增加）。

而Memory Decoder本質上是一個小型Transformer解碼器（作為“記憶模塊”），其核心思路為：

在預訓練階段，讓它學習模仿一個外部檢索器的行為，把特定領域的知識壓縮到自己的參數里；
在推理階段，把它和大模型一起使用，通過結果融合提升預測質量。

舉個例子，當用戶問“大眾汽車的CEO是誰？”時，大模型通常可能基于通用語料，給出一個模糊的分布（如“馬斯克30%，布魯默40%，庫克20%”），但未必足夠準確。

有了Memory Decoder后，由于已經在預訓練中學會了模仿檢索器的行為，會更傾向輸出“布魯默”的分布（如“布魯默80%，馬斯克10%，庫克5%”）。

最終，模型會將二者的結果進行插值融合，從而得到更可靠的答案。

這樣一來，Memory Decoder就像給大模型配了一個“領域小助手”，既能避免重新訓練的高成本，也能免去實時搜索資料庫帶來的延遲問題，真正實現了低成本、高效率、即插即用的領域增強。

多種Qwen/Llama模型更懂醫(yī)學、法律和金融了

為了驗證Memory Decoder的有效性，團隊選用了多種Qwen（從0.5B到72B參數）和Llama系列（從1B到70B參數）的預訓練語言模型，來測試其在生物醫(yī)學、金融、法律這三個專業(yè)領域的效果。

之所以選這三個，主要是因為它們對模型的專業(yè)知識儲備要求高，而且傳統(tǒng)適配方法經常“鎩羽而歸”。

具體衡量指標則為Perplexity（困惑度）——數值越低表示模型對該領域文本的理解和預測越準確。

最終實驗結果如下：

可以看到，不管原模型參數量多大，Memory Decoder均能起到領域增強作用，而且比傳統(tǒng)LoRA方法更有效。

更關鍵的是，在Qwen2.5上訓練的Memory Decoder，只需極少的額外訓練（僅為原始訓練成本的10%），就能適配Llama系列模型——

不僅顯著降低了所有Llama變體模型的困惑度，而且在生物醫(yī)學和金融領域的表現持續(xù)優(yōu)于LoRA方法。

整體而言，在生物醫(yī)學、金融、法律三個領域中，使用Memory Decoder的多種Qwen和Llama模型，平均降低了6.17分困惑度，初步驗證了Memory Decoder的有效性。

不過作者們也在論文最后提到了其局限性：

訓練階段存在計算開銷

訓練Memory Decoder的時候，得從一個大數據庫里搜很多相關信息來當“學習材料”，這個搜索過程會消耗不少計算資源。雖然每個領域只需要這么干一次，之后能給各種模型用，但訓練階段這一步依舊無法免去。

跨分詞器適配仍需部分參數更新

要想把在A模型（如Qwen2.5）上訓練好的Memory Decoder用到B模型（如Llama）上，仍需要對嵌入空間進行一些參數更新以實現對齊。

雖然跨分詞器適配相比從頭訓練需要的訓練量極少，但無法實現真正意義上的零樣本跨架構遷移。

但是有一說一，Memory Decoder最大的意義或許在于，它提出了一種新的范式——

基于特別預訓練的記憶組件來進行領域自適應。

這一記憶架構可以即插即用地集成到目標領域的多種模型中，并持續(xù)提升性能。

論文：
https://www.arxiv.org/abs/2508.09874

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

別只盯光刻機，光罩更關鍵

鈦媒體APP 2025-08-18 17:48:43
2 跟貼 2
大模型進入萬億參數時代，超節(jié)點是唯一“解”么？丨ToB產業(yè)觀察

鈦媒體APP 2025-08-08 17:47:40
0 跟貼 0

AI時代“隱秘贏家”？這類半導體“逆襲”走到聚光燈下

財聯社 2025-08-30 18:38:05
0 跟貼 0

CMU華人團隊研發(fā)LegoGPT，打造包含47000個樂高結構數據集

DeepTech深科技 2025-05-10 17:44:13
0 跟貼 0
視頻生成模型無損加速兩倍，秘訣是「抓住attention時空稀疏性」

機器之心Pro 2025-05-07 19:05:34
2 跟貼 2

擴散LLM推理新范式：打破生成長度限制，實現動態(tài)自適應調節(jié)

機器之心Pro 2025-08-08 18:59:59
1 跟貼 1

告別「面癱」配音，InfiniteTalk開啟從口型同步到全身表達新范式

機器之心Pro 2025-08-28 14:12:20
0 跟貼 0
小紅書AIGC團隊提出圖像和視頻換臉新算法DynamicFace

機器之心Pro 2025-08-12 16:25:48
0 跟貼 0

LUMIX Lab ver1.6 重磅更新！不只是后期，更是創(chuàng)作！

泡泡網 2025-08-27 12:08:31
0 跟貼 0
女孩把自己變成鋼鐵機器，組件機器戰(zhàn)隊，原因讓人無法接受

與樂説電影 2025-08-29 15:10:33
1 跟貼 1
何廣智殺瘋了！文本能力太強了，每一句話都是梗，實至名歸的冠軍

星云母體在分娩n 2025-08-31 04:58:03
4 跟貼 4
土耳其新艦被指抄襲！核心雷達參數完全一致

軍武時間線 2025-08-29 11:59:06
32 跟貼 32
林達：仇恨教育是砸自己腳的石頭！

深度報 2025-08-30 23:17:25
6340 跟貼 6340
特朗普連遭兩次經濟阻擊，關稅裁定非法，庫克起訴他，能阻止他嗎

戰(zhàn)友老鄧 2025-08-30 16:07:26
0 跟貼 0
俄軍公布春夏季軍事行動戰(zhàn)果

界面新聞 2025-08-31 07:34:20
8540 跟貼 8540
日本干涉九三閱兵介文汲：讓中國人認清日本野心不死

看看新聞Knews 2025-08-29 15:40:37
2978 跟貼 2978
這是什么舞蹈，真的太模型了，這腿部動作看著挺難的！

歡樂杠精 2025-08-28 17:01:08
2 跟貼 2
烏克蘭方面確認已消滅制造布查大屠殺的所有俄軍士兵

環(huán)球熱點快評 2025-08-30 16:26:27
5506 跟貼 5506
美聯儲理事庫克正式起訴特朗普，白宮為特朗普辯護

鳳凰衛(wèi)視 2025-08-29 11:04:08
0 跟貼 0
官方批復！四川將添新機場

魯中晨報 2025-08-30 18:20:57
777 跟貼 777
演唱會舞臺的設計，看到巨人一樣的模型，隔著屏幕都感到震撼！

快樂嗨翻天 2025-08-30 11:33:18
1 跟貼 1
日本科學家發(fā)明了“藍光燈泡”，結果就獲得諾貝獎，也改變了世界

怪羅 2025-08-30 22:37:53
341 跟貼 341
再訪少林寺：千年古剎的變與不變

極目新聞 2025-08-28 20:45:16
2187 跟貼 2187
上海發(fā)生多起！陌生人在自家高墜，都是這原因...業(yè)主炸了：根本勸不住，我要擔責嗎？

上觀新聞 2025-08-30 20:34:19
113 跟貼 113
牛彈琴：有意思美國總統(tǒng)跟一塊石頭干上了

上游新聞 2025-08-31 08:18:03
57 跟貼 57
M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機器之心Pro 2025-07-15 17:07:00
0 跟貼 0
馬駿院士、樊嘉院士、葛均波院士、黃荷鳳院士、王曉東院士、張澤民院士、陳春英院士等多個團隊發(fā)表最新研究

生物學霸 2025-08-29 17:43:17
1 跟貼 1
大史表示：東契奇和濃眉賊適配

老妁學科普 2025-08-30 03:08:48
1 跟貼 1
拳皇14：陳國漢vs庫克里，600斤大漢極限反擊KO對手！

淡水解說 2025-08-26 21:24:59
1 跟貼 1
谷歌Nano Banana全網刷屏，起底背后團隊

機器之心Pro 2025-08-29 15:36:46
1 跟貼 1
寫過代碼、當過架構師、也做過CEO：一位程序員的IT職業(yè)「血淚史」

CSDN 2025-08-29 18:02:20
5 跟貼 5
天津醫(yī)科大學最新Cell子刊：這個基因可增強二甲雙胍對肺癌的抗腫瘤作用

生物世界 2025-08-31 12:17:11
0 跟貼 0
單車導購丨6.58萬起的MG4，為什么不推薦半固態(tài)電池版？

汽車公告板 2025-08-30 10:58:28
0 跟貼 0
甘肅敦煌夜市一公廁成網紅打卡點，游客稱“還以為誤闖了某個石窟”，工作人員：30年老樓改造而來

極目新聞 2025-08-30 17:01:25
631 跟貼 631
美軍七艦壓境委內瑞拉，還有一艘核潛艇！緝毒還是“入侵”？專家：一個打破“沉默”的細節(jié)耐人尋味

紅星新聞 2025-08-30 18:01:23
1913 跟貼 1913
比 996 還狠！讓面試者8小時復刻出自家Devin，創(chuàng)始人直言：受不了高強度就別來

InfoQ 2025-08-31 10:27:21
0 跟貼 0
新西蘭奶源品質優(yōu)渥，歐洲牧場環(huán)境絕佳，美國質檢適配中國寶寶

搞笑嘻哈哈 2025-08-29 17:09:11
1 跟貼 1
廣西一中學軍訓暴雨中堅持會操校方：學生要求不離場這場雨一輩子都記得

紅星新聞 2025-08-30 18:36:12
317 跟貼 317
血脂報告單就找這三個數值

開心王醫(yī)生 2025-08-26 20:08:58
0 跟貼 0
新大驅疑似抄襲055！參數幾乎一模一樣，是抄襲還是泄密？

生命中最美的奇跡 2025-08-31 05:52:17
0 跟貼 0

手機 / 數碼

房產 / 家居

超越RAG和DAPT！華人團隊：一個小解碼器讓所有模型當上領域專家

入手iPhone 16還是等17？兩款手機全面對比

老板開免費青旅稱自己承擔房租和水電 已接待4000多人

老板開免費青旅稱自己承擔房租和水電 已接待4000多人

遼籃官宣：4冠功勛李曉旭續(xù)約迎第21季 新賽季變球員兼教練

韓磊起訴后，女方公開道歉

罕見熱鬧的8月之后，A股將迎怎樣的9月

家庭泛越野 大狗PLUS預售煥新11.28萬起

態(tài)度原創(chuàng)

英特爾SDC“超級核心”專利公布：多核心齊心協(xié)力提升單線程性能

“喪偶式教育”“詐尸式教育”，南京這所民辦校家長會火了！

《潛水員戴夫》或推出同世界觀新作！計劃拓展這一IP

三星稱王，小米第二，榮耀沖進第四

換個城市過夏天 | 夏末狂歡，浪在阜新黃家溝！

超越RAG和DAPT！華人團隊：一個小解碼器讓所有模型當上領域專家

老板開免費青旅稱自己承擔房租和水電已接待4000多人

老板開免費青旅稱自己承擔房租和水電已接待4000多人

遼籃官宣：4冠功勛李曉旭續(xù)約迎第21季新賽季變球員兼教練

家庭泛越野大狗PLUS預售煥新11.28萬起

“喪偶式教育”“詐尸式教育”，南京這所民辦校家長會火了！

三星稱王，小米第二，榮耀沖進第四

換個城市過夏天 | 夏末狂歡，浪在阜新黃家溝！