一個小解碼器讓所有模型當上領域專家!華人團隊新研究正在引起熱議。
他們提出了一種比目前業(yè)界主流采用的DAPT(領域自適應預訓練)和RAG(檢索增強生成)更方便、且成本更低的方法。
- 相比DAPT,不需要昂貴的全參數訓練;
- 相比RAG,不依賴昂貴的檢索。
而且實驗結果顯示,其方法能夠顯著提升Qwen和Llama等模型在三個專門領域(生物醫(yī)學、金融、法律)的效果,并使困惑度平均降低6.17分(相當于預測下一個詞的正確率提升了約20%~25%)。
好好好,不賣關子了,原來這是來自上海交大、上海AI Lab等機構的研究人員提出的一個名為“Memory Decoder”的預訓練記憶模塊——
通過使用一個小型的前置解碼器(former decoder),能夠學習模仿外部非參數檢索器的行為。
翻譯成大白話就是,Memory Decoder就像給大模型加了一個“領域知識插件”,既高效又靈活,為大模型適應特定領域提供了一種新方法。
劃重點,即插即用、無需改變原始模型參數、可以和任何共享相同分詞器的大語言模型集成。
對于這一新研究,有網友激動表示,這改變了游戲規(guī)則。
下面詳細來看論文內容。
一種即插即用的預訓練記憶模塊
隨著大模型在通用任務中適應良好,業(yè)界目前均在嘗試用不同方法讓其更適配特定領域。
論文也是瞄準了這一目標,并提出了一種即插即用的預訓練記憶模塊——Memory Decoder。
和DAPT、RAG等主流方式相比,其優(yōu)勢相對明顯:
(1)DAPT(領域自適應預訓練)需要對模型全參數進行訓練(即把模型整個重新訓練一遍),成本高昂,且容易出現“災難性遺忘”(即忘記之前學到的通用知識)。
(2)RAG(檢索增強生成)則因需要進行耗時的近鄰搜索,且處理更長的上下文,通常會導致推理速度變慢(延遲增加)。
而Memory Decoder本質上是一個小型Transformer解碼器(作為“記憶模塊”),其核心思路為:
- 在預訓練階段,讓它學習模仿一個外部檢索器的行為,把特定領域的知識壓縮到自己的參數里;
- 在推理階段,把它和大模型一起使用,通過結果融合提升預測質量。
舉個例子,當用戶問“大眾汽車的CEO是誰?”時,大模型通常可能基于通用語料,給出一個模糊的分布(如“馬斯克30%,布魯默40%,庫克20%”),但未必足夠準確。
有了Memory Decoder后,由于已經在預訓練中學會了模仿檢索器的行為,會更傾向輸出“布魯默”的分布(如“布魯默80%,馬斯克10%,庫克5%”)。
最終,模型會將二者的結果進行插值融合,從而得到更可靠的答案。
這樣一來,Memory Decoder就像給大模型配了一個“領域小助手”,既能避免重新訓練的高成本,也能免去實時搜索資料庫帶來的延遲問題,真正實現了低成本、高效率、即插即用的領域增強。
多種Qwen/Llama模型更懂醫(yī)學、法律和金融了
為了驗證Memory Decoder的有效性,團隊選用了多種Qwen(從0.5B到72B參數)和Llama系列(從1B到70B參數)的預訓練語言模型,來測試其在生物醫(yī)學、金融、法律這三個專業(yè)領域的效果。
之所以選這三個,主要是因為它們對模型的專業(yè)知識儲備要求高,而且傳統(tǒng)適配方法經常“鎩羽而歸”。
具體衡量指標則為Perplexity(困惑度)——數值越低表示模型對該領域文本的理解和預測越準確。
最終實驗結果如下:
可以看到, 不管原模型參數量多大,Memory Decoder均能起到領域增強作用,而且比傳統(tǒng)LoRA方法更有效。
更關鍵的是,在Qwen2.5上訓練的Memory Decoder,只需極少的額外訓練(僅為原始訓練成本的10%),就能適配Llama系列模型——
不僅顯著降低了所有Llama變體模型的困惑度,而且在生物醫(yī)學和金融領域的表現持續(xù)優(yōu)于LoRA方法。
整體而言,在生物醫(yī)學、金融、法律三個領域中,使用Memory Decoder的多種Qwen和Llama模型,平均降低了6.17分困惑度,初步驗證了Memory Decoder的有效性。
不過作者們也在論文最后提到了其局限性:
- 訓練階段存在計算開銷
訓練Memory Decoder的時候,得從一個大數據庫里搜很多相關信息來當“學習材料”,這個搜索過程會消耗不少計算資源。雖然每個領域只需要這么干一次,之后能給各種模型用,但訓練階段這一步依舊無法免去。
- 跨分詞器適配仍需部分參數更新
要想把在A模型(如Qwen2.5)上訓練好的Memory Decoder用到B模型(如Llama)上,仍需要對嵌入空間進行一些參數更新以實現對齊。
雖然跨分詞器適配相比從頭訓練需要的訓練量極少,但無法實現真正意義上的零樣本跨架構遷移。
但是有一說一,Memory Decoder最大的意義或許在于,它提出了一種新的范式——
基于特別預訓練的記憶組件來進行領域自適應。
這一記憶架構可以即插即用地集成到目標領域的多種模型中,并持續(xù)提升性能。
論文:
https://www.arxiv.org/abs/2508.09874
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.