成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

M+框架來了,增加LLM隱空間記憶,不再受上下文窗口限制

0
分享至



本文的第一作者Yu Wang來自加州大學圣地亞哥分校,主要研究方向為Memory for LLMs and Memory for LLM Agents. 該論文于2024年在MIT-IBM Waston Lab實習過程中完成,通訊作者Zexue He也畢業(yè)于加州大學圣地亞哥分校。

M+是在 MemoryLLM 之上提出的長期隱空間記憶擴展框架:通過把「過期」隱藏向量寫入CPU - 側長期記憶池,再用協(xié)同檢索器拉回最相關記憶,它將 8 B 級模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上,同時顯存占用保持不變。



  • 論文標題:M+: Extending MemoryLLM with Scalable Long-Term Memory
  • 論文鏈接:https://arxiv.org/abs/2502.00592
  • 代碼倉庫:https://github.com/wangyu-ustc/MemoryLLM
  • 開源模型:https://huggingface.co/YuWangX/mplus-8b

背景:上下文 ≠ 記憶 & 現(xiàn)有記憶模型的缺陷

上下文窗口并不能直接等價于記憶。GPT-4.1 之類的模型即便支持 100 萬 token,也會隨窗口線性升高顯存與延遲,難以落地本地部署。

業(yè)界主流做法是 “Token-Level Memory”:把歷史內容或三元組存在數(shù)據(jù)庫 / 向量庫,檢索后再拼接回 prompt;MemGPT等系統(tǒng)即屬此類。該類做法不需要重復訓練,直接結合 GPT-4 這樣的大模型便可以獲得很不錯的性能,但是,它也會有一些隨之而來的問題:(1)冗余:原始文本并非最緊湊表達,重復率高。(2)沖突難解:遇到相互矛盾或不斷更新的信息時,文本級沖突消解復雜。(3)多模態(tài)能力弱:由于數(shù)據(jù)庫格式為文本,處理音頻或者圖片,視頻數(shù)據(jù)將相對困難。

因此,我們希望探索隱空間 (Latent-Space) 的 Memory -- 既壓縮又可端到端訓練,更接近人類在神經(jīng)激活中存儲信息的方式。

M + 的關鍵改進:Long-Term Memory

在 MemoryLLM 中,我們?yōu)?8B 的 Llama3 模型引入了約 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 層。當?shù)谝粚咏邮盏皆~輸入后,會通過 Embedding 層將詞轉化為一系列 4096 維的向量?;谶@一特點,我們設計了 MemoryLLM,在每一層都加入 N 個 Memory Tokens(實驗中 N=12800)。在生成過程中,這些 Memory Tokens 會作為每一層的 Prefix,通過 Cross-Attention 將信息注入后續(xù)層,使模型能 “看到” 保存在 Memory Pool 中的歷史信息。



在更新階段,我們會將每層 Memory Token 中最后 K 個(實驗中 K=256)與需要寫入的信息一同送入 Transformer,再次經(jīng)過 Cross-Attention,將信息壓入新的 Memory Tokens 中(如下圖所示)。與此同時,我們在原有 Memory 中隨機丟棄 K 個舊 Token,并將新生成的 K 個 Token 放到 Memory 尾部,完成更新。



基于這樣的設計,借助每層 12800 個 Memory Vectors,我們在 50k tokens 內都能保持良好的信息留存(最早 MemoryLLM-7B 版本只做到 20k,后續(xù)在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可達 50k)。然而,這樣的記憶容量仍無法滿足我們對更長序列的期待。要進一步擴展 Memory,單靠原有的 1.67B 容量已遠遠不夠,因此我們提出了Long-Term Memory。

如何高效實現(xiàn) Long-Term Memory?考慮到 MemoryLLM 中每一個 Memory Token 本質上都來自 Hidden States,我們將那些在更新過程中被 “丟棄” 的 Memory Token 并非直接舍棄,而是將其保存在長期記憶池中(如下圖)。



僅僅保存是不夠的,我們還需要具備強大的提取能力。最初我們嘗試用 Attention 來從長期記憶中檢索 Hidden States,但實驗表明 Attention 在提取 Hidden States 時效果有限(在論文的消融實驗中做了詳盡對比)。因此我們提出協(xié)同提取器(Co-trained Retriever),并與全模型進行聯(lián)合訓練(如下圖)。



通過這一結構,我們將模型的有效記憶跨度從 50k 一舉提升到 160k,且由于 Memory 主要駐留在 CPU,不會顯著增加 GPU 負擔。

M + 的實驗結果

顯著性能提升及更少的 GPU 使用:在 Longbook-QA 和 Longbook-Event-QA 兩個數(shù)據(jù)集上,我們都在更少 GPU 的使用下(單卡 18GB 左右)獲得了更強大的性能。





更強的信息留存能力:在 SQuAD 數(shù)據(jù)集上表現(xiàn)出遠超 MemoryLLM-7B 以及相關 ablation baseline 的信息留存能力,可以達到 160k 依舊不完全遺忘過去的信息。





結語

M+ 展示了我們在探索隱空間長期記憶領域的重要進展,也為下一代具備持續(xù)記憶能力的語言模型提供了堅實的技術支撐。未來,我們將繼續(xù)研究更高效的存儲機制、更智能的檢索策略,以及與多模態(tài)輸入更自然融合的隱空間記憶架構。在此方向上,M+ 不僅是對 MemoryLLM 的一次擴展,也是我們對 “讓模型擁有接近人類記憶能力” 這一愿景的又一次有力實踐。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
清朝正一品官的官員待遇有多優(yōu)厚,看完絕對讓你大吃一驚!

清朝正一品官的官員待遇有多優(yōu)厚,看完絕對讓你大吃一驚!

顧秋韻
2025-09-02 14:44:13
醫(yī)生發(fā)現(xiàn):大量喝茶的糖尿病患者,用不了多久,身體或有4個變化

醫(yī)生發(fā)現(xiàn):大量喝茶的糖尿病患者,用不了多久,身體或有4個變化

房產(chǎn)衫哥
2025-08-29 16:46:26
石破茂,改口了

石破茂,改口了

都市快報橙柿互動
2025-09-02 15:18:41
難以相信!她已經(jīng)61歲了,看起來竟然像三四十歲的樣子!

難以相信!她已經(jīng)61歲了,看起來竟然像三四十歲的樣子!

草莓解說體育
2025-08-29 05:54:09
驢友爬大同殿山發(fā)現(xiàn)4個疑似佛磬老物件:刻有“嘉靖四十二年”等銘文,已移交文保部門

驢友爬大同殿山發(fā)現(xiàn)4個疑似佛磬老物件:刻有“嘉靖四十二年”等銘文,已移交文保部門

極目新聞
2025-09-02 13:55:36
女孩接退伍男友反遭全網(wǎng)勸分,發(fā)3個視頻自證恩愛,怎料漏洞更多

女孩接退伍男友反遭全網(wǎng)勸分,發(fā)3個視頻自證恩愛,怎料漏洞更多

有范又有料
2025-09-03 14:19:15
郭晶晶兒子“天價”學費曝光,原來我們都被郭晶晶“騙”了

郭晶晶兒子“天價”學費曝光,原來我們都被郭晶晶“騙”了

探源歷史
2025-09-01 08:13:54
就在今天!9月3日凌晨!跳水傳來全紅嬋、游泳隊汪順、潘展樂消息

就在今天!9月3日凌晨!跳水傳來全紅嬋、游泳隊汪順、潘展樂消息

皮皮觀天下
2025-09-03 13:24:43
無尾翼無人戰(zhàn)機亮相九三閱兵,軍事專家解讀:隱身性能更強

無尾翼無人戰(zhàn)機亮相九三閱兵,軍事專家解讀:隱身性能更強

南方都市報
2025-09-03 11:40:11
德轉列英超夏窗最貴陣:伊薩克領銜紅軍5將,沃爾特馬德&埃澤在列

德轉列英超夏窗最貴陣:伊薩克領銜紅軍5將,沃爾特馬德&埃澤在列

直播吧
2025-09-03 18:23:10
俄羅斯終于攤牌,愿以兩大底牌換中國幫助,中方是否會改變立場?

俄羅斯終于攤牌,愿以兩大底牌換中國幫助,中方是否會改變立場?

Ck的蜜糖
2025-08-12 01:58:01
海蘭泡和江東六十四屯“照相館”

海蘭泡和江東六十四屯“照相館”

年代回憶
2025-08-13 20:49:14
金正恩時隔6年再訪華,崔善姬等陪同

金正恩時隔6年再訪華,崔善姬等陪同

中國新聞周刊
2025-09-02 14:08:23
九三閱兵之后,有個中美都不愿承認的真相:中國已是軍事第一強國

九三閱兵之后,有個中美都不愿承認的真相:中國已是軍事第一強國

文昌每日談
2025-09-03 17:50:54
“生死都在臺灣?”郭臺銘:若兩岸開戰(zhàn),將提供物資用以對抗大陸

“生死都在臺灣?”郭臺銘:若兩岸開戰(zhàn),將提供物資用以對抗大陸

boss外傳
2025-07-30 11:00:03
物是人非!勒沃庫森奪冠首發(fā)11人如今僅剩2人留隊

物是人非!勒沃庫森奪冠首發(fā)11人如今僅剩2人留隊

雷速體育
2025-09-03 13:44:31
央媒專訪,戳穿曹云金離開15年后的真實處境,郭麒麟的話有人信了

央媒專訪,戳穿曹云金離開15年后的真實處境,郭麒麟的話有人信了

阿纂看事
2025-08-06 20:50:29
27歲上海女子被富豪包養(yǎng),自愿簽下保密協(xié)議,入住山頂別墅

27歲上海女子被富豪包養(yǎng),自愿簽下保密協(xié)議,入住山頂別墅

第四思維
2025-09-01 09:02:30
正式官宣!頂級前鋒加盟北京首鋼,攜手趙睿,劍指CBA總冠軍

正式官宣!頂級前鋒加盟北京首鋼,攜手趙睿,劍指CBA總冠軍

體壇瞎白話
2025-09-03 16:40:24
金主愛也來了

金主愛也來了

周邊問題研究所
2025-09-02 22:12:41
2025-09-03 19:11:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11224文章數(shù) 142439關注度
往期回顧 全部

科技要聞

8月車市觀察:價格戰(zhàn)退潮,價值感上位

頭條要聞

23歲雙胞胎亮相閱兵裝備方隊 父母:沒找到他們在哪

頭條要聞

23歲雙胞胎亮相閱兵裝備方隊 父母:沒找到他們在哪

體育要聞

東契奇場均31+8+7 2連敗后2連勝帶隊晉級

娛樂要聞

劉尚嫻 最幸運的事 就是嫁給初戀丈夫

財經(jīng)要聞

高盛高管:中國股市仍有上漲空間

汽車要聞

一天一個樣 方程豹鈦3玩轉“面部重組”

態(tài)度原創(chuàng)

手機
游戲
時尚
家居
軍事航空

手機要聞

蘋果秋季發(fā)布會除了iPhone 17系列,庫克還有幾個菜?

出賣世界的人可能是賽馬娘?原因是同一人作曲

“老頭衫”爆火出圈!今年流行的老錢風、運動混搭風都離不開它

家居要聞

與光同塵 居于自然空間

軍事要聞

九三盛大閱兵全程回顧

無障礙瀏覽 進入關懷版