突破Agent長程推理效率瓶頸！MIT&NUS聯(lián)合推出強化學習新訓練方法

2025-08-22 16:37:35　來源: 量子位

北京舉報

分享至

MEM1團隊投稿
量子位 | 公眾號 QbitAI

AI Agent正在被要求處理越來越多復雜的任務。

但當它要不停地查資料、跳頁面、篩選信息時，顯存狂飆、算力吃緊的問題就來了。

針對這一難題，MIT和新加坡國立大學聯(lián)合提出了MEM1框架。實驗結果顯示，7B參數(shù)MEM1模型的推理速度能達到傳統(tǒng)14B模型的3.5倍，同時峰值上下文token（peak token）數(shù)量約為后者1/4。

該框架提出了一種基于強化學習的推理方案，通過讓智能體學會將記憶更新作為上下文的一部分，從而實現(xiàn)近似常量級的顯存開銷（near constant memory）。

目前相關論文已被大語言模型會議COLM 2025 Reasoning，Attention & Memory：RAM 2 workshop收錄為口頭報告（Oral），會議將于今年10月份在加拿大蒙特利爾舉辦。

MEM1：讓AI學會自主整理思緒+管理工作記憶

想象一位科研工作者連續(xù)工作一周后的大腦——充斥著各種公式、實驗數(shù)據(jù)和臨時靈感，但真正用于解決問題的只是其中核心片段。

對于人來說，每過一段時間起身喝杯咖啡醒醒腦，可以整理思緒，但是對于AI agent來說，這就難了。

經(jīng)典的大語言模型采用全上下文提示技術，每輪交互都完整附上所有歷史記錄。隨著對話輪次增加，計算成本和內存需求都呈線性增長（O(N)）。

無限線性增長的上下文導致三個嚴重問題:

無限增長的計算代價；
超出訓練長度的泛化失效；
因信息過載導致的推理能力退化，即使相關信息仍在上下文中，模型也無法有效利用它們。

MEM1的核心創(chuàng)新在于通過訓練的方式讓模型自主將記憶與推理統(tǒng)一。

不同于簡單地添加外部記憶模塊（如RAG類的方法），MEM1通過端到端強化學習訓練代理，使其在每一步自動完成三個關鍵操作：

1、提取——從新觀察中識別關鍵信息；
2、整合——將新信息與內部記憶狀態(tài)融合；
3、修剪——丟棄冗余或無關內容。

通過這種訓練方法，AI Agent僅需維護自己上下文中的一個（Internal State），這個

內部狀態(tài)

包含之前上下文中所有模型自己認為需要保留的重要信息。

通過引入不會隨交互輪次增加而膨脹。

，模型的上下文

不僅如此，

的引入使得模型的推理過程與記憶整合可以有機地結合在一起，它不僅提供對當前查詢的深度洞察，還充當“工作記憶”，從收集信息中提取關鍵組件構建下一步推理。

這種過程也十分符合人們自己整理思緒的過程：雜亂陳舊的記憶被遺忘，同時隨著記憶被整合，下一步的工作重點也隨之顯現(xiàn)出來。

MEM1采用端到端的基于結果獎勵（Outcome Reward）的強化學習訓練方式，并引入一種特殊的注意力掩碼機制（Attention Mask）。

該機制限定Agent在生成下一步輸出時只能關注到上一輪交互的內容，從而迫使其學會對歷史信息進行高效壓縮，同時提升推理與問題求解能力。

相對于傳統(tǒng)的RL訓練，MEM1在rollout期間引入了多個trajectories來訓練compressed reasoning。為了提升訓練效率，MEM1使用attention masking技巧將面向同一個任務的多個trajectories壓縮成一個進行高效訓練。

在推理階段，MEM1 agent會在推理時由agent自主地不斷整合自己的context。整合完之后，之前的memory會自動從context中移出，從而達到在長程環(huán)境交互任務下控制context長度的目的。

上圖為MEM1（下）和現(xiàn)有推理模型（上）在長程任務上上下文占用的對比，可以看出現(xiàn)有推理模型上下文會隨著輪次增加線性增長，但MEM1每一輪后將被壓縮過的信息移出context使得上下文保持近似不變。

推理與信息整合的雙重能力

經(jīng)典的RL環(huán)境通常是為短交互設計，并不能很好的鼓勵模型進行長期多輪的推理。大家比較熟知的多輪對話數(shù)據(jù)集，例如hotpot QA等通常也只需要模型進行兩輪推理。

為了驗證MEM1訓練方法的效果，MEM1團隊基于現(xiàn)有的數(shù)據(jù)集構造了一個高難度多目標問答任務的訓練環(huán)境。團隊基于以下不同領域的數(shù)據(jù)集構建了訓練環(huán)境并進行訓練：

1、Doc檢索QA：模擬研究代理查閱內部文檔；
2、開放域Web QA：真實網(wǎng)絡環(huán)境信息獲取；
3、多輪網(wǎng)購：WebShop平臺的復雜決策鏈。

團隊在2目標任務上訓練MEM1 agent，然后在復雜的16目標任務上測試。

MEM1展現(xiàn)出了超越訓練范圍的強大泛化能力，在16目標任務上，MEM1準確率，上下文長度，推理速度三個維度上全方面超過比他更大的模型以及帶有外部記憶模塊的模型。

隨后，研究團隊對MEM1 agent的推理行為進行了定性分析，發(fā)現(xiàn)MEM1在處理多輪搜索推理任務時成功展現(xiàn)出了推理與信息整合的雙重能力。

記憶方面，MEM1展現(xiàn)出了分問題獨立存儲以及信息更新能力。在推理方面，MEM1能夠掌握自適應的搜索策略，例如拆解子問題，調整關鍵詞查詢，以及任務規(guī)劃等等。

MEM1為處理AI Agent長推理上下文這一重大挑戰(zhàn)提供了一個非常有意思的思路。

當下工業(yè)界處理上下文仍是以接入外部記憶模塊作為主流方法。但是這種做法通常需要很繁瑣的工程，而且效果難以掌控。

隨著AI Agent端到端強化學習范式的興起，智能體記憶或許可以通過RL的方式讓模型自己來處理。正如MEM1團隊提到的：智能不是讓AI記住一切，而是教會它自己決定應該如何記憶。

論文地址：https://arxiv.org/abs/2506.15841
代碼地址：https://github.com/MIT-MI/MEM1
開源模型：https://huggingface.co/Mem-Lab/Qwen2.5-7B-RL-RAG-Q2-EM-Release

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

EMNLP 2025 | 動態(tài)壓縮CoT推理新方法LightThinker來了

機器之心Pro 2025-08-28 14:20:41
0 跟貼 0
突破多模態(tài)獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
1 跟貼 1

強化學習的兩個「大坑」，終于被兩篇ICLR論文給解決了

機器之心Pro 2025-07-17 18:17:19
0 跟貼 0

華裔女學霸揭秘Claude Code，一人帶六個AI開干！編程范式徹底被顛覆

新智元 2025-08-30 12:54:01
36 跟貼 36
首次引入強化學習！火山引擎Q-Insight讓畫質理解邁向深度思考

機器之心Pro 2025-04-08 10:44:59
2 跟貼 2

MIT研究發(fā)現(xiàn)AI科學家在復雜物理問題上自發(fā)達成理論共識

DeepTech深科技 2025-04-17 16:18:57
0 跟貼 0

無需外部數(shù)據(jù)！AI自問自答實現(xiàn)推理能力進化

量子位 2025-08-08 15:51:21
0 跟貼 0
馬斯克入局AI編程！新模型限時免費：256K上下文，主打一個速度快

量子位 2025-08-29 09:20:55
12 跟貼 12

告別「面癱」配音，InfiniteTalk開啟從口型同步到全身表達新范式

機器之心Pro 2025-08-28 14:12:20
0 跟貼 0
騰訊提出RLVMR框架，讓7B模型「思考」比肩GPT-4o

機器之心Pro 2025-08-14 11:02:49
0 跟貼 0
MIT工科生跨界AI，獨作論文登Nature：只需3.5h修復600年前名畫

量子位 2025-06-16 15:58:08
7 跟貼 7
吳恩達最新來信：是時候關注并行智能體了

量子位 2025-08-30 17:02:12
1 跟貼 1
工廠大腦調度、Agent指揮、機器人協(xié)同作業(yè)，美的建了全球首個智能體工

36氪 2025-08-29 20:53:41
0 跟貼 0
提示詞工程、RAG之后，LangChain：上下文工程開始火了！

機器之心Pro 2025-06-25 14:18:39
0 跟貼 0
Qwen真是怪胎，獎勵錯了，模型反而更強，強化學習得推翻重來？

機器之心Pro 2025-06-04 21:44:30
0 跟貼 0
OpenAI頭號叛徒，竟然是自學的AI?

量子位 2025-08-22 16:06:15
0 跟貼 0
AI應用：浮現(xiàn)中的AI經(jīng)濟

機器之心Pro 2025-08-31 14:26:07
0 跟貼 0
谷歌Nano Banana全網(wǎng)刷屏，起底背后團隊

機器之心Pro 2025-08-29 15:36:46
1 跟貼 1
價格降至百元級、需求暴漲11倍，人形機器人帶動傳感器“狂飆”｜聚焦

財聯(lián)社 2025-08-31 13:34:28
2 跟貼 2
生成3D手辦還能互動！谷歌新模型太炸裂了：這是PS終局？

雷科技 2025-08-31 19:00:41
0 跟貼 0
唯快不破：上海AI Lab 82頁綜述帶你感受LLM高效架構的魅力

機器之心Pro 2025-08-25 18:03:35
0 跟貼 0
構建更有溫度的智能社會 | 經(jīng)觀社論

經(jīng)濟觀察報 2025-08-31 15:25:42
0 跟貼 0
一句話生成智能體集群，開發(fā)Agent能有多簡單？

量子位 2025-07-30 02:58:47
0 跟貼 0
該入局Agent創(chuàng)業(yè)了，F(xiàn)lowith 00后CMO：我們做到了模型做不到的事

機器之心Pro 2025-07-31 12:12:31
0 跟貼 0
直擊WAIC丨具身大模型賦能！機器人秒變專業(yè)鼓手

每日經(jīng)濟新聞 2025-07-29 01:50:00
0 跟貼 0
超算互聯(lián)網(wǎng)上線開源AI社區(qū)！模型+數(shù)據(jù)+算力，一站式解決

量子位 2025-06-23 20:07:47
0 跟貼 0
研發(fā)自動化的初衷是讓每一個研究員都有Agent助理

量子位 2025-04-23 08:05:00
0 跟貼 0
美媒反思F-22禁售決策，過度保密致戰(zhàn)力停滯，殲-20彎道超車

杜文龍 2025-08-30 19:04:55
20 跟貼 20
136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

機器之心Pro 2025-04-08 18:40:57
0 跟貼 0
重構訓練框架，開源新方法：拋棄替代損失函數(shù)，僅需優(yōu)化原始目標

量子位 2025-04-27 12:22:37
0 跟貼 0
不愧是狄大人，輕松推理出犯人

大風車影視 2025-08-27 22:07:01
1 跟貼 1
M+框架來了，增加LLM隱空間記憶，不再受上下文窗口限制

機器之心Pro 2025-07-15 17:07:00
0 跟貼 0
為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

此去經(jīng)年q 2025-08-31 04:11:54
0 跟貼 0
歐盟最新放話：若俄不賠償烏損失其被凍結資產別要了

澎湃新聞 2025-08-31 14:56:44
18782 跟貼 18782
令人贊嘆敬佩的訓練

記錄自然 2025-08-30 07:48:07
1 跟貼 1
中國重大決策為何總被美日掌握，難道有內鬼在泄密！

素玉姑娘 2025-08-31 04:13:01
0 跟貼 0
頂尖大學訃告

雙一流高校 2025-08-31 17:21:08
0 跟貼 0
滿屏硝煙！直擊工兵實爆訓練震撼現(xiàn)場

石場阿鑫 2025-08-30 00:00:00
0 跟貼 0
高溫天偷走好心情？麻省理工學院研究證實！

人民日報健康客戶端 2025-08-28 21:11:43
6 跟貼 6
退休工資上漲落地，會算嗎。計算公式它來了！

多奇探秘 2025-08-29 14:36:40
0 跟貼 0

量子位

追蹤人工智能動態(tài)

11216文章數(shù) 176256關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

時尚

藝術

手機

教育

手機 / 數(shù)碼

房產 / 家居

突破Agent長程推理效率瓶頸！MIT&NUS聯(lián)合推出強化學習新訓練方法

入手iPhone 16還是等17？兩款手機全面對比

夫妻自駕從安徽送兒子去新疆上大學：辛苦但快樂

夫妻自駕從安徽送兒子去新疆上大學：辛苦但快樂

破2億身家！莎拉波娃的"勝負腦"

胡歌是永遠都不會離婚的，原因很簡單

罕見熱鬧的8月之后，A股將迎怎樣的9月

家庭泛越野 大狗PLUS預售煥新11.28萬起

態(tài)度原創(chuàng)

她有兩個子宮，同時懷孕！醫(yī)生：堪比中彩票

今年秋天最流行的4組搭配，誰穿誰好看！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

拯救手機存儲空間 榮耀宣布超50款新老機型升級支持圖庫清理建議

清華追蹤42萬學生后發(fā)出警告：空心病，正在毀掉孩子

突破Agent長程推理效率瓶頸！MIT&NUS聯(lián)合推出強化學習新訓練方法

入手iPhone 16還是等17？兩款手機全面對比

胡歌是永遠都不會離婚的，原因很簡單

罕見熱鬧的8月之后，A股將迎怎樣的9月

家庭泛越野大狗PLUS預售煥新11.28萬起

她有兩個子宮，同時懷孕！醫(yī)生：堪比中彩票

今年秋天最流行的4組搭配，誰穿誰好看！

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

拯救手機存儲空間榮耀宣布超50款新老機型升級支持圖庫清理建議

清華追蹤42萬學生后發(fā)出警告：空心病，正在毀掉孩子