成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

突破Agent長程推理效率瓶頸!MIT&NUS聯(lián)合推出強化學習新訓練方法

0
分享至

MEM1團隊 投稿
量子位 | 公眾號 QbitAI

AI Agent正在被要求處理越來越多復雜的任務。

但當它要不停地查資料、跳頁面、篩選信息時,顯存狂飆、算力吃緊的問題就來了。

針對這一難題,MIT和新加坡國立大學聯(lián)合提出了MEM1框架。實驗結果顯示,7B參數(shù)MEM1模型的推理速度能達到傳統(tǒng)14B模型的3.5倍,同時峰值上下文token(peak token)數(shù)量約為后者1/4。



該框架提出了一種基于強化學習的推理方案,通過讓智能體學會將記憶更新作為上下文的一部分,從而實現(xiàn)近似常量級的顯存開銷(near constant memory)。

目前相關論文已被大語言模型會議COLM 2025 Reasoning,Attention & Memory:RAM 2 workshop收錄為口頭報告(Oral),會議將于今年10月份在加拿大蒙特利爾舉辦。



MEM1:讓AI學會自主整理思緒+管理工作記憶

想象一位科研工作者連續(xù)工作一周后的大腦——充斥著各種公式、實驗數(shù)據(jù)和臨時靈感,但真正用于解決問題的只是其中核心片段。

對于人來說,每過一段時間起身喝杯咖啡醒醒腦,可以整理思緒,但是對于AI agent來說,這就難了。

經(jīng)典的大語言模型采用全上下文提示技術,每輪交互都完整附上所有歷史記錄。隨著對話輪次增加,計算成本和內存需求都呈線性增長(O(N))。

無限線性增長的上下文導致三個嚴重問題:

  • 無限增長的計算代價;
  • 超出訓練長度的泛化失效;
  • 因信息過載導致的推理能力退化,即使相關信息仍在上下文中,模型也無法有效利用它們。

MEM1的核心創(chuàng)新在于通過訓練的方式讓模型自主將記憶與推理統(tǒng)一。

不同于簡單地添加外部記憶模塊(如RAG類的方法),MEM1通過端到端強化學習訓練代理,使其在每一步自動完成三個關鍵操作:

1、提取——從新觀察中識別關鍵信息;
2、整合——將新信息與內部記憶狀態(tài)融合;
3、修剪——丟棄冗余或無關內容。

通過這種訓練方法,AI Agent僅需維護自己上下文中的一個(Internal State),這個

內部狀態(tài)

包含之前上下文中所有模型自己認為需要保留的重要信息。

通過引入不會隨交互輪次增加而膨脹。

,模型的上下文

不僅如此,

的引入使得模型的推理過程與記憶整合可以有機地結合在一起,它不僅提供對當前查詢的深度洞察,還充當“工作記憶”,從收集信息中提取關鍵組件構建下一步推理。

這種過程也十分符合人們自己整理思緒的過程:雜亂陳舊的記憶被遺忘,同時隨著記憶被整合,下一步的工作重點也隨之顯現(xiàn)出來。



MEM1采用端到端的基于結果獎勵(Outcome Reward)的強化學習訓練方式,并引入一種特殊的注意力掩碼機制(Attention Mask)。

該機制限定Agent在生成下一步輸出時只能關注到上一輪交互的內容,從而迫使其學會對歷史信息進行高效壓縮,同時提升推理與問題求解能力。

相對于傳統(tǒng)的RL訓練,MEM1在rollout期間引入了多個trajectories來訓練compressed reasoning。為了提升訓練效率,MEM1使用attention masking技巧將面向同一個任務的多個trajectories壓縮成一個進行高效訓練。

在推理階段,MEM1 agent會在推理時由agent自主地不斷整合自己的context。整合完之后,之前的memory會自動從context中移出,從而達到在長程環(huán)境交互任務下控制context長度的目的。



上圖為MEM1(下)和現(xiàn)有推理模型(上)在長程任務上上下文占用的對比,可以看出現(xiàn)有推理模型上下文會隨著輪次增加線性增長,但MEM1每一輪后將被壓縮過的信息移出context使得上下文保持近似不變。

推理與信息整合的雙重能力

經(jīng)典的RL環(huán)境通常是為短交互設計,并不能很好的鼓勵模型進行長期多輪的推理。大家比較熟知的多輪對話數(shù)據(jù)集,例如hotpot QA等通常也只需要模型進行兩輪推理。

為了驗證MEM1訓練方法的效果,MEM1團隊基于現(xiàn)有的數(shù)據(jù)集構造了一個高難度多目標問答任務的訓練環(huán)境。團隊基于以下不同領域的數(shù)據(jù)集構建了訓練環(huán)境并進行訓練:

1、Doc檢索QA:模擬研究代理查閱內部文檔;
2、開放域Web QA:真實網(wǎng)絡環(huán)境信息獲取;
3、多輪網(wǎng)購:WebShop平臺的復雜決策鏈。

團隊在2目標任務上訓練MEM1 agent,然后在復雜的16目標任務上測試。

MEM1展現(xiàn)出了超越訓練范圍的強大泛化能力,在16目標任務上,MEM1準確率,上下文長度,推理速度三個維度上全方面超過比他更大的模型以及帶有外部記憶模塊的模型。



隨后,研究團隊對MEM1 agent的推理行為進行了定性分析,發(fā)現(xiàn)MEM1在處理多輪搜索推理任務時成功展現(xiàn)出了推理與信息整合的雙重能力。

記憶方面,MEM1展現(xiàn)出了分問題獨立存儲以及信息更新能力。在推理方面,MEM1能夠掌握自適應的搜索策略,例如拆解子問題,調整關鍵詞查詢,以及任務規(guī)劃等等。



MEM1為處理AI Agent長推理上下文這一重大挑戰(zhàn)提供了一個非常有意思的思路。

當下工業(yè)界處理上下文仍是以接入外部記憶模塊作為主流方法。但是這種做法通常需要很繁瑣的工程,而且效果難以掌控。

隨著AI Agent端到端強化學習范式的興起,智能體記憶或許可以通過RL的方式讓模型自己來處理。正如MEM1團隊提到的:智能不是讓AI記住一切,而是教會它自己決定應該如何記憶。

論文地址:https://arxiv.org/abs/2506.15841
代碼地址:https://github.com/MIT-MI/MEM1
開源模型:https://huggingface.co/Mem-Lab/Qwen2.5-7B-RL-RAG-Q2-EM-Release

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
瓦格納兵變兩年后,普里戈任的母親說出真相,原來普京一直都知道

瓦格納兵變兩年后,普里戈任的母親說出真相,原來普京一直都知道

通鑒史智
2025-08-28 19:45:35
下課僅1天,穆里尼奧新東家曝光,時隔4年重回英超,這次帶隊保級

下課僅1天,穆里尼奧新東家曝光,時隔4年重回英超,這次帶隊保級

綠茵舞著
2025-08-30 15:15:47
記者:因昨日誤吹進球,利物浦vs槍手的VAR裁判被更換

記者:因昨日誤吹進球,利物浦vs槍手的VAR裁判被更換

雷速體育
2025-08-31 20:36:02
剛剛,連發(fā)公告!恢復、調整!

剛剛,連發(fā)公告!恢復、調整!

江南晚報
2025-08-31 13:48:09
你以為是懶,其實是已經(jīng)過度疲勞的 4 種表現(xiàn)。!

你以為是懶,其實是已經(jīng)過度疲勞的 4 種表現(xiàn)。!

醫(yī)路向前巍子
2025-08-30 15:58:16
改稱呼僅12天,佛教協(xié)會對釋永信再下重手,這5人的命運從此改變

改稱呼僅12天,佛教協(xié)會對釋永信再下重手,這5人的命運從此改變

史行途
2025-08-22 11:38:26
國民黨主席選舉,郝龍斌未下決心,韓國瑜將出手,或推代理人參戰(zhàn)

國民黨主席選舉,郝龍斌未下決心,韓國瑜將出手,或推代理人參戰(zhàn)

現(xiàn)代小青青慕慕
2025-08-31 14:58:16
涉嫌嚴重違紀違法!重慶市政協(xié)黨組成員、秘書長藍慶華接受審查調查

涉嫌嚴重違紀違法!重慶市政協(xié)黨組成員、秘書長藍慶華接受審查調查

魯中晨報
2025-08-31 20:16:05
葛優(yōu)在北京購買越野車,價值大約90萬元,本人親自去提車

葛優(yōu)在北京購買越野車,價值大約90萬元,本人親自去提車

探源歷史
2025-08-29 17:21:54
菲律賓最后時刻怕了?撤走全部艦船,坐灘艦船員或在9月主動撤離

菲律賓最后時刻怕了?撤走全部艦船,坐灘艦船員或在9月主動撤離

林子說事
2025-08-30 18:53:21
48歲女子與男高考生爬泰山,雙雙墜崖后,遺書催人淚下:這輩子值了

48歲女子與男高考生爬泰山,雙雙墜崖后,遺書催人淚下:這輩子值了

罪案洞察者
2025-07-19 13:49:07
麻了!0分,運動戰(zhàn)0分!熱火拒絕拿他交易杜蘭特

麻了!0分,運動戰(zhàn)0分!熱火拒絕拿他交易杜蘭特

籃球實戰(zhàn)寶典
2025-08-31 20:10:48
今晚中國女排真得像球迷們說的,分分鐘能把法國女排打趴下嗎?

今晚中國女排真得像球迷們說的,分分鐘能把法國女排打趴下嗎?

kio魚
2025-08-31 20:27:53
重磅消息!哈馬斯軍事宣傳“靈魂人物”被以色列斬首!

重磅消息!哈馬斯軍事宣傳“靈魂人物”被以色列斬首!

國際情爆猿
2025-08-31 14:07:47
七夕張丹紅送祝福,首曬夫妻親密合照,原來李國慶的愛這么簡單!

七夕張丹紅送祝福,首曬夫妻親密合照,原來李國慶的愛這么簡單!

智凌縱橫
2025-08-31 19:21:27
淚目!陳雨菲需人攙扶才能離場 或缺席決賽:3年前的遺憾難彌補

淚目!陳雨菲需人攙扶才能離場 或缺席決賽:3年前的遺憾難彌補

風過鄉(xiāng)
2025-08-30 22:58:23
歷史上,中國人民最大的敵人不是日本帝國主義,而是蔣介石!

歷史上,中國人民最大的敵人不是日本帝國主義,而是蔣介石!

仰望星空的一粒沙子
2025-08-31 08:15:09
俄對烏發(fā)起新一輪猛烈空襲,烏克蘭前最高拉達主席遇襲身亡

俄對烏發(fā)起新一輪猛烈空襲,烏克蘭前最高拉達主席遇襲身亡

史政先鋒
2025-08-30 23:46:14
入獄三年、貪污1.3億!出獄后獲國家超千萬項目支持,他憑什么?

入獄三年、貪污1.3億!出獄后獲國家超千萬項目支持,他憑什么?

博覽歷史
2025-08-30 18:59:42
斯基拉:格伊即將加盟利物浦!轉會費4200萬歐+10%二轉條款

斯基拉:格伊即將加盟利物浦!轉會費4200萬歐+10%二轉條款

直播吧
2025-08-31 17:18:18
2025-08-31 21:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11216文章數(shù) 176256關注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

夫妻自駕從安徽送兒子去新疆上大學:辛苦但快樂

頭條要聞

夫妻自駕從安徽送兒子去新疆上大學:辛苦但快樂

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預售煥新11.28萬起

態(tài)度原創(chuàng)

親子
時尚
藝術
手機
教育

親子要聞

她有兩個子宮,同時懷孕!醫(yī)生:堪比中彩票

今年秋天最流行的4組搭配,誰穿誰好看!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

拯救手機存儲空間 榮耀宣布超50款新老機型升級支持圖庫清理建議

教育要聞

清華追蹤42萬學生后發(fā)出警告:空心病,正在毀掉孩子

無障礙瀏覽 進入關懷版