新智元報(bào)道
編輯:桃子 好困
【新智元導(dǎo)讀】大模型再?gòu)?qiáng),也躲不過上下文限制的「蕉綠」!MIT等團(tuán)隊(duì)推出的一套組合拳——TIM和TIMRUN,輕松突破token天花板,讓8b小模型也能實(shí)現(xiàn)大殺四方。
一直以來,上下文限制,如同「緊箍咒」限制了模型的潛能。
如今,一種全新突破性方案已經(jīng)到來。
來自MIT、普林斯頓、特拉維夫大學(xué)等機(jī)構(gòu)聯(lián)手,重磅推出「線程推理模型」(TIM)——一種專為遞歸和分解式問題求解而訓(xùn)練的大模型。
論文地址:https://arxiv.org/pdf/2507.16784
與此同時(shí),研究團(tuán)隊(duì)還提出了「推理運(yùn)行時(shí)」引擎TIMRUN,讓長(zhǎng)程推理成為現(xiàn)實(shí)。
具體來說,他們將自然語言建模為「推理樹」,由任務(wù)、思考、遞歸子任務(wù)、結(jié)論組成,實(shí)現(xiàn)了多軌并行推理。
此時(shí),樹的「長(zhǎng)度」和「深度」成為了度量的標(biāo)準(zhǔn)。
在生成過程中,TIMRUN就像一個(gè)內(nèi)存管家,只保留當(dāng)前最需要的token鍵/值狀態(tài),可以反復(fù)利用推理中的位置編碼和GPU內(nèi)存頁。
TIM+TIMRUN這套組合拳,讓推理效率直接飆升。
實(shí)驗(yàn)結(jié)果顯示,即便在90%的內(nèi)存占用下,TIM能實(shí)現(xiàn)高吞吐性能。
同時(shí),在數(shù)學(xué)任務(wù)中,TIM可以提供給精準(zhǔn)推理,信息檢索挑戰(zhàn)應(yīng)對(duì)自如,能輕松完成需要長(zhǎng)程推理和跨多步工具調(diào)用的任務(wù)。
LLM腦容量不夠?剪掉無用記憶
大模型的本質(zhì),是token序列生成器。
不論是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),還是Transformer,都受限于一個(gè)致命的問題:上下文窗口。
比如,Deepseek R1標(biāo)配的128k上下文,在現(xiàn)實(shí)中,一個(gè)復(fù)雜任務(wù)動(dòng)不動(dòng)就超出了這一上限。
若是LLM再?gòu)耐獠恳贿呎{(diào)用工具,一邊推理,token只會(huì)越跑越多,最終導(dǎo)致GPU內(nèi)存爆表。
更別提,傳統(tǒng)的「線性序列」方式,全部記住了所有上下文,內(nèi)容占用更高。
為了破解記憶瓶頸,開發(fā)者們通常將復(fù)雜工作流,拆分為多個(gè)模塊,然后再交由AI智能體分工協(xié)作。
然而在實(shí)操中,「多智能體架構(gòu)」出現(xiàn)了協(xié)調(diào)難、延遲高等問題。
在研究人員看來,推理并非是一個(gè)線性的過程,而是一種遞歸結(jié)構(gòu)化的。
這一過程,就如同編碼任務(wù)中人類大腦的一樣,我們會(huì)「選擇性記憶」,在進(jìn)行下一任務(wù)前,只保留關(guān)鍵信息,其余清空才能專心搞定當(dāng)前任務(wù)。
基于這些觀察,研究團(tuán)隊(duì)將推理軌跡建模為一個(gè)「遞歸的子任務(wù)樹」。
推理時(shí),AI只需關(guān)注當(dāng)前子任務(wù),剪掉無關(guān)的「枝葉」,大幅減少內(nèi)存占用,如下圖1所示。
通過剪枝無關(guān)子任務(wù),模型只需聚焦于一個(gè)選擇性的「工作記憶」
如前所述,論文中,研究團(tuán)隊(duì)提出的「線程推理模型」(TIM)和TIMRUN推理引擎,徹底顛覆了傳統(tǒng)LLM的推理方式。
TIM就是一個(gè)會(huì)拆解任務(wù)的超級(jí)AI,能夠輕松識(shí)別分解出的子任務(wù)、工具參數(shù)以及遞歸的層級(jí)關(guān)系。
TIMRUN是TIM的「最佳拍檔」,專為推理樹優(yōu)化內(nèi)存管理,兩者結(jié)合實(shí)現(xiàn)了以下三大突破:
支持幾乎無限的長(zhǎng)程推理,突破輸出token上限
在復(fù)雜任務(wù)中實(shí)現(xiàn)高效的單模型推理,具備更高解碼吞吐量和內(nèi)存效率
開啟最簡(jiǎn)化的智能體構(gòu)建方式:給TIM提供工具包,啟動(dòng)一次推理,即可獲得具備智能體特性的推理軌跡。
接下來,具體看看這套組合拳如何實(shí)現(xiàn)的?
TIM:8b訓(xùn)練,復(fù)雜任務(wù)切成塊
線程推理模型(TIM),直觀可以理解為,一顆推理樹有不同分支(子任務(wù))。
它采用了Thread-2框架,將推理過程建模為一個(gè)「任務(wù)樹」,也就是說,推理的基本單元是——任務(wù)。
每個(gè)任務(wù)由四個(gè)部分組成:思考、工具調(diào)用、子任務(wù)、結(jié)論。
與上一代Thread推理框架相比,Thread-2做出了多項(xiàng)改進(jìn)。
它能夠訪問工作記憶,包含系統(tǒng)提示、用戶輸入,以及尚未被剪枝的任務(wù),讓LLM實(shí)現(xiàn)端到端推理,一次調(diào)用就能完成推理
同時(shí),Thread-2還采用了一個(gè)固定大小的子任務(wù)「堆?!菇Y(jié)構(gòu)來執(zhí)行剪枝,即動(dòng)態(tài)清理無關(guān)子任務(wù),只保留關(guān)鍵信息,讓內(nèi)存占用大幅降低。
此外,其推理結(jié)果可以直接高效地解碼為JSON字典(JSON dictionary),告別了復(fù)雜的符號(hào)操作。
如下實(shí)踐中,研究團(tuán)隊(duì)以如下模式進(jìn)行JSON解碼,并結(jié)合搜索和網(wǎng)頁閱讀工具作為示例。
需要注意的是,多個(gè)工具調(diào)用可以在一次解碼過程中處理。
傳統(tǒng)方法中,一個(gè)推理過程需要20次工具調(diào)用,可能要重復(fù)計(jì)費(fèi)20次初始token。
而在TIM生成過程中,它將將工具響應(yīng)以JSON字典字符串形式返回到「推理引擎」,在轉(zhuǎn)化為新的輸入token批擴(kuò)展KV緩存。
這樣一來,就實(shí)現(xiàn)了模型一次調(diào)用,即可調(diào)用多個(gè)工具,避免了延遲和開銷。
訓(xùn)練細(xì)節(jié)
研究中,團(tuán)隊(duì)對(duì)Qwen3-8b進(jìn)行了后訓(xùn)練,不用復(fù)雜提示工程,最終生成Thread-2推理結(jié)構(gòu)。
為此,他們打造了一個(gè)「合成訓(xùn)練集」,覆蓋了2萬條openr1-math-220k數(shù)學(xué)問題、2萬條研究類問題、6千條ToolBench問題。
基于以上數(shù)據(jù)訓(xùn)練后,團(tuán)隊(duì)又在openR1-math-220k上,利用GRPO對(duì)模型進(jìn)行了強(qiáng)化學(xué)習(xí)。
訓(xùn)練完成后,就得到了「線程推理模型」(TIM)。
TIMRUN:保留關(guān)鍵信息,復(fù)用GPU
TIM結(jié)構(gòu)化輸出確實(shí)能夠大幅提升推理性能,另一個(gè)問題來了——如何實(shí)現(xiàn)部署?
為此,研究團(tuán)隊(duì)為TIM開發(fā)了一個(gè)配套的引擎TIMRUN。
為了實(shí)現(xiàn)超過輸出限制的長(zhǎng)時(shí)推理,TIMRUN必須支持在輸出生成過程中,復(fù)用GPU內(nèi)存和位置嵌入。
那么,研究中它是如何做到的呢?
子任務(wù)剪枝
TIMRUN的核心絕技之一,就是子任務(wù)剪枝(Subtask Pruning)。
它的邏輯非常簡(jiǎn)單粗暴,在推理時(shí),保留當(dāng)前任務(wù)需要的關(guān)鍵信息,把不必要的任務(wù)細(xì)節(jié)直接丟掉。
這個(gè)靈感,來自一個(gè)經(jīng)典的思想實(shí)驗(yàn)——怎么把大象裝進(jìn)冰箱?只需三步,開門、塞進(jìn)去、關(guān)門。
為了實(shí)現(xiàn)這個(gè)設(shè)計(jì),TIMRUN維護(hù)了一個(gè)剪枝緩沖區(qū),即一個(gè)棧。
它用來臨時(shí)緩存少量可剪枝的子任務(wù),只保留足夠的冗余,以確保信息流的無損傳遞。
子任務(wù)剪枝的過程,如下圖3所示。
具體來說,當(dāng)TIM在某個(gè)任務(wù)中解碼時(shí),TIMRUN會(huì)動(dòng)態(tài)地把已完成子任務(wù)對(duì)應(yīng)的token的KV狀態(tài)從GPU內(nèi)存中清除。
同時(shí),TIMRUN還引入了「分頁注意力」,把KV緩存分塊處理,分頁大小為1,剪枝時(shí)只針對(duì)單個(gè)token序列,推理則由FlashInfer加速。
端到端多步工具調(diào)用
TIMRUN的解決方案是:在運(yùn)行時(shí)直接發(fā)起工具調(diào)用,而不是把工具參數(shù)回傳給客戶端,如下圖4所示。
這種方式大大減少了模塊之間的通信,讓智能體的開發(fā)和部署更簡(jiǎn)單。
關(guān)鍵在于,推理鏈中的每個(gè)token只會(huì)傳輸?shù)?TIMRUN 一次,從而徹底消除了冗余的token傳輸,并最大限度地減少了通信開銷。
實(shí)驗(yàn)結(jié)果
總的來說,研究人員觀察到的關(guān)鍵結(jié)果有三個(gè):
維持工作記憶,而非計(jì)算全部上下文Token的注意力權(quán)重,并不會(huì)損害推理準(zhǔn)確性。
剪除不相關(guān)上下文,可以提升語言模型的推理準(zhǔn)確性并減少幻覺現(xiàn)象。
面對(duì)密集的內(nèi)存訪問與操作,TIMRUN可以保持極高的吞吐量。
推理
在考驗(yàn)STEM領(lǐng)域知識(shí)與推理能力的評(píng)測(cè)中,TIM模型僅憑8B的參數(shù)規(guī)模就取得了卓越的成績(jī)。
MATH500最高69.6%(略遜Llama 3.1 405B的73.8%,但超越Llama 3.1 70B的65%)
MMLU-STEM500最高88.4%
AMC 2022最高60.5%
AMC 2023最高80.0%
AIME 2024最高46.7%(略遜GPT-4.1的48.1%,但超越GPT-4.5的36.7%)
GPQADiamond最高48.5%(略遜Llama 3.1 405B的51.1%,但超越Gemma 3 27B的42.4%)
研究
相比起傳統(tǒng)的AI智能體工作流,TIMRUN可以將多跳工具的使用,作為一種無縫的、端到端的大語言模型API調(diào)用來處理,無需依賴任何智能體框架或復(fù)雜提示詞。
Datacommons QA
Datacommons QA考驗(yàn)的是模型在多跳信息檢索、工具響應(yīng)處理以及推理方面的能力。
TIM僅需一條簡(jiǎn)潔的系統(tǒng)提示詞和關(guān)于工具的基本信息,包括工具描述、輸入?yún)?shù)和輸出格式,便可對(duì)訓(xùn)練期間未曾遇到的新任務(wù),表現(xiàn)出良好的泛化能力。
與基線方法相比,它在三個(gè)關(guān)鍵領(lǐng)域展現(xiàn)出更高的效率:
無需精心構(gòu)建的少樣本學(xué)習(xí)示例和任務(wù)特定的提示詞,一條簡(jiǎn)單的系統(tǒng)提示詞便足以獲得優(yōu)異性能。
無需長(zhǎng)達(dá)4000 token的提示詞,極大地降低了生成過程中的計(jì)算開銷。
在子任務(wù)完成并從剪枝緩沖區(qū)移除時(shí)會(huì)自動(dòng)處理工具響應(yīng),開發(fā)者便無需再為處理工具響應(yīng)而開發(fā)定制邏輯。
Browsecomp
Browsecomp是一項(xiàng)針對(duì)深度研究型智能體的挑戰(zhàn)性基準(zhǔn)測(cè)試。
要回答這里的問題,模型需要對(duì)輸入進(jìn)行分解,并使用工具從互聯(lián)網(wǎng)篩選和檢索相關(guān)信息;有時(shí),還需深入探究特定網(wǎng)頁的細(xì)節(jié),并依據(jù)給定條件對(duì)發(fā)現(xiàn)進(jìn)行驗(yàn)證。
在沒有任何智能體設(shè)計(jì)的情況下,TIM-8b的表現(xiàn)便已經(jīng)優(yōu)于具備瀏覽功能的GPT-4o,而Tim-large更是取得了與構(gòu)建在Deepseek R1上的ReACT智能體相媲美的性能。
這些發(fā)現(xiàn)印證了研究人員的假設(shè):一個(gè)能通過遞歸分解子任務(wù)和剪枝其工作記憶來自主管理上下文的模型,其性能可以匹及采用更復(fù)雜實(shí)現(xiàn)的智能體。
效率與可擴(kuò)展性
吞吐量提升
上下文剪枝與注意力機(jī)制之間存在一種權(quán)衡關(guān)系——剪枝上下文雖能加速注意力計(jì)算,卻也引入了額外的內(nèi)存開銷。
實(shí)驗(yàn)結(jié)果表明,TIMRUN系統(tǒng)的性能優(yōu)于樸素的內(nèi)存操作實(shí)現(xiàn)以及強(qiáng)大的SGLang基線。
更高效的工具使用
隨著工具調(diào)用次數(shù)的增加,SGLang的吞吐量因推理步驟和工具響應(yīng)所產(chǎn)生的增量上下文及token緩存日益復(fù)雜而迅速下降。
相比之下,得益于自動(dòng)化的上下文管理機(jī)制,即便工具使用規(guī)模擴(kuò)大,TIMRUN仍能保持相對(duì)穩(wěn)定的吞吐量。
這使得TIM-8b模型無需任何智能體框架或針對(duì)特定任務(wù)的后訓(xùn)練,即可在BrowseComp基準(zhǔn)測(cè)試上取得優(yōu)異性能。
尤其是,借助子任務(wù)剪枝,TIMRUN可以在單次推理中支持超過30次的工具調(diào)用。
作者介紹
論文一作羅鴻胤是麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)的研究員,也是Subconscious Systems的聯(lián)合創(chuàng)始人兼CTO。
他于2022年獲得麻省理工學(xué)院電子工程與計(jì)算機(jī)科學(xué)(EECS)博士學(xué)位,師從James Glass教授。并在此前獲得清華大學(xué)工學(xué)學(xué)士學(xué)位,師從劉知遠(yuǎn)教授。
羅鴻胤的研究方向包括構(gòu)建高效、透明、具備復(fù)雜推理能力的語言模型,以及支持智能體長(zhǎng)期推理和工具調(diào)用的基礎(chǔ)設(shè)施。
他的代表性工作包括開發(fā)TIM模型(Thread Inference Model)和TIMRUN推理系統(tǒng),這一組合實(shí)現(xiàn)了可擴(kuò)展、結(jié)構(gòu)化、遞歸的智能體推理能力。
其中,全新推理框架突破了語言模型在傳統(tǒng)上下文長(zhǎng)度上的限制,顯著提升了長(zhǎng)周期智能體的吞吐量與推理效果,并大幅降低了上下文工程的開發(fā)和運(yùn)行成本。
參考資料:
https://arxiv.org/pdf/2507.16784
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.