網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

清華校友出手，8B硬剛GPT-4o！單一模型無限工具調(diào)用，終結(jié)多智能體

2025-08-21 14:15:12　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：桃子好困

【新智元導(dǎo)讀】大模型再?gòu)?qiáng)，也躲不過上下文限制的「蕉綠」！MIT等團(tuán)隊(duì)推出的一套組合拳——TIM和TIMRUN，輕松突破token天花板，讓8b小模型也能實(shí)現(xiàn)大殺四方。

一直以來，上下文限制，如同「緊箍咒」限制了模型的潛能。

如今，一種全新突破性方案已經(jīng)到來。

來自MIT、普林斯頓、特拉維夫大學(xué)等機(jī)構(gòu)聯(lián)手，重磅推出「線程推理模型」（TIM）——一種專為遞歸和分解式問題求解而訓(xùn)練的大模型。

論文地址：https://arxiv.org/pdf/2507.16784

與此同時(shí)，研究團(tuán)隊(duì)還提出了「推理運(yùn)行時(shí)」引擎TIMRUN，讓長(zhǎng)程推理成為現(xiàn)實(shí)。

具體來說，他們將自然語言建模為「推理樹」，由任務(wù)、思考、遞歸子任務(wù)、結(jié)論組成，實(shí)現(xiàn)了多軌并行推理。

此時(shí)，樹的「長(zhǎng)度」和「深度」成為了度量的標(biāo)準(zhǔn)。

在生成過程中，TIMRUN就像一個(gè)內(nèi)存管家，只保留當(dāng)前最需要的token鍵/值狀態(tài)，可以反復(fù)利用推理中的位置編碼和GPU內(nèi)存頁。

TIM+TIMRUN這套組合拳，讓推理效率直接飆升。

實(shí)驗(yàn)結(jié)果顯示，即便在90%的內(nèi)存占用下，TIM能實(shí)現(xiàn)高吞吐性能。

同時(shí)，在數(shù)學(xué)任務(wù)中，TIM可以提供給精準(zhǔn)推理，信息檢索挑戰(zhàn)應(yīng)對(duì)自如，能輕松完成需要長(zhǎng)程推理和跨多步工具調(diào)用的任務(wù)。

LLM腦容量不夠？剪掉無用記憶

大模型的本質(zhì)，是token序列生成器。

不論是循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），還是Transformer，都受限于一個(gè)致命的問題：上下文窗口。

比如，Deepseek R1標(biāo)配的128k上下文，在現(xiàn)實(shí)中，一個(gè)復(fù)雜任務(wù)動(dòng)不動(dòng)就超出了這一上限。

若是LLM再?gòu)耐獠恳贿呎{(diào)用工具，一邊推理，token只會(huì)越跑越多，最終導(dǎo)致GPU內(nèi)存爆表。

更別提，傳統(tǒng)的「線性序列」方式，全部記住了所有上下文，內(nèi)容占用更高。

為了破解記憶瓶頸，開發(fā)者們通常將復(fù)雜工作流，拆分為多個(gè)模塊，然后再交由AI智能體分工協(xié)作。

然而在實(shí)操中，「多智能體架構(gòu)」出現(xiàn)了協(xié)調(diào)難、延遲高等問題。

在研究人員看來，推理并非是一個(gè)線性的過程，而是一種遞歸結(jié)構(gòu)化的。

這一過程，就如同編碼任務(wù)中人類大腦的一樣，我們會(huì)「選擇性記憶」，在進(jìn)行下一任務(wù)前，只保留關(guān)鍵信息，其余清空才能專心搞定當(dāng)前任務(wù)。

基于這些觀察，研究團(tuán)隊(duì)將推理軌跡建模為一個(gè)「遞歸的子任務(wù)樹」。

推理時(shí)，AI只需關(guān)注當(dāng)前子任務(wù)，剪掉無關(guān)的「枝葉」，大幅減少內(nèi)存占用，如下圖1所示。

通過剪枝無關(guān)子任務(wù)，模型只需聚焦于一個(gè)選擇性的「工作記憶」

如前所述，論文中，研究團(tuán)隊(duì)提出的「線程推理模型」（TIM）和TIMRUN推理引擎，徹底顛覆了傳統(tǒng)LLM的推理方式。

TIM就是一個(gè)會(huì)拆解任務(wù)的超級(jí)AI，能夠輕松識(shí)別分解出的子任務(wù)、工具參數(shù)以及遞歸的層級(jí)關(guān)系。

TIMRUN是TIM的「最佳拍檔」，專為推理樹優(yōu)化內(nèi)存管理，兩者結(jié)合實(shí)現(xiàn)了以下三大突破：

支持幾乎無限的長(zhǎng)程推理，突破輸出token上限
在復(fù)雜任務(wù)中實(shí)現(xiàn)高效的單模型推理，具備更高解碼吞吐量和內(nèi)存效率
開啟最簡(jiǎn)化的智能體構(gòu)建方式：給TIM提供工具包，啟動(dòng)一次推理，即可獲得具備智能體特性的推理軌跡。

接下來，具體看看這套組合拳如何實(shí)現(xiàn)的？

TIM：8b訓(xùn)練，復(fù)雜任務(wù)切成塊

線程推理模型（TIM），直觀可以理解為，一顆推理樹有不同分支（子任務(wù)）。

它采用了Thread-2框架，將推理過程建模為一個(gè)「任務(wù)樹」，也就是說，推理的基本單元是——任務(wù)。

每個(gè)任務(wù)由四個(gè)部分組成：思考、工具調(diào)用、子任務(wù)、結(jié)論。

與上一代Thread推理框架相比，Thread-2做出了多項(xiàng)改進(jìn)。

它能夠訪問工作記憶，包含系統(tǒng)提示、用戶輸入，以及尚未被剪枝的任務(wù)，讓LLM實(shí)現(xiàn)端到端推理，一次調(diào)用就能完成推理

同時(shí)，Thread-2還采用了一個(gè)固定大小的子任務(wù)「堆?！菇Y(jié)構(gòu)來執(zhí)行剪枝，即動(dòng)態(tài)清理無關(guān)子任務(wù)，只保留關(guān)鍵信息，讓內(nèi)存占用大幅降低。

此外，其推理結(jié)果可以直接高效地解碼為JSON字典（JSON dictionary），告別了復(fù)雜的符號(hào)操作。

如下實(shí)踐中，研究團(tuán)隊(duì)以如下模式進(jìn)行JSON解碼，并結(jié)合搜索和網(wǎng)頁閱讀工具作為示例。

需要注意的是，多個(gè)工具調(diào)用可以在一次解碼過程中處理。

傳統(tǒng)方法中，一個(gè)推理過程需要20次工具調(diào)用，可能要重復(fù)計(jì)費(fèi)20次初始token。

而在TIM生成過程中，它將將工具響應(yīng)以JSON字典字符串形式返回到「推理引擎」，在轉(zhuǎn)化為新的輸入token批擴(kuò)展KV緩存。

這樣一來，就實(shí)現(xiàn)了模型一次調(diào)用，即可調(diào)用多個(gè)工具，避免了延遲和開銷。

訓(xùn)練細(xì)節(jié)

研究中，團(tuán)隊(duì)對(duì)Qwen3-8b進(jìn)行了后訓(xùn)練，不用復(fù)雜提示工程，最終生成Thread-2推理結(jié)構(gòu)。

為此，他們打造了一個(gè)「合成訓(xùn)練集」，覆蓋了2萬條openr1-math-220k數(shù)學(xué)問題、2萬條研究類問題、6千條ToolBench問題。

基于以上數(shù)據(jù)訓(xùn)練后，團(tuán)隊(duì)又在openR1-math-220k上，利用GRPO對(duì)模型進(jìn)行了強(qiáng)化學(xué)習(xí)。

訓(xùn)練完成后，就得到了「線程推理模型」（TIM）。

TIMRUN：保留關(guān)鍵信息，復(fù)用GPU

TIM結(jié)構(gòu)化輸出確實(shí)能夠大幅提升推理性能，另一個(gè)問題來了——如何實(shí)現(xiàn)部署？

為此，研究團(tuán)隊(duì)為TIM開發(fā)了一個(gè)配套的引擎TIMRUN。

為了實(shí)現(xiàn)超過輸出限制的長(zhǎng)時(shí)推理，TIMRUN必須支持在輸出生成過程中，復(fù)用GPU內(nèi)存和位置嵌入。

那么，研究中它是如何做到的呢？

子任務(wù)剪枝

TIMRUN的核心絕技之一，就是子任務(wù)剪枝（Subtask Pruning）。

它的邏輯非常簡(jiǎn)單粗暴，在推理時(shí)，保留當(dāng)前任務(wù)需要的關(guān)鍵信息，把不必要的任務(wù)細(xì)節(jié)直接丟掉。

這個(gè)靈感，來自一個(gè)經(jīng)典的思想實(shí)驗(yàn)——怎么把大象裝進(jìn)冰箱？只需三步，開門、塞進(jìn)去、關(guān)門。

為了實(shí)現(xiàn)這個(gè)設(shè)計(jì)，TIMRUN維護(hù)了一個(gè)剪枝緩沖區(qū)，即一個(gè)棧。

它用來臨時(shí)緩存少量可剪枝的子任務(wù)，只保留足夠的冗余，以確保信息流的無損傳遞。

子任務(wù)剪枝的過程，如下圖3所示。

具體來說，當(dāng)TIM在某個(gè)任務(wù)中解碼時(shí)，TIMRUN會(huì)動(dòng)態(tài)地把已完成子任務(wù)對(duì)應(yīng)的token的KV狀態(tài)從GPU內(nèi)存中清除。

同時(shí)，TIMRUN還引入了「分頁注意力」，把KV緩存分塊處理，分頁大小為1，剪枝時(shí)只針對(duì)單個(gè)token序列，推理則由FlashInfer加速。

端到端多步工具調(diào)用

TIMRUN的解決方案是：在運(yùn)行時(shí)直接發(fā)起工具調(diào)用，而不是把工具參數(shù)回傳給客戶端，如下圖4所示。

這種方式大大減少了模塊之間的通信，讓智能體的開發(fā)和部署更簡(jiǎn)單。

關(guān)鍵在于，推理鏈中的每個(gè)token只會(huì)傳輸?shù)?TIMRUN 一次，從而徹底消除了冗余的token傳輸，并最大限度地減少了通信開銷。

實(shí)驗(yàn)結(jié)果

總的來說，研究人員觀察到的關(guān)鍵結(jié)果有三個(gè)：

維持工作記憶，而非計(jì)算全部上下文Token的注意力權(quán)重，并不會(huì)損害推理準(zhǔn)確性。
剪除不相關(guān)上下文，可以提升語言模型的推理準(zhǔn)確性并減少幻覺現(xiàn)象。
面對(duì)密集的內(nèi)存訪問與操作，TIMRUN可以保持極高的吞吐量。

推理

在考驗(yàn)STEM領(lǐng)域知識(shí)與推理能力的評(píng)測(cè)中，TIM模型僅憑8B的參數(shù)規(guī)模就取得了卓越的成績(jī)。

MATH500最高69.6%（略遜Llama 3.1 405B的73.8%，但超越Llama 3.1 70B的65%）
MMLU-STEM500最高88.4%
AMC 2022最高60.5%
AMC 2023最高80.0%
AIME 2024最高46.7%（略遜GPT-4.1的48.1%，但超越GPT-4.5的36.7%）
GPQADiamond最高48.5%（略遜Llama 3.1 405B的51.1%，但超越Gemma 3 27B的42.4%）

研究

相比起傳統(tǒng)的AI智能體工作流，TIMRUN可以將多跳工具的使用，作為一種無縫的、端到端的大語言模型API調(diào)用來處理，無需依賴任何智能體框架或復(fù)雜提示詞。

Datacommons QA

Datacommons QA考驗(yàn)的是模型在多跳信息檢索、工具響應(yīng)處理以及推理方面的能力。

TIM僅需一條簡(jiǎn)潔的系統(tǒng)提示詞和關(guān)于工具的基本信息，包括工具描述、輸入?yún)?shù)和輸出格式，便可對(duì)訓(xùn)練期間未曾遇到的新任務(wù)，表現(xiàn)出良好的泛化能力。

與基線方法相比，它在三個(gè)關(guān)鍵領(lǐng)域展現(xiàn)出更高的效率：

無需精心構(gòu)建的少樣本學(xué)習(xí)示例和任務(wù)特定的提示詞，一條簡(jiǎn)單的系統(tǒng)提示詞便足以獲得優(yōu)異性能。
無需長(zhǎng)達(dá)4000 token的提示詞，極大地降低了生成過程中的計(jì)算開銷。
在子任務(wù)完成并從剪枝緩沖區(qū)移除時(shí)會(huì)自動(dòng)處理工具響應(yīng)，開發(fā)者便無需再為處理工具響應(yīng)而開發(fā)定制邏輯。

Browsecomp

Browsecomp是一項(xiàng)針對(duì)深度研究型智能體的挑戰(zhàn)性基準(zhǔn)測(cè)試。

要回答這里的問題，模型需要對(duì)輸入進(jìn)行分解，并使用工具從互聯(lián)網(wǎng)篩選和檢索相關(guān)信息；有時(shí)，還需深入探究特定網(wǎng)頁的細(xì)節(jié)，并依據(jù)給定條件對(duì)發(fā)現(xiàn)進(jìn)行驗(yàn)證。

在沒有任何智能體設(shè)計(jì)的情況下，TIM-8b的表現(xiàn)便已經(jīng)優(yōu)于具備瀏覽功能的GPT-4o，而Tim-large更是取得了與構(gòu)建在Deepseek R1上的ReACT智能體相媲美的性能。

這些發(fā)現(xiàn)印證了研究人員的假設(shè)：一個(gè)能通過遞歸分解子任務(wù)和剪枝其工作記憶來自主管理上下文的模型，其性能可以匹及采用更復(fù)雜實(shí)現(xiàn)的智能體。

效率與可擴(kuò)展性

吞吐量提升

上下文剪枝與注意力機(jī)制之間存在一種權(quán)衡關(guān)系——剪枝上下文雖能加速注意力計(jì)算，卻也引入了額外的內(nèi)存開銷。

實(shí)驗(yàn)結(jié)果表明，TIMRUN系統(tǒng)的性能優(yōu)于樸素的內(nèi)存操作實(shí)現(xiàn)以及強(qiáng)大的SGLang基線。

更高效的工具使用

隨著工具調(diào)用次數(shù)的增加，SGLang的吞吐量因推理步驟和工具響應(yīng)所產(chǎn)生的增量上下文及token緩存日益復(fù)雜而迅速下降。

相比之下，得益于自動(dòng)化的上下文管理機(jī)制，即便工具使用規(guī)模擴(kuò)大，TIMRUN仍能保持相對(duì)穩(wěn)定的吞吐量。

這使得TIM-8b模型無需任何智能體框架或針對(duì)特定任務(wù)的后訓(xùn)練，即可在BrowseComp基準(zhǔn)測(cè)試上取得優(yōu)異性能。

尤其是，借助子任務(wù)剪枝，TIMRUN可以在單次推理中支持超過30次的工具調(diào)用。

作者介紹

論文一作羅鴻胤是麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室（MIT CSAIL）的研究員，也是Subconscious Systems的聯(lián)合創(chuàng)始人兼CTO。

他于2022年獲得麻省理工學(xué)院電子工程與計(jì)算機(jī)科學(xué)（EECS）博士學(xué)位，師從James Glass教授。并在此前獲得清華大學(xué)工學(xué)學(xué)士學(xué)位，師從劉知遠(yuǎn)教授。

羅鴻胤的研究方向包括構(gòu)建高效、透明、具備復(fù)雜推理能力的語言模型，以及支持智能體長(zhǎng)期推理和工具調(diào)用的基礎(chǔ)設(shè)施。

他的代表性工作包括開發(fā)TIM模型（Thread Inference Model）和TIMRUN推理系統(tǒng)，這一組合實(shí)現(xiàn)了可擴(kuò)展、結(jié)構(gòu)化、遞歸的智能體推理能力。

其中，全新推理框架突破了語言模型在傳統(tǒng)上下文長(zhǎng)度上的限制，顯著提升了長(zhǎng)周期智能體的吞吐量與推理效果，并大幅降低了上下文工程的開發(fā)和運(yùn)行成本。

參考資料：

https://arxiv.org/pdf/2507.16784

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.