成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

清華校友出手,8B硬剛GPT-4o!單一模型無限工具調(diào)用,終結(jié)多智能體

0
分享至


新智元報(bào)道

編輯:桃子 好困

【新智元導(dǎo)讀】大模型再?gòu)?qiáng),也躲不過上下文限制的「蕉綠」!MIT等團(tuán)隊(duì)推出的一套組合拳——TIM和TIMRUN,輕松突破token天花板,讓8b小模型也能實(shí)現(xiàn)大殺四方。

一直以來,上下文限制,如同「緊箍咒」限制了模型的潛能。

如今,一種全新突破性方案已經(jīng)到來。

來自MIT、普林斯頓、特拉維夫大學(xué)等機(jī)構(gòu)聯(lián)手,重磅推出「線程推理模型」(TIM)——一種專為遞歸和分解式問題求解而訓(xùn)練的大模型。


論文地址:https://arxiv.org/pdf/2507.16784

與此同時(shí),研究團(tuán)隊(duì)還提出了「推理運(yùn)行時(shí)」引擎TIMRUN,讓長(zhǎng)程推理成為現(xiàn)實(shí)。

具體來說,他們將自然語言建模為「推理樹」,由任務(wù)、思考、遞歸子任務(wù)、結(jié)論組成,實(shí)現(xiàn)了多軌并行推理。

此時(shí),樹的「長(zhǎng)度」和「深度」成為了度量的標(biāo)準(zhǔn)。

在生成過程中,TIMRUN就像一個(gè)內(nèi)存管家,只保留當(dāng)前最需要的token鍵/值狀態(tài),可以反復(fù)利用推理中的位置編碼和GPU內(nèi)存頁。

TIM+TIMRUN這套組合拳,讓推理效率直接飆升。

實(shí)驗(yàn)結(jié)果顯示,即便在90%的內(nèi)存占用下,TIM能實(shí)現(xiàn)高吞吐性能。

同時(shí),在數(shù)學(xué)任務(wù)中,TIM可以提供給精準(zhǔn)推理,信息檢索挑戰(zhàn)應(yīng)對(duì)自如,能輕松完成需要長(zhǎng)程推理和跨多步工具調(diào)用的任務(wù)。

LLM腦容量不夠?剪掉無用記憶

大模型的本質(zhì),是token序列生成器。

不論是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),還是Transformer,都受限于一個(gè)致命的問題:上下文窗口。

比如,Deepseek R1標(biāo)配的128k上下文,在現(xiàn)實(shí)中,一個(gè)復(fù)雜任務(wù)動(dòng)不動(dòng)就超出了這一上限。

若是LLM再?gòu)耐獠恳贿呎{(diào)用工具,一邊推理,token只會(huì)越跑越多,最終導(dǎo)致GPU內(nèi)存爆表。

更別提,傳統(tǒng)的「線性序列」方式,全部記住了所有上下文,內(nèi)容占用更高。

為了破解記憶瓶頸,開發(fā)者們通常將復(fù)雜工作流,拆分為多個(gè)模塊,然后再交由AI智能體分工協(xié)作。

然而在實(shí)操中,「多智能體架構(gòu)」出現(xiàn)了協(xié)調(diào)難、延遲高等問題。

在研究人員看來,推理并非是一個(gè)線性的過程,而是一種遞歸結(jié)構(gòu)化的。

這一過程,就如同編碼任務(wù)中人類大腦的一樣,我們會(huì)「選擇性記憶」,在進(jìn)行下一任務(wù)前,只保留關(guān)鍵信息,其余清空才能專心搞定當(dāng)前任務(wù)。

基于這些觀察,研究團(tuán)隊(duì)將推理軌跡建模為一個(gè)「遞歸的子任務(wù)樹」。

推理時(shí),AI只需關(guān)注當(dāng)前子任務(wù),剪掉無關(guān)的「枝葉」,大幅減少內(nèi)存占用,如下圖1所示。


通過剪枝無關(guān)子任務(wù),模型只需聚焦于一個(gè)選擇性的「工作記憶」

如前所述,論文中,研究團(tuán)隊(duì)提出的「線程推理模型」(TIM)和TIMRUN推理引擎,徹底顛覆了傳統(tǒng)LLM的推理方式。

TIM就是一個(gè)會(huì)拆解任務(wù)的超級(jí)AI,能夠輕松識(shí)別分解出的子任務(wù)、工具參數(shù)以及遞歸的層級(jí)關(guān)系。

TIMRUN是TIM的「最佳拍檔」,專為推理樹優(yōu)化內(nèi)存管理,兩者結(jié)合實(shí)現(xiàn)了以下三大突破:

  • 支持幾乎無限的長(zhǎng)程推理,突破輸出token上限

  • 在復(fù)雜任務(wù)中實(shí)現(xiàn)高效的單模型推理,具備更高解碼吞吐量和內(nèi)存效率

  • 開啟最簡(jiǎn)化的智能體構(gòu)建方式:給TIM提供工具包,啟動(dòng)一次推理,即可獲得具備智能體特性的推理軌跡。

接下來,具體看看這套組合拳如何實(shí)現(xiàn)的?

TIM:8b訓(xùn)練,復(fù)雜任務(wù)切成塊

線程推理模型(TIM),直觀可以理解為,一顆推理樹有不同分支(子任務(wù))。

它采用了Thread-2框架,將推理過程建模為一個(gè)「任務(wù)樹」,也就是說,推理的基本單元是——任務(wù)。

每個(gè)任務(wù)由四個(gè)部分組成:思考、工具調(diào)用、子任務(wù)、結(jié)論。

與上一代Thread推理框架相比,Thread-2做出了多項(xiàng)改進(jìn)。

它能夠訪問工作記憶,包含系統(tǒng)提示、用戶輸入,以及尚未被剪枝的任務(wù),讓LLM實(shí)現(xiàn)端到端推理,一次調(diào)用就能完成推理

同時(shí),Thread-2還采用了一個(gè)固定大小的子任務(wù)「堆?!菇Y(jié)構(gòu)來執(zhí)行剪枝,即動(dòng)態(tài)清理無關(guān)子任務(wù),只保留關(guān)鍵信息,讓內(nèi)存占用大幅降低。

此外,其推理結(jié)果可以直接高效地解碼為JSON字典(JSON dictionary),告別了復(fù)雜的符號(hào)操作。

如下實(shí)踐中,研究團(tuán)隊(duì)以如下模式進(jìn)行JSON解碼,并結(jié)合搜索和網(wǎng)頁閱讀工具作為示例。

需要注意的是,多個(gè)工具調(diào)用可以在一次解碼過程中處理。


傳統(tǒng)方法中,一個(gè)推理過程需要20次工具調(diào)用,可能要重復(fù)計(jì)費(fèi)20次初始token。

而在TIM生成過程中,它將將工具響應(yīng)以JSON字典字符串形式返回到「推理引擎」,在轉(zhuǎn)化為新的輸入token批擴(kuò)展KV緩存。

這樣一來,就實(shí)現(xiàn)了模型一次調(diào)用,即可調(diào)用多個(gè)工具,避免了延遲和開銷。

訓(xùn)練細(xì)節(jié)

研究中,團(tuán)隊(duì)對(duì)Qwen3-8b進(jìn)行了后訓(xùn)練,不用復(fù)雜提示工程,最終生成Thread-2推理結(jié)構(gòu)。

為此,他們打造了一個(gè)「合成訓(xùn)練集」,覆蓋了2萬條openr1-math-220k數(shù)學(xué)問題、2萬條研究類問題、6千條ToolBench問題。

基于以上數(shù)據(jù)訓(xùn)練后,團(tuán)隊(duì)又在openR1-math-220k上,利用GRPO對(duì)模型進(jìn)行了強(qiáng)化學(xué)習(xí)。

訓(xùn)練完成后,就得到了「線程推理模型」(TIM)。

TIMRUN:保留關(guān)鍵信息,復(fù)用GPU

TIM結(jié)構(gòu)化輸出確實(shí)能夠大幅提升推理性能,另一個(gè)問題來了——如何實(shí)現(xiàn)部署?

為此,研究團(tuán)隊(duì)為TIM開發(fā)了一個(gè)配套的引擎TIMRUN。

為了實(shí)現(xiàn)超過輸出限制的長(zhǎng)時(shí)推理,TIMRUN必須支持在輸出生成過程中,復(fù)用GPU內(nèi)存和位置嵌入。

那么,研究中它是如何做到的呢?

子任務(wù)剪枝

TIMRUN的核心絕技之一,就是子任務(wù)剪枝(Subtask Pruning)。

它的邏輯非常簡(jiǎn)單粗暴,在推理時(shí),保留當(dāng)前任務(wù)需要的關(guān)鍵信息,把不必要的任務(wù)細(xì)節(jié)直接丟掉。

這個(gè)靈感,來自一個(gè)經(jīng)典的思想實(shí)驗(yàn)——怎么把大象裝進(jìn)冰箱?只需三步,開門、塞進(jìn)去、關(guān)門。


為了實(shí)現(xiàn)這個(gè)設(shè)計(jì),TIMRUN維護(hù)了一個(gè)剪枝緩沖區(qū),即一個(gè)棧。

它用來臨時(shí)緩存少量可剪枝的子任務(wù),只保留足夠的冗余,以確保信息流的無損傳遞。

子任務(wù)剪枝的過程,如下圖3所示。

具體來說,當(dāng)TIM在某個(gè)任務(wù)中解碼時(shí),TIMRUN會(huì)動(dòng)態(tài)地把已完成子任務(wù)對(duì)應(yīng)的token的KV狀態(tài)從GPU內(nèi)存中清除。

同時(shí),TIMRUN還引入了「分頁注意力」,把KV緩存分塊處理,分頁大小為1,剪枝時(shí)只針對(duì)單個(gè)token序列,推理則由FlashInfer加速。


端到端多步工具調(diào)用

TIMRUN的解決方案是:在運(yùn)行時(shí)直接發(fā)起工具調(diào)用,而不是把工具參數(shù)回傳給客戶端,如下圖4所示。


這種方式大大減少了模塊之間的通信,讓智能體的開發(fā)和部署更簡(jiǎn)單。

關(guān)鍵在于,推理鏈中的每個(gè)token只會(huì)傳輸?shù)?TIMRUN 一次,從而徹底消除了冗余的token傳輸,并最大限度地減少了通信開銷。

實(shí)驗(yàn)結(jié)果

總的來說,研究人員觀察到的關(guān)鍵結(jié)果有三個(gè):

  • 維持工作記憶,而非計(jì)算全部上下文Token的注意力權(quán)重,并不會(huì)損害推理準(zhǔn)確性。

  • 剪除不相關(guān)上下文,可以提升語言模型的推理準(zhǔn)確性并減少幻覺現(xiàn)象。

  • 面對(duì)密集的內(nèi)存訪問與操作,TIMRUN可以保持極高的吞吐量。


推理

在考驗(yàn)STEM領(lǐng)域知識(shí)與推理能力的評(píng)測(cè)中,TIM模型僅憑8B的參數(shù)規(guī)模就取得了卓越的成績(jī)。

  • MATH500最高69.6%(略遜Llama 3.1 405B的73.8%,但超越Llama 3.1 70B的65%)

  • MMLU-STEM500最高88.4%

  • AMC 2022最高60.5%

  • AMC 2023最高80.0%

  • AIME 2024最高46.7%(略遜GPT-4.1的48.1%,但超越GPT-4.5的36.7%)

  • GPQADiamond最高48.5%(略遜Llama 3.1 405B的51.1%,但超越Gemma 3 27B的42.4%)


研究

相比起傳統(tǒng)的AI智能體工作流,TIMRUN可以將多跳工具的使用,作為一種無縫的、端到端的大語言模型API調(diào)用來處理,無需依賴任何智能體框架或復(fù)雜提示詞。

Datacommons QA

Datacommons QA考驗(yàn)的是模型在多跳信息檢索、工具響應(yīng)處理以及推理方面的能力。

TIM僅需一條簡(jiǎn)潔的系統(tǒng)提示詞和關(guān)于工具的基本信息,包括工具描述、輸入?yún)?shù)和輸出格式,便可對(duì)訓(xùn)練期間未曾遇到的新任務(wù),表現(xiàn)出良好的泛化能力。

與基線方法相比,它在三個(gè)關(guān)鍵領(lǐng)域展現(xiàn)出更高的效率:

  • 無需精心構(gòu)建的少樣本學(xué)習(xí)示例和任務(wù)特定的提示詞,一條簡(jiǎn)單的系統(tǒng)提示詞便足以獲得優(yōu)異性能。

  • 無需長(zhǎng)達(dá)4000 token的提示詞,極大地降低了生成過程中的計(jì)算開銷。

  • 在子任務(wù)完成并從剪枝緩沖區(qū)移除時(shí)會(huì)自動(dòng)處理工具響應(yīng),開發(fā)者便無需再為處理工具響應(yīng)而開發(fā)定制邏輯。


Browsecomp

Browsecomp是一項(xiàng)針對(duì)深度研究型智能體的挑戰(zhàn)性基準(zhǔn)測(cè)試。

要回答這里的問題,模型需要對(duì)輸入進(jìn)行分解,并使用工具從互聯(lián)網(wǎng)篩選和檢索相關(guān)信息;有時(shí),還需深入探究特定網(wǎng)頁的細(xì)節(jié),并依據(jù)給定條件對(duì)發(fā)現(xiàn)進(jìn)行驗(yàn)證。

在沒有任何智能體設(shè)計(jì)的情況下,TIM-8b的表現(xiàn)便已經(jīng)優(yōu)于具備瀏覽功能的GPT-4o,而Tim-large更是取得了與構(gòu)建在Deepseek R1上的ReACT智能體相媲美的性能。

這些發(fā)現(xiàn)印證了研究人員的假設(shè):一個(gè)能通過遞歸分解子任務(wù)和剪枝其工作記憶來自主管理上下文的模型,其性能可以匹及采用更復(fù)雜實(shí)現(xiàn)的智能體。


效率與可擴(kuò)展性


吞吐量提升

上下文剪枝與注意力機(jī)制之間存在一種權(quán)衡關(guān)系——剪枝上下文雖能加速注意力計(jì)算,卻也引入了額外的內(nèi)存開銷。

實(shí)驗(yàn)結(jié)果表明,TIMRUN系統(tǒng)的性能優(yōu)于樸素的內(nèi)存操作實(shí)現(xiàn)以及強(qiáng)大的SGLang基線。


更高效的工具使用

隨著工具調(diào)用次數(shù)的增加,SGLang的吞吐量因推理步驟和工具響應(yīng)所產(chǎn)生的增量上下文及token緩存日益復(fù)雜而迅速下降。

相比之下,得益于自動(dòng)化的上下文管理機(jī)制,即便工具使用規(guī)模擴(kuò)大,TIMRUN仍能保持相對(duì)穩(wěn)定的吞吐量。

這使得TIM-8b模型無需任何智能體框架或針對(duì)特定任務(wù)的后訓(xùn)練,即可在BrowseComp基準(zhǔn)測(cè)試上取得優(yōu)異性能。

尤其是,借助子任務(wù)剪枝,TIMRUN可以在單次推理中支持超過30次的工具調(diào)用。


作者介紹


論文一作羅鴻胤是麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)的研究員,也是Subconscious Systems的聯(lián)合創(chuàng)始人兼CTO。

他于2022年獲得麻省理工學(xué)院電子工程與計(jì)算機(jī)科學(xué)(EECS)博士學(xué)位,師從James Glass教授。并在此前獲得清華大學(xué)工學(xué)學(xué)士學(xué)位,師從劉知遠(yuǎn)教授。

羅鴻胤的研究方向包括構(gòu)建高效、透明、具備復(fù)雜推理能力的語言模型,以及支持智能體長(zhǎng)期推理和工具調(diào)用的基礎(chǔ)設(shè)施。

他的代表性工作包括開發(fā)TIM模型(Thread Inference Model)和TIMRUN推理系統(tǒng),這一組合實(shí)現(xiàn)了可擴(kuò)展、結(jié)構(gòu)化、遞歸的智能體推理能力。

其中,全新推理框架突破了語言模型在傳統(tǒng)上下文長(zhǎng)度上的限制,顯著提升了長(zhǎng)周期智能體的吞吐量與推理效果,并大幅降低了上下文工程的開發(fā)和運(yùn)行成本。

參考資料:

https://arxiv.org/pdf/2507.16784


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1-1!中超副班長(zhǎng)無緣3連勝,傅明補(bǔ)時(shí)判點(diǎn)造絕平,保級(jí)4隊(duì)僅差1分

1-1!中超副班長(zhǎng)無緣3連勝,傅明補(bǔ)時(shí)判點(diǎn)造絕平,保級(jí)4隊(duì)僅差1分

環(huán)太平洋老正太
2025-08-30 22:06:07
有高人預(yù)測(cè):2025下半年,若不出大意外,國(guó)內(nèi)將發(fā)生這6大變化!

有高人預(yù)測(cè):2025下半年,若不出大意外,國(guó)內(nèi)將發(fā)生這6大變化!

裝修秀
2025-08-18 12:00:03
曼聯(lián)3-2伯恩利!B費(fèi)點(diǎn)球絕殺,2次領(lǐng)先2次扳平,阿莫林向梅努妥協(xié)

曼聯(lián)3-2伯恩利!B費(fèi)點(diǎn)球絕殺,2次領(lǐng)先2次扳平,阿莫林向梅努妥協(xié)

卡靈頓分析師
2025-08-31 00:38:00
為什么女人出軌第一次發(fā)生關(guān)系非常難,后面就會(huì)越來越容易?

為什么女人出軌第一次發(fā)生關(guān)系非常難,后面就會(huì)越來越容易?

素然追光
2025-06-23 02:10:05
CBA衛(wèi)冕冠軍首秀!廣廈3分險(xiǎn)勝獲開門紅:胡金秋缺席趙嘉仁20分

CBA衛(wèi)冕冠軍首秀!廣廈3分險(xiǎn)勝獲開門紅:胡金秋缺席趙嘉仁20分

籃球快餐車
2025-08-31 03:17:00
發(fā)現(xiàn)了沒有?為啥二手車市場(chǎng)幾乎都是九成新的車??jī)r(jià)格卻很便宜?

發(fā)現(xiàn)了沒有?為啥二手車市場(chǎng)幾乎都是九成新的車??jī)r(jià)格卻很便宜?

侃故事的阿慶
2025-08-30 21:48:42
下課僅1天,62歲穆帥基本敲定新東家:將重返英超 雙方已開始談判

下課僅1天,62歲穆帥基本敲定新東家:將重返英超 雙方已開始談判

風(fēng)過鄉(xiāng)
2025-08-30 10:23:51
河北孟村被害女子發(fā)送已畢,婆婆應(yīng)該不是加害者

河北孟村被害女子發(fā)送已畢,婆婆應(yīng)該不是加害者

九方魚論
2025-08-30 10:18:53
無錫隊(duì)贏啦!

無錫隊(duì)贏啦!

最江陰
2025-08-30 21:43:32
全家開撕!貝克漢姆小兒子發(fā)布尖銳言論,三兒子已互相取消關(guān)注

全家開撕!貝克漢姆小兒子發(fā)布尖銳言論,三兒子已互相取消關(guān)注

揚(yáng)天下聲
2025-07-31 11:46:44
從全球第一到落寞,中國(guó)在此行業(yè)栽了跟頭,18家國(guó)企“覆沒”

從全球第一到落寞,中國(guó)在此行業(yè)栽了跟頭,18家國(guó)企“覆沒”

月凌渡
2025-08-27 17:37:11
中超球員來助戰(zhàn)!黃紫昌今晚代表常州隊(duì)首發(fā),上演“蘇超”首秀

中超球員來助戰(zhàn)!黃紫昌今晚代表常州隊(duì)首發(fā),上演“蘇超”首秀

直播吧
2025-08-30 19:05:39
西熱力江:新疆給趙睿720萬頂薪都留不住 應(yīng)該拿他去換曾凡博廖三寧

西熱力江:新疆給趙睿720萬頂薪都留不住 應(yīng)該拿他去換曾凡博廖三寧

818體育
2025-08-30 15:05:16
大跳水!暴跌,又土又貴還開遍機(jī)場(chǎng),中產(chǎn)的標(biāo)配,賣不動(dòng)了

大跳水!暴跌,又土又貴還開遍機(jī)場(chǎng),中產(chǎn)的標(biāo)配,賣不動(dòng)了

滄海旅行家
2025-08-28 15:27:26
13歲男孩找手機(jī)失聯(lián)后續(xù):曝人已不在,家庭情況被扒 更多細(xì)節(jié)曝光

13歲男孩找手機(jī)失聯(lián)后續(xù):曝人已不在,家庭情況被扒 更多細(xì)節(jié)曝光

前沿天地
2025-08-30 21:46:12
內(nèi)塔尼亞胡闖下大禍!以軍殺了不該殺的人,這回連美國(guó)都救不了

內(nèi)塔尼亞胡闖下大禍!以軍殺了不該殺的人,這回連美國(guó)都救不了

現(xiàn)代小青青慕慕
2025-08-30 15:47:38
豐田打響“第一槍”,從45萬跌至23萬,長(zhǎng)超5米1的大7座,油耗5L

豐田打響“第一槍”,從45萬跌至23萬,長(zhǎng)超5米1的大7座,油耗5L

鹿鹿156
2025-08-30 14:31:55
CBA深夜重磅簽約!場(chǎng)均36分6板外援加盟廣東:宏遠(yuǎn)沖第12冠穩(wěn)了?

CBA深夜重磅簽約!場(chǎng)均36分6板外援加盟廣東:宏遠(yuǎn)沖第12冠穩(wěn)了?

籃球快餐車
2025-08-31 03:20:09
軍事專家戴旭:目前全世界沒有一個(gè)國(guó)家,在軍事方面敢和中國(guó)較量

軍事專家戴旭:目前全世界沒有一個(gè)國(guó)家,在軍事方面敢和中國(guó)較量

壹知眠羊
2025-08-30 21:15:14
美軍七艦壓境委內(nèi)瑞拉,還有一艘核潛艇!緝毒還是“入侵”?專家:一個(gè)打破“沉默”的細(xì)節(jié)耐人尋味

美軍七艦壓境委內(nèi)瑞拉,還有一艘核潛艇!緝毒還是“入侵”?專家:一個(gè)打破“沉默”的細(xì)節(jié)耐人尋味

紅星新聞
2025-08-30 18:01:23
2025-08-31 06:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13353文章數(shù) 66140關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

頭條要聞

媒體:日本忍不了了 最后一刻取消訪美

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

全國(guó)靜態(tài)品鑒開啟 方程豹鈦7成都車展首秀

態(tài)度原創(chuàng)

本地
時(shí)尚
游戲
健康
藝術(shù)

本地新聞

換個(gè)城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

伊姐周六熱推:電視劇《十二封信》;電影《死神來了:血脈詛咒》......

UP主挑戰(zhàn)念“游戲科學(xué)”100萬次:最后竟然成功了!

精神科專家解答學(xué)習(xí)困難七大問題

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版