成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

EMNLP 2025 | 動態(tài)壓縮CoT推理新方法LightThinker來了

0
分享至



隨著 AI 技術(shù)的飛速發(fā)展,從「快思考」到「慢思考」,大語言模型(LLMs)在處理復(fù)雜推理任務(wù)上展現(xiàn)出驚人的能力。無論是我們熟知的思維鏈(CoT),還是更復(fù)雜的深度思考模式(Thinking),都讓 AI 的回答日益精準(zhǔn)、可靠。

然而,這種性能的提升并非沒有代價。模型在推理過程中會產(chǎn)生大量的中間步驟和文本(tokens),這不僅極大地拖慢了計算速度,還對內(nèi)存和計算資源造成了巨大的壓力。簡單來說,就是「想得越多,算得越慢,耗得越多」。

為了解決這一難題,研究者們從人類的認(rèn)知過程中汲取靈感。想象一下人類在解決一個復(fù)雜數(shù)學(xué)題時的情景:我們通常會在草稿紙上寫下關(guān)鍵的計算步驟(如下圖 a 中的黃色高亮部分),而將一些輔助性的思考過程(非高亮部分)放在腦中。



圖 1:(a) 展示了一個典型的思維鏈推理過程,黃色部分為關(guān)鍵步驟。(b) 對比了傳統(tǒng)方案 Vanilla 與 LightThinker 的推理流程。

本文中,來自浙江大學(xué)、螞蟻集團(tuán)等機(jī)構(gòu)的研究者提出了LightThinker,它模仿了這一高效的思考模式。它訓(xùn)練 LLM 在推理過程中動態(tài)地將冗長的中間思考步驟壓縮成緊湊的表示(gist tokens /cache tokens),然后「扔掉」原始的、繁瑣的推理鏈,僅保留核心摘要以繼續(xù)下一步的思考。 這樣一來,存放在上下文窗口中的 tokens 數(shù)量被大幅削減,從而顯著降低了內(nèi)存占用和計算成本。



  • 論文標(biāo)題:LightThinker: Thinking Step-by-Step Compression
  • 論文鏈接: https://arxiv.org/abs/2502.15589
  • 代碼鏈接: https://github.com/zjunlp/LightThinker

LightThinker 概覽



LightThinker 通過訓(xùn)練的方式讓模型具備這種能力。這涉及到兩個關(guān)鍵問題:「何時壓縮?」和「如何壓縮?」。整個過程可以概括為以下三個關(guān)鍵步驟:

第一步:數(shù)據(jù)重構(gòu) —— 在思考流程中植入「壓縮指令」

LightThinker 的第一步就是改造訓(xùn)練數(shù)據(jù),讓 LLM 明白「壓縮」這個動作的存在和時機(jī) 。具體操作是:

  1. 步驟劃分:首先,將模型原本冗長的完整回答 Y,按照語義或段落(即一個完整的「想法」)切分成若干個思維步驟 S1, S2, S3, ...。
  2. 插入特殊指令符:在這些思維步驟之間,插入一組特殊的「指令令牌」4。這組指令符主要包含兩個部分:

  • 緩存令牌 (Cache Tokens, C):這是一組特殊的、用于存儲壓縮后信息的「摘要令牌」。它的作用就像是為即將產(chǎn)生的「思想摘要」預(yù)留的空白便簽。
  • 輸出令牌 (Output Token, [o]):這是一個強(qiáng)制性的輸出信號,它的作用是告訴模型:「好了,摘要寫完了,現(xiàn)在請基于這份摘要繼續(xù)你下一步的思考」 。

經(jīng)過這樣的改造,原本一條完整的思考鏈,就變成了一個「思考步驟 1 S1 →進(jìn)行壓縮→ 繼續(xù)思考步驟 S2 →再次壓縮→ ...」的全新格式。這等于是在模型的學(xué)習(xí)材料中明確地標(biāo)注出了「何時」需要進(jìn)行壓縮。

注意,研究者在具體實現(xiàn)中,采用換行符作為思維步驟的劃分,此處不存在任何數(shù)據(jù)精心構(gòu)造的過程。

第二步:注意力改造 —— 學(xué)會壓縮與理解壓縮的內(nèi)容

教會了模型「何時」壓縮,下一步就是最關(guān)鍵的如何壓縮。這主要通過一種名為 「Thought-based Attention Mask」的技術(shù)來實現(xiàn),如圖 2 (b) 所示。精確地控制著模型在思考時 “能看什么” 和 “不能看什么” 。

這個過程分為兩個階段:

  • 壓縮階段(生成思維摘要):當(dāng)模型需要將思維步驟 Si 壓縮進(jìn)緩存令牌 C 時,注意力掩碼會強(qiáng)制這些 C 令牌只能「看到」三個東西:

  • 最初的問題 X;
  • 先前已經(jīng)壓縮好的歷史摘要;
  • 當(dāng)前正在處理的思維步驟 Si。

其他所有原始的、未壓縮的思維步驟都會被「遮蔽」。這迫使模型必須將 Si 中的所有關(guān)鍵信息高度濃縮并存儲到 C 中 。

  • 生成階段(基于摘要生成思維):當(dāng)思維步驟 Si 被成功壓縮進(jìn) C 之后,更關(guān)鍵的一步來了。在生成下一個思緒片段 S (i+1) 時,注意力掩碼會徹底「遮蔽」掉原始的思維步驟 Si。此時,模型只能「看到」最初的問題 X 和包括剛剛生成的摘要在內(nèi)的所有歷史摘要 。

通過這種方式,模型被迫學(xué)會僅依賴緊湊的「思想摘要」來進(jìn)行連貫的、層層遞進(jìn)的推理,而不是依賴越來越長的原始思考全文。

第三步:動態(tài)推理 ——「即用即棄」的高效循環(huán)

經(jīng)過以上兩個步驟的訓(xùn)練,LightThinker 模型在實際推理時,就會形成一種高效的動態(tài)循環(huán),如圖 1 (b) 和圖 2 (c) 所示,清晰地展示了「生成→壓縮→拋棄」的動態(tài)循環(huán)過程。下面以圖 1 (b) 為例進(jìn)行分析:

  1. 模型接收問題,生成第一段思考(Thought 1)。
  2. 觸發(fā)壓縮,將 Thought 1 中的核心信息壓縮成緊湊的摘要(CT1)。
  3. 拋棄原文,將冗長的 Thought 1 從上下文中丟棄。
  4. 模型基于問題和摘要(CT1),生成第二段思考(Thought 2)。
  5. 再次壓縮,將 Thought 2 壓縮為摘要(CT2),并丟棄 Thought 2 原文。
  6. 如此循環(huán),直到問題解決。

通過這種「即用即棄」的機(jī)制,LightThinker 確保了模型的上下文窗口始終保持在一個非常小的尺寸,從而解決了因上下文過長導(dǎo)致的內(nèi)存爆炸和計算緩慢問題,實現(xiàn)了效率與性能的完美平衡。

圖 3 展示了不同方法在推理過程中上下文長度的變化,其中曲線和坐標(biāo)軸圍城的面積為我們定義的新指標(biāo) Dependency,其意義生成 token 時需要關(guān)注 token 的數(shù)量總和。



實驗結(jié)果

研究者在四個數(shù)據(jù)集和兩個不同的模型上對 LightThinker 進(jìn)行了廣泛的測試,結(jié)果如表 1 所示。



表 1 主要實驗結(jié)果。Acc 為準(zhǔn)確率,Time 為平均推理耗時,Peak 為平均峰值 token 占用數(shù)量,Dep 為生成 token 時需要關(guān)注 token 的數(shù)量總和(如圖 3)所示。

結(jié)果表明,在 Qwen 系列模型上,與傳統(tǒng)模型(Vanilla)相比:

  • 峰值內(nèi)存使用減少 70%:LightThinker 極大地節(jié)約了寶貴的內(nèi)存資源。
  • 推理時間縮短 26%:在保證結(jié)果準(zhǔn)確性的前提下,思考速度得到了顯著提升。
  • 取得了準(zhǔn)確度和效率的平衡。

此外,在 Llama 上,也取得了準(zhǔn)確度和效率的平衡。

相關(guān)工作

當(dāng)前關(guān)于加速大語言模型(LLMs)推理過程的研究主要集中在四類方法:模型量化、輔助解碼、生成更少的 Token 和減少 KV 緩存。模型量化包括參數(shù)量化 [1-2] 和 KV 緩存量化 [3-4],輔助解碼主要包括投機(jī)采樣,本節(jié)將重點(diǎn)關(guān)注后兩類方法。

需要注意的是,生成長文本和理解長文本代表著不同的應(yīng)用場景,因此,專門針對長文本生成階段的加速方法(例如,預(yù)填充階段加速技術(shù)如 AutoCompressor [5]、ICAE [6]、LLMLingua [7]、Activation Beacon [8]、SnapKV [9] 和PyramidKV[10])不在此處討論。以下是后兩類方法的詳細(xì)概述。

生成更少的 Token

這一類別可以根據(jù)推理過程中使用的 token 數(shù)量和類型進(jìn)一步分為三種策略:

  • 離散 Token 減少通過提示工程 Prompt [11-13]、指令微調(diào) [14-15] 或強(qiáng)化學(xué)習(xí) [16-17] 等技術(shù)來引導(dǎo) LLM 在推理過程中使用更少的離散 token。例如,TALE [11] 提示 LLM 在預(yù)定義的 token 預(yù)算內(nèi)完成任務(wù)。Arora 和 Zanette [16] 構(gòu)建特定數(shù)據(jù)集并采用強(qiáng)化學(xué)習(xí)獎勵機(jī)制來鼓勵模型生成簡潔準(zhǔn)確的輸出,從而減少 token 使用量。
  • 連續(xù) Token 替換這些方法 [18-19] 探索使用連續(xù)空間 token 代替?zhèn)鹘y(tǒng)的離散詞匯 token。一個代表性例子是CoConut[18],它利用課程學(xué)習(xí)來訓(xùn)練 LLM 使用連續(xù) token 進(jìn)行推理。
  • 無 Token 使用通過在模型層之間內(nèi)化推理過程,在推理過程中直接生成最終答案而不需要中間 token [20-21]。

這三種策略都是在模型訓(xùn)練后實施的,推理過程中不需要額外干預(yù)。從技術(shù)上講,這些方法的加速效果依次遞增,但代價是 LLM 的泛化性能逐漸下降。此外,第一種策略并不能顯著減少 GPU 內(nèi)存使用。

減少 KV 緩存

這一類別可以分為兩種策略類型:基于剪枝的離散空間 KV 緩存選擇和基于合并的連續(xù)空間 KV 緩存壓縮。

  • 基于剪枝的策略設(shè)計特定的淘汰策略 [22-25] 在推理過程中保留重要的 token。例如,StreamingLLM[23] 認(rèn)為初始的 sink token 和最近的 token 是重要的;H2O [22] 關(guān)注具有高歷史注意力分?jǐn)?shù)的 token;SepLLM[24] 強(qiáng)調(diào)對應(yīng)于標(biāo)點(diǎn)符號的 token 是重要的。
  • 基于合并的策略引入錨點(diǎn) token,訓(xùn)練 LLM 將歷史重要信息壓縮到這些 token 中,從而實現(xiàn) KV 緩存合并 [26]。

這兩種策略都需要在推理過程中進(jìn)行干預(yù)。關(guān)鍵區(qū)別在于:第一種策略是無需訓(xùn)練的,但對每個生成的 token 都要應(yīng)用淘汰策略;而第二種策略是基于訓(xùn)練的方法,允許 LLM 自主決定何時應(yīng)用淘汰策略。

局限性

受限于自身的數(shù)據(jù)重構(gòu)方案(目前分割思維步驟是依賴規(guī)則,而不是基于語義)和訓(xùn)練數(shù)據(jù)(約 16K 訓(xùn)練數(shù)據(jù)),本文方法在數(shù)學(xué)相關(guān)的任務(wù)上表現(xiàn)并不出色。

如下圖所示,展示了 LightThinker 在 GSM8K 上的一個 Bad Case。研究者觀察到,盡管 LLM 在思考過程中得出了正確答案(見上圖中的 Model's Thoughts 字段),但在最終輸出中卻出現(xiàn)了錯誤(見圖中的 Model's Solution 字段)。

具體來說,在 Model's Solution 字段的第三句話中,第一次出現(xiàn)的「4000」是錯誤的。這表明在第二次壓縮步驟中發(fā)生了信息丟失(理論上,「8000」、「4000」和「24000」都應(yīng)該被壓縮,但 LLM 只壓縮了「4000」和「24000」),導(dǎo)致后續(xù)的推理錯誤。這類錯誤在 GSM8K 數(shù)據(jù)集中頻繁出現(xiàn),表明當(dāng)前的壓縮方法對數(shù)值的敏感度還不夠。



參考文獻(xiàn)

[1] Lin J, Tang J, Tang H, et al. AWQ: Activation-aware weight quantization for on-device LLM compression and acceleration. MLSys 2024.

[2] Dettmers T, Lewis M, Belkada Y, et al. GPT3.INT8 (): 8-bit matrix multiplication for transformers at scale. NeurIPS 2022.

[3] Liu Z, Yuan J, Jin H, et al. KIVI: A tuning-free asymmetric 2bit quantization for KV cache. ICML 2024b.

[4] Hooper C, Kim S, Mohammadzadeh H, et al. KVQuant: Towards 10 million context length LLM inference with KV cache quantization. NeurIPS 2024.

[5] Chevalier A, Wettig A, Ajith A, et al. Adapting language models to compress contexts. EMNLP 2023.

[6] Ge T, Hu J, Wang L, et al. In-context autoencoder for context compression in a large language model. ICLR 2024.

[7] Jiang H, Wu Q, Lin C, et al. LLMLingua: Compressing prompts for accelerated inference of large language models. EMNLP 2023.

[8] Zhang P, Liu Z, Xiao S, et al. Long context compression with activation beacon. arXiv:2401.03462, 2024b.

[9] Li Y, Huang Y, Yang B, et al. SnapKV: LLM knows what you are looking for before generation. NeurIPS 2024.

[10] Cai Z, Zhang Y, Gao B, et al. PyramidKV: Dynamic KV cache compression based on pyramidal information funneling. CoRR abs/2406.02069, 2024.

[11] Han T, Wang Z, Fang C, et al. Token-budget-aware LLM reasoning. CoRR abs/2412.18547, 2024.

[12] Ding M, Liu Z, Fu Z, et al. Break the chain: Large language models can be shortcut reasoners. CoRR abs/2406.06580, 2024.

[13] Nayab S, Rossolini G, Buttazzo G, et al. Concise thoughts: Impact of output length on LLM reasoning and cost. CoRR abs/2407.19825, 2024.

[14] Liu T, Guo Q, Hu X, et al. Can language models learn to skip steps? NeurIPS 2024a.

[15] Kang Y, Sun X, Chen L, et al. C3oT: Generating shorter chain-of-thought without compromising effectiveness. CoRR abs/2412.11664, 2024.

[16] Arora D, Zanette A. Training language models to reason efficiently. arXiv:2502.04463, 2025.

[17] Luo H, Shen L, He H, et al. O1-pruner: Length-harmonizing fine-tuning for o1-like reasoning pruning. arXiv:2501.12570, 2025.

[18] Hao S, Sukhbaatar S, Su D, et al. Training large language models to reason in a continuous latent space. CoRR abs/2412.06769, 2024.

[19] Cheng J, Van Durme B. Compressed chain of thought: Efficient reasoning through dense representations. CoRR abs/2412.13171, 2024.

[20] Deng Y, Choi Y, Shieber S. From explicit CoT to implicit CoT: Learning to internalize CoT step by step. CoRR abs/2405.14838, 2024.

[21] Deng Y, Prasad K, Fernandez R, et al. Implicit chain of thought reasoning via knowledge distillation. CoRR abs/2311.01460, 2023.

[22] Zhang Z, Sheng Y, Zhou T, et al. H2O: Heavy-hitter oracle for efficient generative inference of large language models. NeurIPS 2023.

[23] Xiao G, Tian Y, Chen B, et al. Efficient streaming language models with attention sinks. ICLR 2024.

[24] Chen G, Shi H, Li J, et al. SepLLM: Accelerate large language models by compressing one segment into one separator. CoRR abs/2412.12094, 2024.

[25] Wu J, Wang Z, Zhang L, et al. SCOPE: Optimizing key-value cache compression in long-context generation. CoRR abs/2412.13649, 2024a.

[26] Pang J, Ye F, Wong D, et al. Anchor-based large language models. ACL 2024

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
替補(bǔ)造2球!巴西前鋒恩里克:安切洛蒂對我的欣賞意義重大

替補(bǔ)造2球!巴西前鋒恩里克:安切洛蒂對我的欣賞意義重大

直播吧
2025-09-05 14:17:14
和平鴿走丟數(shù)只后續(xù):如今已經(jīng)陸續(xù)回家,市民成為了最大功臣

和平鴿走丟數(shù)只后續(xù):如今已經(jīng)陸續(xù)回家,市民成為了最大功臣

溫讀史
2025-09-05 09:40:02
相差3票!最新表決結(jié)果出爐,特朗普通告全球:美國將被徹底摧毀

相差3票!最新表決結(jié)果出爐,特朗普通告全球:美國將被徹底摧毀

甜檸聊史
2025-09-05 21:36:13
楊丞琳偷偷做大手術(shù)的內(nèi)幕瓜

楊丞琳偷偷做大手術(shù)的內(nèi)幕瓜

熱鬧吃瓜大姐
2025-09-03 20:18:42
特朗普施壓歐洲,“自愿聯(lián)盟”動真格

特朗普施壓歐洲,“自愿聯(lián)盟”動真格

山河路口
2025-09-05 12:02:28
全智賢罕見出席活動,法拉利雖然老了但也還是“法拉利”!

全智賢罕見出席活動,法拉利雖然老了但也還是“法拉利”!

可樂談情感
2025-09-03 17:17:50
網(wǎng)盤中的加密文件,二十年后依然回味無窮

網(wǎng)盤中的加密文件,二十年后依然回味無窮

街機(jī)時代
2025-04-27 16:10:02
吉娜愛麗絲,肉絲搭配絲襪驚艷亮相,這腿真的太美了?

吉娜愛麗絲,肉絲搭配絲襪驚艷亮相,這腿真的太美了?

娛樂領(lǐng)航家
2025-09-05 20:00:04
歷次閱兵的總指揮都是誰?

歷次閱兵的總指揮都是誰?

霹靂炮
2025-09-02 22:57:06
海明威97歲兒子去世:一個生活在充滿自殺、精神失常等家族悲劇中的“異類”

海明威97歲兒子去世:一個生活在充滿自殺、精神失常等家族悲劇中的“異類”

紅星新聞
2025-09-05 19:40:21
昆凌有了大媽味,個子矮最多1米6,與周杰倫逛澳洲商場素顏太一般

昆凌有了大媽味,個子矮最多1米6,與周杰倫逛澳洲商場素顏太一般

小咪侃娛圈
2025-09-03 11:32:31
湖北省發(fā)布干部任前公示,涉及多個重要崗位!

湖北省發(fā)布干部任前公示,涉及多個重要崗位!

硒都身邊事兒
2025-09-05 22:34:14
破除中文網(wǎng)絡(luò)最大日軍謠言:大阪師團(tuán)真是最爛師團(tuán)嗎?

破除中文網(wǎng)絡(luò)最大日軍謠言:大阪師團(tuán)真是最爛師團(tuán)嗎?

裝甲鏟史官
2025-09-04 15:43:04
上海人挺??!高溫“續(xù)費(fèi)”是因為它!

上海人挺?。「邷亍袄m(xù)費(fèi)”是因為它!

上海預(yù)警發(fā)布
2025-09-05 17:59:05
43歲劉松仁在飛機(jī)上看上小他20歲的泰國空姐,開始砸錢追求她

43歲劉松仁在飛機(jī)上看上小他20歲的泰國空姐,開始砸錢追求她

百態(tài)人間
2025-08-29 16:02:16
《歸隊》結(jié)局:真正叛變的人不是湯德遠(yuǎn),而是深藏不露的490號

《歸隊》結(jié)局:真正叛變的人不是湯德遠(yuǎn),而是深藏不露的490號

金風(fēng)說
2025-09-05 13:49:08
張萌,呼之欲出的飽滿

張萌,呼之欲出的飽滿

東方不敗然多多
2025-09-05 01:22:58
為什么中國社保會走到今天?看中國社保的矛盾與制度

為什么中國社保會走到今天?看中國社保的矛盾與制度

老丁是個生意人
2025-08-20 00:17:31
若中日再次爆發(fā)戰(zhàn)爭,結(jié)局會如何?俄羅斯和美國看法一致

若中日再次爆發(fā)戰(zhàn)爭,結(jié)局會如何?俄羅斯和美國看法一致

墨羽怪談
2025-09-06 00:09:39
汗液是心臟最好的反饋!提醒:汗液出現(xiàn)4個異常,可能是心臟在“報警”!

汗液是心臟最好的反饋!提醒:汗液出現(xiàn)4個異常,可能是心臟在“報警”!

神奇故事
2025-09-02 22:52:49
2025-09-06 02:03:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11240文章數(shù) 142442關(guān)注度
往期回顧 全部

科技要聞

特斯拉想送馬斯克9750億美元 條件很苛刻

頭條要聞

馬克龍宣布26國將聯(lián)合出兵烏克蘭 澤連斯基表示歡迎

頭條要聞

馬克龍宣布26國將聯(lián)合出兵烏克蘭 澤連斯基表示歡迎

體育要聞

西甲最窮的“草臺班子”,竟然打進(jìn)歐戰(zhàn)了

娛樂要聞

!被罵“戀愛腦”的董璇玩脫了?

財經(jīng)要聞

拖欠訂單 立訊精密被供應(yīng)商索賠3343萬

汽車要聞

華為乾崑技術(shù)日 實測ADS4已無限接近人類司機(jī)

態(tài)度原創(chuàng)

本地
親子
旅游
公開課
軍事航空

本地新聞

食味印象 | 夜未央 在自由時光邂逅煙火氣

親子要聞

救命!這電動牙刷把全家變成「刷牙狂魔」!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

全網(wǎng)獨(dú)家!九三閱兵全圖鑒

無障礙瀏覽 進(jìn)入關(guān)懷版