dLLM「Free Lunch」浙大&螞蟻利用中間結(jié)果顯著提升擴散語言模型

2025-08-20 16:07:14　來源: 機器之心Pro

河北舉報

分享至

本文第一作者王文，浙江大學博士生，研究方向是多模態(tài)理解與生成等。本文通訊作者沈春華，浙江大學求是講席教授，主要研究課題包括具身智能、大模型推理增強、強化學習、通用感知模型等。

近年來，擴散大語言模型（Diffusion Large Language Models,dLLMs）正迅速嶄露頭角，成為文本生成領(lǐng)域的一股新勢力。與傳統(tǒng)自回歸（Autoregressive, AR）模型從左到右逐字生成不同，dLLM 依托迭代去噪的生成機制，不僅能夠一次性生成多個 token，還能在對話、推理、創(chuàng)作等任務中展現(xiàn)出獨特的優(yōu)勢。當你還在等傳統(tǒng) LLM「一個字一個字」地憋出答案時，dLLM 早已通過幾輪迭代「秒」出完整結(jié)果，帶來前所未有的生成效率。

然而，速度的提升并不意味著完美的答案。現(xiàn)有 dLLM 的解碼策略往往只關(guān)注最后一次迭代的生成結(jié)果，直接舍棄了中間多輪迭代中蘊含的豐富語義與推理信息。這些被忽視的中間預測，實際上可能暗藏著更準確、更接近真相的答案。一旦被丟棄，不僅造成信息浪費，還可能讓模型錯失做對題目的最佳時機。

更令人意外的是，研究團隊在數(shù)學推理任務中觀察到了一種「先對后錯」的現(xiàn)象：模型先是得出了正確答案，卻在隨后的迭代中將其「推翻」，轉(zhuǎn)而采用錯誤答案，最終導致整體回答錯誤。以下圖為例，模型在第 55 步時明明已經(jīng)得到正確的25，卻在后續(xù)生成中改成了2，并一直堅持到最后也未能修正。

正是基于這一關(guān)鍵觀察，來自浙江大學的研究團隊從時序視角切入，提出了 Temporal Self-Consistency Voting 與 Temporal Consistency Reinforcement 兩種方法，對模型的性能進行優(yōu)化與提升。

論文標題：Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
論文地址
https://arxiv.org/abs/2508.09138
項目主頁
https://aim-uofa.github.io/dLLM-MidTruth/
Github
https://github.com/aim-uofa/dLLM-MidTruth
Huggingface Paper
https://huggingface.co/papers/2508.09138

Temporal Self-Consistency Voting：

從時間維度「抓住」模型最靠譜的答案

在傳統(tǒng)的自回歸（AR）模型中，majority vote通常需要針對同一個 prompt 多次生成完整回答，再根據(jù)出現(xiàn)頻率選出最高票的答案。雖然這種方法在提升準確率方面有效，但代價是成倍增加計算開銷，往往需要耗費數(shù)倍的推理時間與資源。

而研究團隊結(jié)合 dLLM 的迭代生成特性，提出了Temporal Self-Consistency Voting(TCV) 方法。它不必額外生成多條回答，而是直接利用 dLLM 在去噪過程中每個時間步的中間結(jié)果，進行一次「時間軸上的投票」來選出最終答案?？紤]到 dLLM 在迭代去噪中理論上會逐漸趨于穩(wěn)定與確定，TCV 還為不同時間步的結(jié)果分配了不同權(quán)重，從而更精準地捕捉最可靠的預測。

該方法的主要創(chuàng)新之處在于，它巧妙地將「多數(shù)投票」理念與 dLLM 的時間維度信息結(jié)合起來，實現(xiàn)了幾乎零額外計算成本的性能提升，同時充分挖掘了中間預測中的潛在價值。

Temporal Consistency Reinforcement：

用時序一致性訓練出更穩(wěn)的 dLLM

研究團隊針對 dLLM 的中間預測結(jié)果，創(chuàng)造性地提出了Temporal Semantic Entropy(TSE) 這一概念。TSE 通過計算模型在不同迭代步驟中預測結(jié)果的語義熵，來衡量生成過程中的一致性程度。直觀來說，熵越低，說明模型在迭代中越穩(wěn)定、越堅定自己的選擇；熵越高，則意味著生成路徑搖擺不定、易于被干擾。

在實驗分析中，他們發(fā)現(xiàn)了一些頗具規(guī)律性的現(xiàn)象：在相對簡單、模型準確率較高的數(shù)據(jù)集（如 GSM8K 和SVAMP）上，TSE 值普遍較低；而在同一個數(shù)據(jù)集中，模型答對的問題的 TSE 往往顯著低于答錯的問題。這一發(fā)現(xiàn)表明，穩(wěn)定的生成路徑往往與更好的任務表現(xiàn)高度相關(guān)。

基于這一洞察，研究團隊提出了Temporal Consistency Reinforcement(TCR) 方法，將 TSE 直接作為獎勵信號，引導模型在訓練中主動降低 TSE，從而提升生成路徑的穩(wěn)定性。進一步地，他們還利用scoring rule，將 TSE 與傳統(tǒng)的正確性獎勵相結(jié)合，實現(xiàn)「雙重監(jiān)督」——既讓模型追求正確答案，又保持推理過程的一致性，最終訓練出更穩(wěn)定、性能更優(yōu)的 dLLM。

實驗結(jié)果

研究團隊在三個主流數(shù)學推理數(shù)據(jù)集（GSM8K、MATH500、SVAMP）以及一個邏輯推理數(shù)據(jù)集（Countdown）上進行了系統(tǒng)測試。結(jié)果顯示，Temporal Self-Consistency Voting幾乎不增加額外計算成本，就能在多個數(shù)據(jù)集上穩(wěn)定帶來性能提升，驗證了從中間迭代中挖掘信息的有效性。

與此同時，Temporal Consistency Reinforcement的表現(xiàn)同樣令人驚艷——僅僅利用Temporal Semantic Entropy (TSE)作為唯一獎勵信號，就能在 Countdown 數(shù)據(jù)集上實現(xiàn)24.7%的顯著提升。更進一步，當將 TSE 與傳統(tǒng)的正確性獎勵結(jié)合時，不僅在 Countdown 上提升至25.3%，在 GSM8K、MATH500、SVAMP 上也分別取得了+2.0%、+4.3%、+6.6%的絕對增幅，全面超越了僅依賴正確性獎勵的效果。

訓練后模型性質(zhì)分析

研究團隊對訓練后模型進行分析發(fā)現(xiàn)：模型生成更穩(wěn)定、輸出更簡潔。具體表現(xiàn)為：

時間一致性提升：生成過程更穩(wěn)，中間預測波動減少；
仍有提升空間：雖然表現(xiàn)更好，但模型在中間預測上仍有可優(yōu)化空間；
輸出更精煉：有效 token 數(shù)下降，答案更簡短，可能也更不容易「自打臉」。

這表明，通過 Temporal Consistency Reinforcement，不僅讓模型跑得快，也更能穩(wěn)穩(wěn)抓住正確答案。

總結(jié)

總體來看，這項工作揭示了 dLLM 生成過程中的「先對后錯」現(xiàn)象，并提出了兩種創(chuàng)新方法——Temporal Self-Consistency Voting 和 Temporal Consistency Reinforcement。它們利用中間預測的時間一致性和語義穩(wěn)定性，不僅顯著提升了模型在數(shù)學與邏輯推理任務上的表現(xiàn)，也為未來挖掘 dLLM 潛力提供了全新的思路。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.