本文第一作者王文,浙江大學博士生,研究方向是多模態(tài)理解與生成等。本文通訊作者沈春華,浙江大學求是講席教授,主要研究課題包括具身智能、大模型推理增強、強化學習、通用感知模型等。
近年來,擴散大語言模型(Diffusion Large Language Models,dLLMs)正迅速嶄露頭角,成為文本生成領(lǐng)域的一股新勢力。與傳統(tǒng)自回歸(Autoregressive, AR)模型從左到右逐字生成不同,dLLM 依托迭代去噪的生成機制,不僅能夠一次性生成多個 token,還能在對話、推理、創(chuàng)作等任務中展現(xiàn)出獨特的優(yōu)勢。當你還在等傳統(tǒng) LLM「一個字一個字」地憋出答案時,dLLM 早已通過幾輪迭代「秒」出完整結(jié)果,帶來前所未有的生成效率。
然而,速度的提升并不意味著完美的答案。現(xiàn)有 dLLM 的解碼策略往往只關(guān)注最后一次迭代的生成結(jié)果,直接舍棄了中間多輪迭代中蘊含的豐富語義與推理信息。這些被忽視的中間預測,實際上可能暗藏著更準確、更接近真相的答案。一旦被丟棄,不僅造成信息浪費,還可能讓模型錯失做對題目的最佳時機。
更令人意外的是,研究團隊在數(shù)學推理任務中觀察到了一種「先對后錯」的現(xiàn)象:模型先是得出了正確答案,卻在隨后的迭代中將其「推翻」,轉(zhuǎn)而采用錯誤答案,最終導致整體回答錯誤。以下圖為例,模型在第 55 步時明明已經(jīng)得到正確的25,卻在后續(xù)生成中改成了2,并一直堅持到最后也未能修正。
正是基于這一關(guān)鍵觀察,來自浙江大學的研究團隊從時序視角切入,提出了 Temporal Self-Consistency Voting 與 Temporal Consistency Reinforcement 兩種方法,對模型的性能進行優(yōu)化與提升。
- 論文標題:Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
- 論文地址
- https://arxiv.org/abs/2508.09138
- 項目主頁
- https://aim-uofa.github.io/dLLM-MidTruth/
- Github
- https://github.com/aim-uofa/dLLM-MidTruth
- Huggingface Paper
- https://huggingface.co/papers/2508.09138
Temporal Self-Consistency Voting:
從時間維度「抓住」模型最靠譜的答案
在傳統(tǒng)的自回歸(AR)模型中,majority vote通常需要針對同一個 prompt 多次生成完整回答,再根據(jù)出現(xiàn)頻率選出最高票的答案。雖然這種方法在提升準確率方面有效,但代價是成倍增加計算開銷,往往需要耗費數(shù)倍的推理時間與資源。
而研究團隊結(jié)合 dLLM 的迭代生成特性,提出了Temporal Self-Consistency Voting(TCV) 方法。它不必額外生成多條回答,而是直接利用 dLLM 在去噪過程中每個時間步的中間結(jié)果,進行一次「時間軸上的投票」來選出最終答案??紤]到 dLLM 在迭代去噪中理論上會逐漸趨于穩(wěn)定與確定,TCV 還為不同時間步的結(jié)果分配了不同權(quán)重,從而更精準地捕捉最可靠的預測。
該方法的主要創(chuàng)新之處在于,它巧妙地將「多數(shù)投票」理念與 dLLM 的時間維度信息結(jié)合起來,實現(xiàn)了幾乎零額外計算成本的性能提升,同時充分挖掘了中間預測中的潛在價值。
Temporal Consistency Reinforcement:
用時序一致性訓練出更穩(wěn)的 dLLM
研究團隊針對 dLLM 的中間預測結(jié)果,創(chuàng)造性地提出了Temporal Semantic Entropy(TSE) 這一概念。TSE 通過計算模型在不同迭代步驟中預測結(jié)果的語義熵,來衡量生成過程中的一致性程度。直觀來說,熵越低,說明模型在迭代中越穩(wěn)定、越堅定自己的選擇;熵越高,則意味著生成路徑搖擺不定、易于被干擾。
在實驗分析中,他們發(fā)現(xiàn)了一些頗具規(guī)律性的現(xiàn)象:在相對簡單、模型準確率較高的數(shù)據(jù)集(如 GSM8K 和SVAMP)上,TSE 值普遍較低;而在同一個數(shù)據(jù)集中,模型答對的問題的 TSE 往往顯著低于答錯的問題。這一發(fā)現(xiàn)表明,穩(wěn)定的生成路徑往往與更好的任務表現(xiàn)高度相關(guān)。
基于這一洞察,研究團隊提出了Temporal Consistency Reinforcement(TCR) 方法,將 TSE 直接作為獎勵信號,引導模型在訓練中主動降低 TSE,從而提升生成路徑的穩(wěn)定性。進一步地,他們還利用scoring rule,將 TSE 與傳統(tǒng)的正確性獎勵相結(jié)合,實現(xiàn)「雙重監(jiān)督」——既讓模型追求正確答案,又保持推理過程的一致性,最終訓練出更穩(wěn)定、性能更優(yōu)的 dLLM。
實驗結(jié)果
研究團隊在三個主流數(shù)學推理數(shù)據(jù)集(GSM8K、MATH500、SVAMP)以及一個邏輯推理數(shù)據(jù)集(Countdown)上進行了系統(tǒng)測試。結(jié)果顯示,Temporal Self-Consistency Voting幾乎不增加額外計算成本,就能在多個數(shù)據(jù)集上穩(wěn)定帶來性能提升,驗證了從中間迭代中挖掘信息的有效性。
與此同時,Temporal Consistency Reinforcement的表現(xiàn)同樣令人驚艷——僅僅利用Temporal Semantic Entropy (TSE)作為唯一獎勵信號,就能在 Countdown 數(shù)據(jù)集上實現(xiàn)24.7%的顯著提升。更進一步,當將 TSE 與傳統(tǒng)的正確性獎勵結(jié)合時,不僅在 Countdown 上提升至25.3%,在 GSM8K、MATH500、SVAMP 上也分別取得了+2.0%、+4.3%、+6.6%的絕對增幅,全面超越了僅依賴正確性獎勵的效果。
訓練后模型性質(zhì)分析
研究團隊對訓練后模型進行分析發(fā)現(xiàn):模型生成更穩(wěn)定、輸出更簡潔。具體表現(xiàn)為:
- 時間一致性提升:生成過程更穩(wěn),中間預測波動減少;
- 仍有提升空間:雖然表現(xiàn)更好,但模型在中間預測上仍有可優(yōu)化空間;
- 輸出更精煉:有效 token 數(shù)下降,答案更簡短,可能也更不容易「自打臉」。
這表明,通過 Temporal Consistency Reinforcement,不僅讓模型跑得快,也更能穩(wěn)穩(wěn)抓住正確答案。
總結(jié)
總體來看,這項工作揭示了 dLLM 生成過程中的「先對后錯」現(xiàn)象,并提出了兩種創(chuàng)新方法——Temporal Self-Consistency Voting 和 Temporal Consistency Reinforcement。它們利用中間預測的時間一致性和語義穩(wěn)定性,不僅顯著提升了模型在數(shù)學與邏輯推理任務上的表現(xiàn),也為未來挖掘 dLLM 潛力提供了全新的思路。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.