成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

dLLM「Free Lunch」浙大&螞蟻利用中間結(jié)果顯著提升擴散語言模型

0
分享至



本文第一作者王文,浙江大學博士生,研究方向是多模態(tài)理解與生成等。本文通訊作者沈春華,浙江大學求是講席教授,主要研究課題包括具身智能、大模型推理增強、強化學習、通用感知模型等。

近年來,擴散大語言模型(Diffusion Large Language Models,dLLMs)正迅速嶄露頭角,成為文本生成領(lǐng)域的一股新勢力。與傳統(tǒng)自回歸(Autoregressive, AR)模型從左到右逐字生成不同,dLLM 依托迭代去噪的生成機制,不僅能夠一次性生成多個 token,還能在對話、推理、創(chuàng)作等任務中展現(xiàn)出獨特的優(yōu)勢。當你還在等傳統(tǒng) LLM「一個字一個字」地憋出答案時,dLLM 早已通過幾輪迭代「秒」出完整結(jié)果,帶來前所未有的生成效率。

然而,速度的提升并不意味著完美的答案。現(xiàn)有 dLLM 的解碼策略往往只關(guān)注最后一次迭代的生成結(jié)果,直接舍棄了中間多輪迭代中蘊含的豐富語義與推理信息。這些被忽視的中間預測,實際上可能暗藏著更準確、更接近真相的答案。一旦被丟棄,不僅造成信息浪費,還可能讓模型錯失做對題目的最佳時機。

更令人意外的是,研究團隊在數(shù)學推理任務中觀察到了一種「先對后錯」的現(xiàn)象:模型先是得出了正確答案,卻在隨后的迭代中將其「推翻」,轉(zhuǎn)而采用錯誤答案,最終導致整體回答錯誤。以下圖為例,模型在第 55 步時明明已經(jīng)得到正確的25,卻在后續(xù)生成中改成了2,并一直堅持到最后也未能修正。



正是基于這一關(guān)鍵觀察,來自浙江大學的研究團隊從時序視角切入,提出了 Temporal Self-Consistency Voting 與 Temporal Consistency Reinforcement 兩種方法,對模型的性能進行優(yōu)化與提升。



  • 論文標題:Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
  • 論文地址
  • https://arxiv.org/abs/2508.09138
  • 項目主頁
  • https://aim-uofa.github.io/dLLM-MidTruth/
  • Github
  • https://github.com/aim-uofa/dLLM-MidTruth
  • Huggingface Paper
  • https://huggingface.co/papers/2508.09138

Temporal Self-Consistency Voting:

從時間維度「抓住」模型最靠譜的答案



在傳統(tǒng)的自回歸(AR)模型中,majority vote通常需要針對同一個 prompt 多次生成完整回答,再根據(jù)出現(xiàn)頻率選出最高票的答案。雖然這種方法在提升準確率方面有效,但代價是成倍增加計算開銷,往往需要耗費數(shù)倍的推理時間與資源。

而研究團隊結(jié)合 dLLM 的迭代生成特性,提出了Temporal Self-Consistency Voting(TCV) 方法。它不必額外生成多條回答,而是直接利用 dLLM 在去噪過程中每個時間步的中間結(jié)果,進行一次「時間軸上的投票」來選出最終答案??紤]到 dLLM 在迭代去噪中理論上會逐漸趨于穩(wěn)定與確定,TCV 還為不同時間步的結(jié)果分配了不同權(quán)重,從而更精準地捕捉最可靠的預測。

該方法的主要創(chuàng)新之處在于,它巧妙地將「多數(shù)投票」理念與 dLLM 的時間維度信息結(jié)合起來,實現(xiàn)了幾乎零額外計算成本的性能提升,同時充分挖掘了中間預測中的潛在價值。

Temporal Consistency Reinforcement:

用時序一致性訓練出更穩(wěn)的 dLLM

研究團隊針對 dLLM 的中間預測結(jié)果,創(chuàng)造性地提出了Temporal Semantic Entropy(TSE) 這一概念。TSE 通過計算模型在不同迭代步驟中預測結(jié)果的語義熵,來衡量生成過程中的一致性程度。直觀來說,熵越低,說明模型在迭代中越穩(wěn)定、越堅定自己的選擇;熵越高,則意味著生成路徑搖擺不定、易于被干擾。



在實驗分析中,他們發(fā)現(xiàn)了一些頗具規(guī)律性的現(xiàn)象:在相對簡單、模型準確率較高的數(shù)據(jù)集(如 GSM8K 和SVAMP)上,TSE 值普遍較低;而在同一個數(shù)據(jù)集中,模型答對的問題的 TSE 往往顯著低于答錯的問題。這一發(fā)現(xiàn)表明,穩(wěn)定的生成路徑往往與更好的任務表現(xiàn)高度相關(guān)。

基于這一洞察,研究團隊提出了Temporal Consistency Reinforcement(TCR) 方法,將 TSE 直接作為獎勵信號,引導模型在訓練中主動降低 TSE,從而提升生成路徑的穩(wěn)定性。進一步地,他們還利用scoring rule,將 TSE 與傳統(tǒng)的正確性獎勵相結(jié)合,實現(xiàn)「雙重監(jiān)督」——既讓模型追求正確答案,又保持推理過程的一致性,最終訓練出更穩(wěn)定、性能更優(yōu)的 dLLM。

實驗結(jié)果

研究團隊在三個主流數(shù)學推理數(shù)據(jù)集(GSM8K、MATH500、SVAMP)以及一個邏輯推理數(shù)據(jù)集(Countdown)上進行了系統(tǒng)測試。結(jié)果顯示,Temporal Self-Consistency Voting幾乎不增加額外計算成本,就能在多個數(shù)據(jù)集上穩(wěn)定帶來性能提升,驗證了從中間迭代中挖掘信息的有效性。



與此同時,Temporal Consistency Reinforcement的表現(xiàn)同樣令人驚艷——僅僅利用Temporal Semantic Entropy (TSE)作為唯一獎勵信號,就能在 Countdown 數(shù)據(jù)集上實現(xiàn)24.7%的顯著提升。更進一步,當將 TSE 與傳統(tǒng)的正確性獎勵結(jié)合時,不僅在 Countdown 上提升至25.3%,在 GSM8K、MATH500、SVAMP 上也分別取得了+2.0%、+4.3%、+6.6%的絕對增幅,全面超越了僅依賴正確性獎勵的效果。



訓練后模型性質(zhì)分析



研究團隊對訓練后模型進行分析發(fā)現(xiàn):模型生成更穩(wěn)定、輸出更簡潔。具體表現(xiàn)為:

  • 時間一致性提升:生成過程更穩(wěn),中間預測波動減少;
  • 仍有提升空間:雖然表現(xiàn)更好,但模型在中間預測上仍有可優(yōu)化空間;
  • 輸出更精煉:有效 token 數(shù)下降,答案更簡短,可能也更不容易「自打臉」。

這表明,通過 Temporal Consistency Reinforcement,不僅讓模型跑得快,也更能穩(wěn)穩(wěn)抓住正確答案。

總結(jié)

總體來看,這項工作揭示了 dLLM 生成過程中的「先對后錯」現(xiàn)象,并提出了兩種創(chuàng)新方法——Temporal Self-Consistency Voting 和 Temporal Consistency Reinforcement。它們利用中間預測的時間一致性和語義穩(wěn)定性,不僅顯著提升了模型在數(shù)學與邏輯推理任務上的表現(xiàn),也為未來挖掘 dLLM 潛力提供了全新的思路。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
難以置信!東莞靠近市中心的村停止圍村收費,交了月租的也可退費

難以置信!東莞靠近市中心的村停止圍村收費,交了月租的也可退費

火山詩話
2025-09-04 07:10:01
iPhone 17系列最新售價曝光,僅Pro漲價!摩根大通:能否提振蘋果股價關(guān)鍵在中國【附智能手機行業(yè)市場分析】

iPhone 17系列最新售價曝光,僅Pro漲價!摩根大通:能否提振蘋果股價關(guān)鍵在中國【附智能手機行業(yè)市場分析】

前瞻網(wǎng)
2025-09-04 15:22:20
女生玩手機睡著:iPhone貼在臉上直接燙出4顆大水泡!

女生玩手機睡著:iPhone貼在臉上直接燙出4顆大水泡!

快科技
2025-09-01 16:24:12
東營市委書記楊國強南下,履新海南省領(lǐng)導

東營市委書記楊國強南下,履新海南省領(lǐng)導

澎湃新聞
2025-09-04 08:29:03
北京閱兵結(jié)束,特朗普通告全球,一連說了6個“不”,中方太強了

北京閱兵結(jié)束,特朗普通告全球,一連說了6個“不”,中方太強了

大白話瞰世界
2025-09-04 11:18:16
44 歲薛凱琪演唱會 "擦邊" 引熱議:是藝術(shù)表達還是流量博弈?

44 歲薛凱琪演唱會 "擦邊" 引熱議:是藝術(shù)表達還是流量博弈?

小喬古裝漢服
2025-09-04 13:17:58
剛刑滿釋放,演員李明德被起訴!

剛刑滿釋放,演員李明德被起訴!

魯中晨報
2025-09-04 11:27:04
斷舍離后,我扔掉了800件雜物:原來家里的清爽,是學會放手!

斷舍離后,我扔掉了800件雜物:原來家里的清爽,是學會放手!

裝小宅
2025-09-01 11:50:07
34歲女子湊不齊孩子2500學費,找前夫借錢被拒:這是沖動的懲罰

34歲女子湊不齊孩子2500學費,找前夫借錢被拒:這是沖動的懲罰

辣媒專欄記錄
2025-09-04 10:45:03
女孩接退伍男友被全網(wǎng)勸分手,連發(fā)3個視頻證明愛情,怎料更翻車

女孩接退伍男友被全網(wǎng)勸分手,連發(fā)3個視頻證明愛情,怎料更翻車

有范又有料
2025-09-03 10:08:01
恕我直言!能阻擋日本女排世錦賽奪冠的,僅剩下這2支球隊!

恕我直言!能阻擋日本女排世錦賽奪冠的,僅剩下這2支球隊!

田先生籃球
2025-09-03 21:47:49
甄子丹首次觀禮閱兵:非常榮幸,很自豪,為祖國加油打氣

甄子丹首次觀禮閱兵:非常榮幸,很自豪,為祖國加油打氣

極目新聞
2025-09-03 14:20:23
重要賽事!9月4日下午16:30!中央5套CCTV5、CCTV5+直播節(jié)目表

重要賽事!9月4日下午16:30!中央5套CCTV5、CCTV5+直播節(jié)目表

皮皮觀天下
2025-09-04 08:43:33
11月開賽,郭士強點名,男籃12人或敲定,3老將回歸,5人落選

11月開賽,郭士強點名,男籃12人或敲定,3老將回歸,5人落選

東球弟
2025-09-04 12:29:02
激動!馬庫斯受邀參加大閱兵,人民日報專欄報道,保密工作真到位

激動!馬庫斯受邀參加大閱兵,人民日報專欄報道,保密工作真到位

禾寒敘
2025-09-03 14:17:07
再見字母哥?火箭雄鹿醞釀3換1交易,小特倫特或投奔休城

再見字母哥?火箭雄鹿醞釀3換1交易,小特倫特或投奔休城

眼淚笑
2025-09-04 12:54:23
這國一口氣花150億請中國駐軍,又花35億買導彈,付款極其爽快

這國一口氣花150億請中國駐軍,又花35億買導彈,付款極其爽快

壹知眠羊
2025-08-07 07:25:57
不止是“加長”,Model Y L的交付,悄悄改變了游戲的玩法

不止是“加長”,Model Y L的交付,悄悄改變了游戲的玩法

汽車選購
2025-09-04 10:53:40
薛凱琪開了幾場演唱會,給女孩們提了醒:下次再去看好自己男朋友

薛凱琪開了幾場演唱會,給女孩們提了醒:下次再去看好自己男朋友

銀河史記
2025-09-03 23:48:28
三寶年輕時也太帥了!1995年當陳奕迅出道賽評委,27歲的他太俊了

三寶年輕時也太帥了!1995年當陳奕迅出道賽評委,27歲的他太俊了

觀察鑒娛
2025-09-04 08:33:35
2025-09-04 17:04:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11231文章數(shù) 142441關(guān)注度
往期回顧 全部

科技要聞

17999元起!華為發(fā)布三折疊屏手機新品

頭條要聞

巴西欲拉金磚國家"群聊" 共商應對美國關(guān)稅"大棒"

頭條要聞

巴西欲拉金磚國家"群聊" 共商應對美國關(guān)稅"大棒"

體育要聞

“他就像是身高2米的梅西”

娛樂要聞

墻倒眾人推!胡歌張譯的仇終于有人報

財經(jīng)要聞

科創(chuàng)50指數(shù)跌超6% 算力芯片股大跌

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

健康
親子
教育
公開課
軍事航空

內(nèi)分泌科專家破解身高八大謠言

親子要聞

卵泡不長大是什么原因引起的?dhea和輔酶q10可以都吃嗎?

教育要聞

南京二十九中、六十六中“新掌門”亮相!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

全網(wǎng)獨家!九三閱兵全圖鑒

無障礙瀏覽 進入關(guān)懷版