網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

其實，擴散語言模型在最終解碼之前很久，就已確定最終答案

2025-09-03 14:10:13　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：陳萍

隨著擴散語言模型（DLM）在各個領(lǐng)域的快速發(fā)展，其已成為自回歸（AR）模型有力的替代方案。與 AR 模型相比，DLMs 的主要優(yōu)勢包括但不限于：高效的并行解碼和靈活的生成順序。

盡管 DLMs 具有加速潛力，但在實際應(yīng)用中，其推理速度仍慢于 AR 模型，原因在于缺乏 KV-cache 機制，以及快速并行解碼所帶來的顯著性能下降。

本文，來自香港理工大學(xué)、達特茅斯學(xué)院等機構(gòu)的研究者嘗試從一個不同的角度來加速 DLMs 推理，這一思路源于一個長期被忽視卻極具潛力的現(xiàn)象：早期答案收斂

論文標(biāo)題：Diffusion Language Models Know the Answer Before Decoding
論文地址：https://arxiv.org/pdf/2508.19982
項目地址：https://github.com/pixeli99/Prophet

通過深入分析，研究者觀察到：無論是半自回歸重掩碼還是隨機重掩碼場景下，有極高比例的樣本在解碼早期階段即可獲得正確解碼。這一趨勢在隨機重掩碼中尤為顯著，以 GSMK 和 MMLU 數(shù)據(jù)集為例，僅需半數(shù)優(yōu)化步驟即可分別實現(xiàn) 97% 和 99% 的樣本正確解碼。

受此發(fā)現(xiàn)啟發(fā)，該研究提出了Prophet，一種無需訓(xùn)練的快速解碼策略，該策略專為利用早期答案收斂特性而設(shè)計。Prophet 通過持續(xù)監(jiān)控解碼過程中 top-2 答案候選之間的置信度差距，自適應(yīng)地判斷是否可安全地一次性解碼剩余所有 token。

實驗表明，該方法在保持高質(zhì)量生成效果的同時，實現(xiàn)了顯著的推理加速（最高達 3.4 倍）。

方法介紹

Prophet 是一種無需訓(xùn)練的快速解碼方法，用來加速擴散語言模型的生成。它的核心思路是：在模型預(yù)測結(jié)果趨于穩(wěn)定時，一次性提交所有剩余 token 并提前生成答案，這一過程被稱為早期提交解碼（Early Commit Decoding）。與傳統(tǒng)的固定步數(shù)解碼不同，Prophet 會在每一步主動監(jiān)測模型的確定性，從而能夠即時做出是否終止解碼的決策。

早期提交解碼。何時終止解碼循環(huán)的決定可以定義為最優(yōu)停止問題。在每一步，都必須在兩種互相沖突的成本之間權(quán)衡：繼續(xù)執(zhí)行額外細化迭代的計算成本，與因過早決定而可能帶來錯誤的風(fēng)險。計算成本取決于剩余步數(shù)，而錯誤風(fēng)險則與模型的預(yù)測置信度呈負相關(guān)，其中「置信差距」可作為其穩(wěn)健指標(biāo)。

算法 1 概述了完整的 Prophet 解碼過程：

實驗

實驗結(jié)果如表 1 所示。

在通用推理任務(wù)上，Prophet 展現(xiàn)了與完整基線相當(dāng)甚至更優(yōu)的性能。例如，在使用 LLaDA-8B 時，Prophet 在 MMLU 上達到 54.0%，在 ARC-C 上達到 83.5%，兩者在統(tǒng)計上均與完整的 50 步解碼結(jié)果相當(dāng)。

更有趣的是，在 HellaSwag 上，Prophet（70.9%）不僅超過了完整基線（68.7%），還優(yōu)于半步基線（70.5%），這表明早期提交解碼能夠避免模型在后續(xù)帶噪聲的精煉步驟中破壞已正確的預(yù)測。

同樣地，在 Dream-7B 上，Prophet 在各項基準(zhǔn)測試中依然保持了競爭力：在 MMLU 上達到 66.1%，而完整模型為 67.6%，僅有 1.5% 的微小下降，但帶來了 2.47 倍的速度提升。

在更復(fù)雜的數(shù)學(xué)和科學(xué)基準(zhǔn)測試上，Prophet 同樣展現(xiàn)了其可靠性。以 GSM8K 數(shù)據(jù)集為例，基于 LLaDA-8B 的 Prophet 達到 76.8% 的準(zhǔn)確率，幾乎與完整基線的 77.1% 相當(dāng)，并且優(yōu)于半步基線的 76.2%。

總而言之，實證結(jié)果強有力地支持了本文的核心假設(shè)：擴散語言模型往往在最終解碼步驟之前很早就已經(jīng)確定了正確答案。

Prophet 成功利用了這一現(xiàn)象，通過動態(tài)監(jiān)測模型預(yù)測的置信度，一旦答案趨于穩(wěn)定，便立即終止迭代精煉過程，從而在幾乎不影響任務(wù)性能的情況下顯著節(jié)省計算開銷，在某些場景下甚至還能提升表現(xiàn)。這與靜態(tài)截斷方法形成了鮮明對比，后者存在過早終止解碼、從而損害準(zhǔn)確率的風(fēng)險。

因此，Prophet 提供了一種穩(wěn)健且與模型無關(guān)的解決方案，有效加速 DLM 的推理過程，提升了其在實際應(yīng)用中的可行性。

了解更多內(nèi)容，請參考原論文。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.