機器之心報道
編輯:陳萍
隨著擴散語言模型(DLM)在各個領(lǐng)域的快速發(fā)展,其已成為自回歸(AR)模型有力的替代方案。與 AR 模型相比,DLMs 的主要優(yōu)勢包括但不限于:高效的并行解碼和靈活的生成順序。
盡管 DLMs 具有加速潛力,但在實際應(yīng)用中,其推理速度仍慢于 AR 模型,原因在于缺乏 KV-cache 機制,以及快速并行解碼所帶來的顯著性能下降。
本文,來自香港理工大學(xué)、達特茅斯學(xué)院等機構(gòu)的研究者嘗試從一個不同的角度來加速 DLMs 推理,這一思路源于一個長期被忽視卻極具潛力的現(xiàn)象:早期答案收斂
- 論文標(biāo)題:Diffusion Language Models Know the Answer Before Decoding
- 論文地址:https://arxiv.org/pdf/2508.19982
- 項目地址:https://github.com/pixeli99/Prophet
通過深入分析,研究者觀察到:無論是半自回歸重掩碼還是隨機重掩碼場景下,有極高比例的樣本在解碼早期階段即可獲得正確解碼。這一趨勢在隨機重掩碼中尤為顯著,以 GSMK 和 MMLU 數(shù)據(jù)集為例,僅需半數(shù)優(yōu)化步驟即可分別實現(xiàn) 97% 和 99% 的樣本正確解碼。
受此發(fā)現(xiàn)啟發(fā),該研究提出了Prophet,一種無需訓(xùn)練的快速解碼策略,該策略專為利用早期答案收斂特性而設(shè)計。Prophet 通過持續(xù)監(jiān)控解碼過程中 top-2 答案候選之間的置信度差距,自適應(yīng)地判斷是否可安全地一次性解碼剩余所有 token。
實驗表明,該方法在保持高質(zhì)量生成效果的同時,實現(xiàn)了顯著的推理加速(最高達 3.4 倍)。
方法介紹
Prophet 是一種無需訓(xùn)練的快速解碼方法,用來加速擴散語言模型的生成。它的核心思路是:在模型預(yù)測結(jié)果趨于穩(wěn)定時,一次性提交所有剩余 token 并提前生成答案,這一過程被稱為早期提交解碼(Early Commit Decoding)。與傳統(tǒng)的固定步數(shù)解碼不同,Prophet 會在每一步主動監(jiān)測模型的確定性,從而能夠即時做出是否終止解碼的決策。
早期提交解碼。何時終止解碼循環(huán)的決定可以定義為最優(yōu)停止問題。在每一步,都必須在兩種互相沖突的成本之間權(quán)衡:繼續(xù)執(zhí)行額外細化迭代的計算成本,與因過早決定而可能帶來錯誤的風(fēng)險。計算成本取決于剩余步數(shù),而錯誤風(fēng)險則與模型的預(yù)測置信度呈負相關(guān),其中「置信差距」可作為其穩(wěn)健指標(biāo)。
算法 1 概述了完整的 Prophet 解碼過程:
實驗
實驗結(jié)果如表 1 所示。
在通用推理任務(wù)上,Prophet 展現(xiàn)了與完整基線相當(dāng)甚至更優(yōu)的性能。例如,在使用 LLaDA-8B 時,Prophet 在 MMLU 上達到 54.0%,在 ARC-C 上達到 83.5%,兩者在統(tǒng)計上均與完整的 50 步解碼結(jié)果相當(dāng)。
更有趣的是,在 HellaSwag 上,Prophet(70.9%)不僅超過了完整基線(68.7%),還優(yōu)于半步基線(70.5%),這表明早期提交解碼能夠避免模型在后續(xù)帶噪聲的精煉步驟中破壞已正確的預(yù)測。
同樣地,在 Dream-7B 上,Prophet 在各項基準(zhǔn)測試中依然保持了競爭力:在 MMLU 上達到 66.1%,而完整模型為 67.6%,僅有 1.5% 的微小下降,但帶來了 2.47 倍的速度提升。
在更復(fù)雜的數(shù)學(xué)和科學(xué)基準(zhǔn)測試上,Prophet 同樣展現(xiàn)了其可靠性。以 GSM8K 數(shù)據(jù)集為例,基于 LLaDA-8B 的 Prophet 達到 76.8% 的準(zhǔn)確率,幾乎與完整基線的 77.1% 相當(dāng),并且優(yōu)于半步基線的 76.2%。
總而言之,實證結(jié)果強有力地支持了本文的核心假設(shè):擴散語言模型往往在最終解碼步驟之前很早就已經(jīng)確定了正確答案。
Prophet 成功利用了這一現(xiàn)象,通過動態(tài)監(jiān)測模型預(yù)測的置信度,一旦答案趨于穩(wěn)定,便立即終止迭代精煉過程,從而在幾乎不影響任務(wù)性能的情況下顯著節(jié)省計算開銷,在某些場景下甚至還能提升表現(xiàn)。這與靜態(tài)截斷方法形成了鮮明對比,后者存在過早終止解碼、從而損害準(zhǔn)確率的風(fēng)險。
因此,Prophet 提供了一種穩(wěn)健且與模型無關(guān)的解決方案,有效加速 DLM 的推理過程,提升了其在實際應(yīng)用中的可行性。
了解更多內(nèi)容,請參考原論文。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.