KAIST團(tuán)隊推出連續(xù)擴(kuò)散語言模型：告別傳統(tǒng)AI文本生成的跳躍缺陷

2025-08-23 18:35:08　來源: 至頂頭條

北京舉報

分享至

這項由韓國科學(xué)技術(shù)院（KAIST）的趙在亨（Jaehyeong Jo）和黃成柱（Sung Ju Hwang）教授共同領(lǐng)導(dǎo)的研究發(fā)表于2025年2月的預(yù)印本論文中，有興趣深入了解的讀者可以通過GitHub代碼庫https://github.com/harryjo97/RDLM訪問相關(guān)資源。黃成柱教授同時隸屬于DeepAuto.ai公司，這項研究代表了語言生成AI技術(shù)的一個重要突破。

當(dāng)我們使用ChatGPT或其他AI聊天工具時，這些系統(tǒng)通常采用"自回歸"的方式生成文本——就像一個作家必須從左到右、一個字接一個字地寫作一樣。這種方式雖然有效，但存在明顯局限：無法回過頭修改之前的內(nèi)容，也無法并行處理多個部分。近年來，研究人員開始探索"擴(kuò)散模型"這種新方法，它最初在圖像生成領(lǐng)域大放異彩，能夠像藝術(shù)家反復(fù)修改畫作一樣逐步完善生成結(jié)果。

傳統(tǒng)的擴(kuò)散模型在處理文字時遇到了一個根本問題。文字是離散的符號——要么是"貓"，要么是"狗"，中間沒有過渡狀態(tài)。而擴(kuò)散模型的核心優(yōu)勢在于能夠在連續(xù)的空間中進(jìn)行精細(xì)調(diào)整，就像調(diào)色師能在紅色和藍(lán)色之間找到無數(shù)種紫色的變化。當(dāng)這種連續(xù)性遇上文字的離散性時，就產(chǎn)生了矛盾。

現(xiàn)有的離散擴(kuò)散模型試圖直接在文字符號之間進(jìn)行"跳躍"，但這種跳躍一旦發(fā)生就無法撤回，限制了模型的表現(xiàn)。而之前的連續(xù)擴(kuò)散方法雖然試圖解決這個問題，但效果并不理想，遠(yuǎn)不如傳統(tǒng)的自回歸模型或離散擴(kuò)散模型。這就像試圖用水彩畫的技法來寫毛筆字——工具與任務(wù)不匹配。

KAIST研究團(tuán)隊提出的"黎曼擴(kuò)散語言模型"（RDLM）巧妙地解決了這個難題。他們的核心洞察是：雖然文字本身是離散的，但表示這些文字的概率分布卻是連續(xù)的。這就像雖然硬幣的結(jié)果只有正面或反面，但我們可以用連續(xù)的概率值來描述拋出正面的可能性——比如60%的正面概率。

研究團(tuán)隊將每個文字標(biāo)記映射到一個特殊的幾何空間——統(tǒng)計流形上的超球面。這聽起來很抽象，但可以這樣理解：把所有可能的文字選擇想象成球面上的點，每個點代表一個詞匯的概率分布。這樣，原本離散的文字跳躍就轉(zhuǎn)化為球面上的平滑移動，就像從地球的一個城市沿著大圓弧線平滑地移動到另一個城市。

在這個框架下，生成文字的過程變成了在球面上的優(yōu)雅"旅行"。模型從一個表示"不確定狀態(tài)"的起始點開始，逐步向目標(biāo)文字對應(yīng)的點移動。這種移動不是突然的跳躍，而是連續(xù)的、可控的過程，就像GPS導(dǎo)航中的路徑規(guī)劃一樣精確而平滑。

更巧妙的是，研究團(tuán)隊發(fā)現(xiàn)了離散擴(kuò)散模型和連續(xù)流動之間的深層聯(lián)系。他們證明了傳統(tǒng)離散擴(kuò)散的轉(zhuǎn)移分布實際上可以用統(tǒng)計流形上的概率路徑來建模。這個發(fā)現(xiàn)就像發(fā)現(xiàn)了兩種看似不同的語言實際上有共同的語法結(jié)構(gòu)，為統(tǒng)一這兩種方法提供了理論基礎(chǔ)。

為了讓這個方法在實際中可行，研究團(tuán)隊開發(fā)了一套基于"徑向?qū)ΨQ性"的無仿真訓(xùn)練框架。傳統(tǒng)方法需要通過復(fù)雜的數(shù)值模擬來訓(xùn)練模型，就像要親自走遍每條路才能制作地圖。而新方法利用球面的對稱性質(zhì)，可以通過分析投影過程來近似這些復(fù)雜的分布，大大降低了計算成本，實現(xiàn)了50倍的訓(xùn)練加速。

針對大詞匯量帶來的高維度挑戰(zhàn)，研究團(tuán)隊引入了"維度分割"技術(shù)。當(dāng)詞匯表過大時，對應(yīng)的幾何空間維度會變得非常高，導(dǎo)致模型難以訓(xùn)練。維度分割將高維空間巧妙地分解為多個低維空間的組合，就像將一個復(fù)雜的立體拼圖分解為多個簡單的平面拼圖，每個都更容易處理。

在實際應(yīng)用中，RDLM展現(xiàn)了強(qiáng)大的性能。在Text8字符級語言建模任務(wù)中，該模型達(dá)到了1.32的比特每字符（BPC）分?jǐn)?shù)，超越了所有現(xiàn)有的擴(kuò)散模型，甚至接近了最先進(jìn)的自回歸模型的性能。在更具挑戰(zhàn)性的One Billion Words數(shù)據(jù)集上，RDLM實現(xiàn)了29.72的困惑度分?jǐn)?shù)，顯著優(yōu)于之前的連續(xù)擴(kuò)散方法。

研究團(tuán)隊還將這個框架擴(kuò)展到了其他領(lǐng)域。在像素級圖像建模中，RDLM在CIFAR-10數(shù)據(jù)集上達(dá)到了2.74的比特每維度分?jǐn)?shù)，超越了離散擴(kuò)散模型和自回歸模型。在生物序列設(shè)計任務(wù)中，該模型在DNA啟動子序列生成中實現(xiàn)了0.027的最低均方誤差，展現(xiàn)了跨領(lǐng)域的適用性。

特別值得注意的是，RDLM支持混合路徑技術(shù)。研究團(tuán)隊發(fā)現(xiàn)，遮掩擴(kuò)散（從遮掩狀態(tài)開始）和均勻擴(kuò)散（從均勻分布開始）各有優(yōu)勢：前者在后期階段表現(xiàn)更好，后者在早期階段更優(yōu)。通過智能地混合這兩種路徑，模型能夠在整個生成過程中保持最佳性能，就像一個經(jīng)驗豐富的廚師知道何時使用不同的烹飪技法。

從技術(shù)實現(xiàn)角度看，RDLM使用了基于交叉熵的訓(xùn)練目標(biāo)，這比傳統(tǒng)的均方誤差方法收斂更快，性能更好。研究團(tuán)隊還引入了重要性采樣技術(shù)，讓模型在訓(xùn)練過程中更關(guān)注那些困難的時間點，提高了整體效果。

這項研究的意義不僅在于技術(shù)突破，更在于為語言生成AI的發(fā)展開辟了新方向。傳統(tǒng)自回歸模型的串行生成方式限制了并行化處理的可能性，而RDLM的并行生成特性為更快、更靈活的文本生成鋪平了道路。同時，連續(xù)空間的特性也為可控文本生成提供了新的可能性——用戶可能能夠更精細(xì)地調(diào)節(jié)生成內(nèi)容的風(fēng)格和特征。

當(dāng)然，這項研究也面臨一些挑戰(zhàn)。高維度空間的處理仍然是一個技術(shù)難題，盡管維度分割提供了解決方案，但在超大詞匯量的實際應(yīng)用中仍需要進(jìn)一步優(yōu)化。另外，雖然理論框架很優(yōu)雅，但在實際部署中的計算效率和資源消耗還需要更多驗證。

展望未來，RDLM為多個研究方向提供了基礎(chǔ)。研究團(tuán)隊建議可以探索將該框架擴(kuò)展到圖生成、分子合成等其他離散數(shù)據(jù)領(lǐng)域。同時，通過控制噪聲調(diào)度，可能實現(xiàn)類似自回歸的有序生成模式，結(jié)合兩種方法的優(yōu)勢。

總的來說，這項研究代表了語言生成AI領(lǐng)域的一個重要進(jìn)展。通過巧妙地結(jié)合幾何學(xué)、概率論和深度學(xué)習(xí)，KAIST研究團(tuán)隊不僅解決了離散數(shù)據(jù)連續(xù)建模的技術(shù)難題，還為未來的AI文本生成技術(shù)提供了新的理論基礎(chǔ)和實用方法。對于普通用戶而言，這意味著未來的AI寫作助手可能會變得更快、更靈活，能夠更好地理解和響應(yīng)復(fù)雜的創(chuàng)作需求。

Q&A

Q1：什么是黎曼擴(kuò)散語言模型？它與傳統(tǒng)AI寫作工具有什么不同？

A：黎曼擴(kuò)散語言模型（RDLM）是KAIST開發(fā)的一種新型AI文本生成技術(shù)。與傳統(tǒng)AI工具逐字生成文本不同，RDLM將文字映射到幾何空間中，通過連續(xù)的、可控的"路徑規(guī)劃"來生成文本，就像在球面上平滑移動而不是跳躍。這使得它能夠并行處理多個部分，生成質(zhì)量更高，速度也更快。

Q2：RDLM的維度分割技術(shù)解決了什么問題？

A：當(dāng)詞匯表很大時，對應(yīng)的幾何空間維度會變得極高，導(dǎo)致模型訓(xùn)練困難。維度分割技術(shù)將高維空間分解為多個低維空間的組合，就像把復(fù)雜的立體拼圖分解為多個簡單的平面拼圖。這樣每個部分都更容易處理，大大提高了模型在大詞匯量任務(wù)中的表現(xiàn)。

Q3：普通用戶什么時候能用上這種技術(shù)？

A：目前RDLM還處于研究階段，代碼已在GitHub開源供研究人員使用。要成為普通用戶可以直接使用的產(chǎn)品，還需要進(jìn)一步優(yōu)化計算效率和用戶界面開發(fā)。不過考慮到其在多個測試中的優(yōu)異表現(xiàn)，預(yù)計未來2-3年內(nèi)可能會集成到商業(yè)AI寫作工具中。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.