這項由韓國科學(xué)技術(shù)院(KAIST)的趙在亨(Jaehyeong Jo)和黃成柱(Sung Ju Hwang)教授共同領(lǐng)導(dǎo)的研究發(fā)表于2025年2月的預(yù)印本論文中,有興趣深入了解的讀者可以通過GitHub代碼庫https://github.com/harryjo97/RDLM訪問相關(guān)資源。黃成柱教授同時隸屬于DeepAuto.ai公司,這項研究代表了語言生成AI技術(shù)的一個重要突破。
當(dāng)我們使用ChatGPT或其他AI聊天工具時,這些系統(tǒng)通常采用"自回歸"的方式生成文本——就像一個作家必須從左到右、一個字接一個字地寫作一樣。這種方式雖然有效,但存在明顯局限:無法回過頭修改之前的內(nèi)容,也無法并行處理多個部分。近年來,研究人員開始探索"擴(kuò)散模型"這種新方法,它最初在圖像生成領(lǐng)域大放異彩,能夠像藝術(shù)家反復(fù)修改畫作一樣逐步完善生成結(jié)果。
傳統(tǒng)的擴(kuò)散模型在處理文字時遇到了一個根本問題。文字是離散的符號——要么是"貓",要么是"狗",中間沒有過渡狀態(tài)。而擴(kuò)散模型的核心優(yōu)勢在于能夠在連續(xù)的空間中進(jìn)行精細(xì)調(diào)整,就像調(diào)色師能在紅色和藍(lán)色之間找到無數(shù)種紫色的變化。當(dāng)這種連續(xù)性遇上文字的離散性時,就產(chǎn)生了矛盾。
現(xiàn)有的離散擴(kuò)散模型試圖直接在文字符號之間進(jìn)行"跳躍",但這種跳躍一旦發(fā)生就無法撤回,限制了模型的表現(xiàn)。而之前的連續(xù)擴(kuò)散方法雖然試圖解決這個問題,但效果并不理想,遠(yuǎn)不如傳統(tǒng)的自回歸模型或離散擴(kuò)散模型。這就像試圖用水彩畫的技法來寫毛筆字——工具與任務(wù)不匹配。
KAIST研究團(tuán)隊提出的"黎曼擴(kuò)散語言模型"(RDLM)巧妙地解決了這個難題。他們的核心洞察是:雖然文字本身是離散的,但表示這些文字的概率分布卻是連續(xù)的。這就像雖然硬幣的結(jié)果只有正面或反面,但我們可以用連續(xù)的概率值來描述拋出正面的可能性——比如60%的正面概率。
研究團(tuán)隊將每個文字標(biāo)記映射到一個特殊的幾何空間——統(tǒng)計流形上的超球面。這聽起來很抽象,但可以這樣理解:把所有可能的文字選擇想象成球面上的點,每個點代表一個詞匯的概率分布。這樣,原本離散的文字跳躍就轉(zhuǎn)化為球面上的平滑移動,就像從地球的一個城市沿著大圓弧線平滑地移動到另一個城市。
在這個框架下,生成文字的過程變成了在球面上的優(yōu)雅"旅行"。模型從一個表示"不確定狀態(tài)"的起始點開始,逐步向目標(biāo)文字對應(yīng)的點移動。這種移動不是突然的跳躍,而是連續(xù)的、可控的過程,就像GPS導(dǎo)航中的路徑規(guī)劃一樣精確而平滑。
更巧妙的是,研究團(tuán)隊發(fā)現(xiàn)了離散擴(kuò)散模型和連續(xù)流動之間的深層聯(lián)系。他們證明了傳統(tǒng)離散擴(kuò)散的轉(zhuǎn)移分布實際上可以用統(tǒng)計流形上的概率路徑來建模。這個發(fā)現(xiàn)就像發(fā)現(xiàn)了兩種看似不同的語言實際上有共同的語法結(jié)構(gòu),為統(tǒng)一這兩種方法提供了理論基礎(chǔ)。
為了讓這個方法在實際中可行,研究團(tuán)隊開發(fā)了一套基于"徑向?qū)ΨQ性"的無仿真訓(xùn)練框架。傳統(tǒng)方法需要通過復(fù)雜的數(shù)值模擬來訓(xùn)練模型,就像要親自走遍每條路才能制作地圖。而新方法利用球面的對稱性質(zhì),可以通過分析投影過程來近似這些復(fù)雜的分布,大大降低了計算成本,實現(xiàn)了50倍的訓(xùn)練加速。
針對大詞匯量帶來的高維度挑戰(zhàn),研究團(tuán)隊引入了"維度分割"技術(shù)。當(dāng)詞匯表過大時,對應(yīng)的幾何空間維度會變得非常高,導(dǎo)致模型難以訓(xùn)練。維度分割將高維空間巧妙地分解為多個低維空間的組合,就像將一個復(fù)雜的立體拼圖分解為多個簡單的平面拼圖,每個都更容易處理。
在實際應(yīng)用中,RDLM展現(xiàn)了強(qiáng)大的性能。在Text8字符級語言建模任務(wù)中,該模型達(dá)到了1.32的比特每字符(BPC)分?jǐn)?shù),超越了所有現(xiàn)有的擴(kuò)散模型,甚至接近了最先進(jìn)的自回歸模型的性能。在更具挑戰(zhàn)性的One Billion Words數(shù)據(jù)集上,RDLM實現(xiàn)了29.72的困惑度分?jǐn)?shù),顯著優(yōu)于之前的連續(xù)擴(kuò)散方法。
研究團(tuán)隊還將這個框架擴(kuò)展到了其他領(lǐng)域。在像素級圖像建模中,RDLM在CIFAR-10數(shù)據(jù)集上達(dá)到了2.74的比特每維度分?jǐn)?shù),超越了離散擴(kuò)散模型和自回歸模型。在生物序列設(shè)計任務(wù)中,該模型在DNA啟動子序列生成中實現(xiàn)了0.027的最低均方誤差,展現(xiàn)了跨領(lǐng)域的適用性。
特別值得注意的是,RDLM支持混合路徑技術(shù)。研究團(tuán)隊發(fā)現(xiàn),遮掩擴(kuò)散(從遮掩狀態(tài)開始)和均勻擴(kuò)散(從均勻分布開始)各有優(yōu)勢:前者在后期階段表現(xiàn)更好,后者在早期階段更優(yōu)。通過智能地混合這兩種路徑,模型能夠在整個生成過程中保持最佳性能,就像一個經(jīng)驗豐富的廚師知道何時使用不同的烹飪技法。
從技術(shù)實現(xiàn)角度看,RDLM使用了基于交叉熵的訓(xùn)練目標(biāo),這比傳統(tǒng)的均方誤差方法收斂更快,性能更好。研究團(tuán)隊還引入了重要性采樣技術(shù),讓模型在訓(xùn)練過程中更關(guān)注那些困難的時間點,提高了整體效果。
這項研究的意義不僅在于技術(shù)突破,更在于為語言生成AI的發(fā)展開辟了新方向。傳統(tǒng)自回歸模型的串行生成方式限制了并行化處理的可能性,而RDLM的并行生成特性為更快、更靈活的文本生成鋪平了道路。同時,連續(xù)空間的特性也為可控文本生成提供了新的可能性——用戶可能能夠更精細(xì)地調(diào)節(jié)生成內(nèi)容的風(fēng)格和特征。
當(dāng)然,這項研究也面臨一些挑戰(zhàn)。高維度空間的處理仍然是一個技術(shù)難題,盡管維度分割提供了解決方案,但在超大詞匯量的實際應(yīng)用中仍需要進(jìn)一步優(yōu)化。另外,雖然理論框架很優(yōu)雅,但在實際部署中的計算效率和資源消耗還需要更多驗證。
展望未來,RDLM為多個研究方向提供了基礎(chǔ)。研究團(tuán)隊建議可以探索將該框架擴(kuò)展到圖生成、分子合成等其他離散數(shù)據(jù)領(lǐng)域。同時,通過控制噪聲調(diào)度,可能實現(xiàn)類似自回歸的有序生成模式,結(jié)合兩種方法的優(yōu)勢。
總的來說,這項研究代表了語言生成AI領(lǐng)域的一個重要進(jìn)展。通過巧妙地結(jié)合幾何學(xué)、概率論和深度學(xué)習(xí),KAIST研究團(tuán)隊不僅解決了離散數(shù)據(jù)連續(xù)建模的技術(shù)難題,還為未來的AI文本生成技術(shù)提供了新的理論基礎(chǔ)和實用方法。對于普通用戶而言,這意味著未來的AI寫作助手可能會變得更快、更靈活,能夠更好地理解和響應(yīng)復(fù)雜的創(chuàng)作需求。
Q&A
Q1:什么是黎曼擴(kuò)散語言模型?它與傳統(tǒng)AI寫作工具有什么不同?
A:黎曼擴(kuò)散語言模型(RDLM)是KAIST開發(fā)的一種新型AI文本生成技術(shù)。與傳統(tǒng)AI工具逐字生成文本不同,RDLM將文字映射到幾何空間中,通過連續(xù)的、可控的"路徑規(guī)劃"來生成文本,就像在球面上平滑移動而不是跳躍。這使得它能夠并行處理多個部分,生成質(zhì)量更高,速度也更快。
Q2:RDLM的維度分割技術(shù)解決了什么問題?
A:當(dāng)詞匯表很大時,對應(yīng)的幾何空間維度會變得極高,導(dǎo)致模型訓(xùn)練困難。維度分割技術(shù)將高維空間分解為多個低維空間的組合,就像把復(fù)雜的立體拼圖分解為多個簡單的平面拼圖。這樣每個部分都更容易處理,大大提高了模型在大詞匯量任務(wù)中的表現(xiàn)。
Q3:普通用戶什么時候能用上這種技術(shù)?
A:目前RDLM還處于研究階段,代碼已在GitHub開源供研究人員使用。要成為普通用戶可以直接使用的產(chǎn)品,還需要進(jìn)一步優(yōu)化計算效率和用戶界面開發(fā)。不過考慮到其在多個測試中的優(yōu)異表現(xiàn),預(yù)計未來2-3年內(nèi)可能會集成到商業(yè)AI寫作工具中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.