網易首頁 > 網易號 > 正文申請入駐

DiT突遭怒噴，謝賽寧淡定回應

2025-08-20 16:04:19　來源: 量子位

北京舉報

分享至

時令發(fā)自凹非寺
量子位 | 公眾號 QbitAI

什么？有人提出DiT是錯的？

這個被認為是擴散模型領域核心基石的DiT，竟然被質疑了。

這位網友表示，不僅數(shù)學上是錯的，形式上是錯的，甚至懷疑DiT根本就沒有Transformer？！

一石激起千層浪，網友們速速來圍觀。結果作者謝賽寧本人都立馬站出來回應：

雖然知道樓主是標題黨，但我還是忍不住要回應一下。
每個研究者都希望發(fā)現(xiàn)自己模型的不足，這是科學進步的動力。如果模型從未出錯，反而值得擔憂。
評價DiT需要提出假設、做實驗、驗證結果，而不是憑想象臆斷，否則結論不僅可能錯誤，甚至完全不具科學性。

哇哦，先抨擊了標題黨，又強調了科學精神和實證方法的重要性，真的是很中肯的一番回應。

回過頭來，咱先了解一下DiT為啥那么厲害。

要知道，早在Transformer占盡風頭時，U-Net在擴散模型領域仍然一枝獨秀——

這時，DiT（Diffusion Transformers）橫空出世，將Transformer與擴散模型融合，在計算效率和生成效果上均超越了基于U-Net的經典模型ADM和LDM，同時把Transformer擴展到了圖像視頻領域。

如果DiT真錯了，大量依賴DiT的生成模型都要崩塌，整個領域都得重新審視。

下面讓我們來扒一扒這位網友針對DiT提出了哪些質疑。

關于DiT的可疑之處

他的觀點均來源于論文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》。

這篇論文主要提出一種Tread策略，能夠將早期層隨機選取的token傳遞至模型的更深層。

值得注意的是，這種方法并不限于常見的Transformer模型，同樣可以應用于狀態(tài)空間模型，且無需對架構進行修改，也無需引入額外參數(shù)。

那網友是如何通過這篇論文質疑DiT的呢？

其一，他首先借助論文中的一張圖對DiT提出了質疑，認為DiT架構本身就能輕松學會數(shù)據(jù)集——FID迅速降低，這說明架構里有某種隱含特性。

其二，上圖表明Tread模型比DiT在40萬次訓練迭代上快14倍，比DiT在700萬次迭代時的最佳表現(xiàn)快37倍。

由此，這位網友直接抨擊，小幅度提升效果可能只是優(yōu)化，如果提升幅度巨大，就是在否定之前的方法。

其三，質疑者還提出不要使用DiT。

如果你非得在訓練時“切掉部分網絡”，也就是用學習機制把它徹底禁用，那你的網絡基本上就廢了。

其四，研究表示，在訓練過程中，DiT中被恒等替換的網絡單元越多，模型評估反而更好。

其五，DiT整個架構都后置層歸一化，擴散過程會產生動態(tài)范圍極高的實際輸出。

因此，需要使用對數(shù)尺度來表示采樣開始和結束時的信噪比差異。

其六，針對Adaptive Layer Normalization（自適應層歸一化）方法，盡管模型叫DiT，但在處理條件輸入時，只是走了普通的MLP流程。

能看到的只是label_y→timestep_t→embed→conditioning→MLP→bias terms，根本看不到Transformer的任何痕跡。

上面6條對DiT的反駁，都可以說是有理有據(jù)，甚至圖文并茂。

那謝賽寧是如何回應的呢？

謝賽寧回應Tread與“DiT是錯的”毫無關系

首先，謝賽寧對Tread模型的工作給予了肯定（人情世故）。

他認為Tread更像是隨機深度（stochastic depth），其能收斂完全是因為正則化對特征穩(wěn)健性的提升。

他還指出，盡管Tread模型挺有趣的，但與原帖作者所謂的“DiT是錯的”的論斷毫無關系。

謝賽寧強調，Lightning DiT作為一種經過驗證的強大升級（采用 swiglu、rmsnorm、rope、ps=1），只要條件允許，都推薦優(yōu)先使用該版本。。

此外，目前還沒有證據(jù)表明后置層歸一化會引發(fā)問題。

回擊完了質疑者，謝賽寧還不忘總結了一下自己的工作。

他表示：

過去這一年，最大的改進集中在內部表征學習（internal rep learning）上。
REPA（Representation Alignment）算是我們最早提出的方法，但現(xiàn)在已經有更多實現(xiàn)方式，比如：tokenizer級別的修正（如va-vae、REPA-E）、將語義token拼接到噪聲潛變量中、解耦架構（如DDT）、正則化方法（如 dispersive loss）或自表征對齊（self-representation alignment）等等。

其次，他們團隊在訓練模型時，始終采用隨機插值/流分配來提升訓練效果，而SiT則被用作基準方法來評估其他方法是否有效。

在DiT中，時間嵌入最好使用adaln-zero，需注意的是，使用adaln-zero時最好共享參數(shù)，否則會白白浪費30%參數(shù)，而對于更復雜的分布（如文本嵌入），則使用cross-attention。

最后，謝賽寧也是直接提出sd-vae才是DiT真正的癥結所在，處理256×256分辨率的圖像竟需445.87 GFlops，還不是端到端的架構。

目前，像va-vae和repa-e這類方法只能解決部分問題，但更多改進方案正在不斷涌現(xiàn)。

參考鏈接：
[1]https://x.com/sameQCU/status/1957223774094585872
[2]https://x.com/sainingxie/status/1957842855587639369
[3]https://arxiv.org/pdf/2501.04765
[4]https://arxiv.org/abs/2212.09748

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.