時令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
什么?有人提出DiT是錯的?
這個被認為是擴散模型領域核心基石的DiT,竟然被質疑了。
這位網友表示,不僅數(shù)學上是錯的,形式上是錯的,甚至懷疑DiT根本就沒有Transformer?!
一石激起千層浪,網友們速速來圍觀。結果作者謝賽寧本人都立馬站出來回應:
- 雖然知道樓主是標題黨,但我還是忍不住要回應一下。
- 每個研究者都希望發(fā)現(xiàn)自己模型的不足,這是科學進步的動力。如果模型從未出錯,反而值得擔憂。
- 評價DiT需要提出假設、做實驗、驗證結果,而不是憑想象臆斷,否則結論不僅可能錯誤,甚至完全不具科學性。
哇哦,先抨擊了標題黨,又強調了科學精神和實證方法的重要性,真的是很中肯的一番回應。
回過頭來,咱先了解一下DiT為啥那么厲害。
要知道,早在Transformer占盡風頭時,U-Net在擴散模型領域仍然一枝獨秀——
這時,DiT(Diffusion Transformers)橫空出世,將Transformer與擴散模型融合,在計算效率和生成效果上均超越了基于U-Net的經典模型ADM和LDM,同時把Transformer擴展到了圖像視頻領域。
如果DiT真錯了,大量依賴DiT的生成模型都要崩塌,整個領域都得重新審視。
下面讓我們來扒一扒這位網友針對DiT提出了哪些質疑。
關于DiT的可疑之處
他的觀點均來源于論文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》。
這篇論文主要提出一種Tread策略,能夠將早期層隨機選取的token傳遞至模型的更深層。
值得注意的是,這種方法并不限于常見的Transformer模型,同樣可以應用于狀態(tài)空間模型,且無需對架構進行修改,也無需引入額外參數(shù)。
那網友是如何通過這篇論文質疑DiT的呢?
其一,他首先借助論文中的一張圖對DiT提出了質疑,認為DiT架構本身就能輕松學會數(shù)據(jù)集——FID迅速降低,這說明架構里有某種隱含特性。
其二,上圖表明Tread模型比DiT在40萬次訓練迭代上快14倍,比DiT在700萬次迭代時的最佳表現(xiàn)快37倍。
由此,這位網友直接抨擊,小幅度提升效果可能只是優(yōu)化,如果提升幅度巨大,就是在否定之前的方法。
其三,質疑者還提出不要使用DiT。
如果你非得在訓練時“切掉部分網絡”,也就是用學習機制把它徹底禁用,那你的網絡基本上就廢了。
其四,研究表示,在訓練過程中,DiT中被恒等替換的網絡單元越多,模型評估反而更好。
其五,DiT整個架構都后置層歸一化,擴散過程會產生動態(tài)范圍極高的實際輸出。
因此,需要使用對數(shù)尺度來表示采樣開始和結束時的信噪比差異。
其六,針對Adaptive Layer Normalization(自適應層歸一化)方法,盡管模型叫DiT,但在處理條件輸入時,只是走了普通的MLP流程。
能看到的只是label_y→timestep_t→embed→conditioning→MLP→bias terms,根本看不到Transformer的任何痕跡。
上面6條對DiT的反駁,都可以說是有理有據(jù),甚至圖文并茂。
那謝賽寧是如何回應的呢?
謝賽寧回應Tread與“DiT是錯的”毫無關系
首先,謝賽寧對Tread模型的工作給予了肯定(人情世故)。
他認為Tread更像是隨機深度(stochastic depth),其能收斂完全是因為正則化對特征穩(wěn)健性的提升。
他還指出,盡管Tread模型挺有趣的,但與原帖作者所謂的“DiT是錯的”的論斷毫無關系。
謝賽寧強調,Lightning DiT作為一種經過驗證的強大升級(采用 swiglu、rmsnorm、rope、ps=1),只要條件允許,都推薦優(yōu)先使用該版本。。
此外,目前還沒有證據(jù)表明后置層歸一化會引發(fā)問題。
回擊完了質疑者,謝賽寧還不忘總結了一下自己的工作。
他表示:
- 過去這一年,最大的改進集中在內部表征學習(internal rep learning)上。
- REPA(Representation Alignment)算是我們最早提出的方法,但現(xiàn)在已經有更多實現(xiàn)方式,比如:tokenizer級別的修正(如va-vae、REPA-E)、將語義token拼接到噪聲潛變量中、解耦架構(如DDT)、正則化方法(如 dispersive loss)或自表征對齊(self-representation alignment)等等。
其次,他們團隊在訓練模型時,始終采用隨機插值/流分配來提升訓練效果,而SiT則被用作基準方法來評估其他方法是否有效。
在DiT中,時間嵌入最好使用adaln-zero,需注意的是,使用adaln-zero時最好共享參數(shù),否則會白白浪費30%參數(shù),而對于更復雜的分布(如文本嵌入),則使用cross-attention。
最后,謝賽寧也是直接提出sd-vae才是DiT真正的癥結所在,處理256×256分辨率的圖像竟需445.87 GFlops,還不是端到端的架構。
目前,像va-vae和repa-e這類方法只能解決部分問題,但更多改進方案正在不斷涌現(xiàn)。
參考鏈接:
[1]https://x.com/sameQCU/status/1957223774094585872
[2]https://x.com/sainingxie/status/1957842855587639369
[3]https://arxiv.org/pdf/2501.04765
[4]https://arxiv.org/abs/2212.09748
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.