成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網易首頁 > 網易號 > 正文 申請入駐

DiT突遭怒噴,謝賽寧淡定回應

0
分享至

時令 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

什么?有人提出DiT是錯的?



這個被認為是擴散模型領域核心基石的DiT,竟然被質疑了。

這位網友表示,不僅數(shù)學上是錯的,形式上是錯的,甚至懷疑DiT根本就沒有Transformer?!



一石激起千層浪,網友們速速來圍觀。結果作者謝賽寧本人都立馬站出來回應:

  • 雖然知道樓主是標題黨,但我還是忍不住要回應一下。
  • 每個研究者都希望發(fā)現(xiàn)自己模型的不足,這是科學進步的動力。如果模型從未出錯,反而值得擔憂。
  • 評價DiT需要提出假設、做實驗、驗證結果,而不是憑想象臆斷,否則結論不僅可能錯誤,甚至完全不具科學性。



哇哦,先抨擊了標題黨,又強調了科學精神和實證方法的重要性,真的是很中肯的一番回應。

回過頭來,咱先了解一下DiT為啥那么厲害。

要知道,早在Transformer占盡風頭時,U-Net在擴散模型領域仍然一枝獨秀——

這時,DiT(Diffusion Transformers)橫空出世,將Transformer與擴散模型融合,在計算效率和生成效果上均超越了基于U-Net的經典模型ADM和LDM,同時把Transformer擴展到了圖像視頻領域。

如果DiT真錯了,大量依賴DiT的生成模型都要崩塌,整個領域都得重新審視。

下面讓我們來扒一扒這位網友針對DiT提出了哪些質疑。

關于DiT的可疑之處

他的觀點均來源于論文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》。

這篇論文主要提出一種Tread策略,能夠將早期層隨機選取的token傳遞至模型的更深層。

值得注意的是,這種方法并不限于常見的Transformer模型,同樣可以應用于狀態(tài)空間模型,且無需對架構進行修改,也無需引入額外參數(shù)。

那網友是如何通過這篇論文質疑DiT的呢?

其一,他首先借助論文中的一張圖對DiT提出了質疑,認為DiT架構本身就能輕松學會數(shù)據(jù)集——FID迅速降低,這說明架構里有某種隱含特性。



其二,上圖表明Tread模型比DiT在40萬次訓練迭代上快14倍,比DiT在700萬次迭代時的最佳表現(xiàn)快37倍。

由此,這位網友直接抨擊,小幅度提升效果可能只是優(yōu)化,如果提升幅度巨大,就是在否定之前的方法。

其三,質疑者還提出不要使用DiT。

如果你非得在訓練時“切掉部分網絡”,也就是用學習機制把它徹底禁用,那你的網絡基本上就廢了。



其四,研究表示,在訓練過程中,DiT中被恒等替換的網絡單元越多,模型評估反而更好。



其五,DiT整個架構都后置層歸一化,擴散過程會產生動態(tài)范圍極高的實際輸出。

因此,需要使用對數(shù)尺度來表示采樣開始和結束時的信噪比差異。



其六,針對Adaptive Layer Normalization(自適應層歸一化)方法,盡管模型叫DiT,但在處理條件輸入時,只是走了普通的MLP流程。

能看到的只是label_y→timestep_t→embed→conditioning→MLP→bias terms,根本看不到Transformer的任何痕跡。



上面6條對DiT的反駁,都可以說是有理有據(jù),甚至圖文并茂。

那謝賽寧是如何回應的呢?

謝賽寧回應Tread與“DiT是錯的”毫無關系

首先,謝賽寧對Tread模型的工作給予了肯定(人情世故)。

他認為Tread更像是隨機深度(stochastic depth),其能收斂完全是因為正則化對特征穩(wěn)健性的提升。

他還指出,盡管Tread模型挺有趣的,但與原帖作者所謂的“DiT是錯的”的論斷毫無關系。

謝賽寧強調,Lightning DiT作為一種經過驗證的強大升級(采用 swiglu、rmsnorm、rope、ps=1),只要條件允許,都推薦優(yōu)先使用該版本。。

此外,目前還沒有證據(jù)表明后置層歸一化會引發(fā)問題。

回擊完了質疑者,謝賽寧還不忘總結了一下自己的工作。

他表示:

  • 過去這一年,最大的改進集中在內部表征學習(internal rep learning)上。
  • REPA(Representation Alignment)算是我們最早提出的方法,但現(xiàn)在已經有更多實現(xiàn)方式,比如:tokenizer級別的修正(如va-vae、REPA-E)、將語義token拼接到噪聲潛變量中、解耦架構(如DDT)、正則化方法(如 dispersive loss)或自表征對齊(self-representation alignment)等等。

其次,他們團隊在訓練模型時,始終采用隨機插值/流分配來提升訓練效果,而SiT則被用作基準方法來評估其他方法是否有效。

在DiT中,時間嵌入最好使用adaln-zero,需注意的是,使用adaln-zero時最好共享參數(shù),否則會白白浪費30%參數(shù),而對于更復雜的分布(如文本嵌入),則使用cross-attention。

最后,謝賽寧也是直接提出sd-vae才是DiT真正的癥結所在,處理256×256分辨率的圖像竟需445.87 GFlops,還不是端到端的架構。

目前,像va-vae和repa-e這類方法只能解決部分問題,但更多改進方案正在不斷涌現(xiàn)。

參考鏈接:
[1]https://x.com/sameQCU/status/1957223774094585872
[2]https://x.com/sainingxie/status/1957842855587639369
[3]https://arxiv.org/pdf/2501.04765
[4]https://arxiv.org/abs/2212.09748

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
舔狗經濟崩塌,性蕭條時代來臨,2025年的七夕慘淡收場

舔狗經濟崩塌,性蕭條時代來臨,2025年的七夕慘淡收場

花心電影
2025-08-31 10:55:26
一夜之間,上海女子晨跑不穿內衣沖上熱搜!評論兩極分化 吵翻天了

一夜之間,上海女子晨跑不穿內衣沖上熱搜!評論兩極分化 吵翻天了

小蜜情感說
2025-08-31 10:58:11
89歲謝賢給兒子慶生,摘掉墨鏡認不出,眼小沒牙,和狄波拉像父女

89歲謝賢給兒子慶生,摘掉墨鏡認不出,眼小沒牙,和狄波拉像父女

心靜物娛
2025-08-31 10:07:41
淚流滿面!網傳河南一企業(yè)通知為全員交社保,員工稱養(yǎng)老有保障了

淚流滿面!網傳河南一企業(yè)通知為全員交社保,員工稱養(yǎng)老有保障了

火山詩話
2025-08-31 19:07:42
華為再次官降:8月31日,全面降價

華為再次官降:8月31日,全面降價

科技堡壘
2025-08-31 13:29:02
緊急提醒!明天,廣州人請?zhí)崆?小時出門!

緊急提醒!明天,廣州人請?zhí)崆?小時出門!

羊城攻略
2025-08-31 11:58:49
美媒:特朗普取消特勤局對哈里斯的保護,加州公路巡警將接管其安保工作

美媒:特朗普取消特勤局對哈里斯的保護,加州公路巡警將接管其安保工作

環(huán)球網資訊
2025-08-31 17:23:44
胡塞武裝“總理”等軍政高層被以色列團滅,有些人不高興了

胡塞武裝“總理”等軍政高層被以色列團滅,有些人不高興了

山河路口
2025-08-31 13:41:57
為啥低學歷的郭德綱知識儲備很豐富?網友:類似的高曉松也這樣

為啥低學歷的郭德綱知識儲備很豐富?網友:類似的高曉松也這樣

解讀熱點事件
2025-08-31 00:15:03
樊振東德甲首秀遭遇“開門黑”,首度亮相2比3不敵魯伊斯

樊振東德甲首秀遭遇“開門黑”,首度亮相2比3不敵魯伊斯

澎湃新聞
2025-08-31 20:48:30
成都車展上演黑色幽默!一群身穿黑衣拿黑傘和黑布的人預演防維權

成都車展上演黑色幽默!一群身穿黑衣拿黑傘和黑布的人預演防維權

火山詩話
2025-08-31 05:31:58
8月31日俄烏最新:包圍圈合攏

8月31日俄烏最新:包圍圈合攏

西樓飲月
2025-08-31 19:45:50
娃哈哈宗澤后認親突變,103歲老母一錘定音,宗馥莉繼承穩(wěn)坐

娃哈哈宗澤后認親突變,103歲老母一錘定音,宗馥莉繼承穩(wěn)坐

花心電影
2025-08-30 21:23:30
貴陽一700年古樹砸扁“寶馬”,現(xiàn)場慘不忍睹,林業(yè)局:車主他也有錯

貴陽一700年古樹砸扁“寶馬”,現(xiàn)場慘不忍睹,林業(yè)局:車主他也有錯

瀟湘晨報
2025-08-31 14:14:24
南美雙雄!巴西和阿根廷連續(xù)兩屆美洲杯會師決賽

南美雙雄!巴西和阿根廷連續(xù)兩屆美洲杯會師決賽

直播吧
2025-08-31 10:22:46
清華2025屆共4000名新生,其中高考統(tǒng)招僅1885人,占比不到一半

清華2025屆共4000名新生,其中高考統(tǒng)招僅1885人,占比不到一半

小蘿卜絲
2025-08-31 09:55:45
車企“大退場”!23家缺席成都車展

車企“大退場”!23家缺席成都車展

國際金融報
2025-08-29 13:52:22
披國旗沖線卻因作弊被取消成績,這是為國爭光還是抹黑?

披國旗沖線卻因作弊被取消成績,這是為國爭光還是抹黑?

歷史總在押韻
2025-08-30 23:53:04
三鎮(zhèn)1-0絕殺申花,圖多列制勝球,紹爾助攻,阿蘇埃兩球被吹

三鎮(zhèn)1-0絕殺申花,圖多列制勝球,紹爾助攻,阿蘇埃兩球被吹

懂球帝
2025-08-31 21:14:15
虧損8.5億,《蛟龍行動》成年度最大票房慘案,于冬虧到懷疑人生

虧損8.5億,《蛟龍行動》成年度最大票房慘案,于冬虧到懷疑人生

電影票房預告片
2025-08-31 18:44:28
2025-08-31 22:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11216文章數(shù) 176256關注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會了

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會了

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預售煥新11.28萬起

態(tài)度原創(chuàng)

游戲
家居
房產
旅游
軍事航空

絕地潛兵2運營被噴 Xbox幾十萬玩家涌入仍未扭轉戰(zhàn)局

家居要聞

提升功能 靈活居住環(huán)境

房產要聞

顛覆認知!??谡嬲暮勒髌?,終于出現(xiàn)了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

哈馬斯證實其軍事領導人辛瓦爾已死亡

無障礙瀏覽 進入關懷版