成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DiT在數(shù)學(xué)和形式上是錯(cuò)的?謝賽寧回應(yīng):不要在腦子里做科學(xué)

0
分享至



機(jī)器之心報(bào)道

編輯:冷貓,+0

「兄弟們,DiT 是錯(cuò)的!」

最近一篇帖子在 X 上引發(fā)了很大的討論,有博主表示 DiT 存在架構(gòu)上的缺陷,并附上一張論文截圖。



圖 1. 我們引入了 TREAD,這是一種能夠顯著提升基于 token 的擴(kuò)散模型骨干網(wǎng)絡(luò)訓(xùn)練效率的訓(xùn)練策略。當(dāng)應(yīng)用于標(biāo)準(zhǔn)的 DiT 骨干網(wǎng)絡(luò)時(shí),我們?cè)跓o引導(dǎo) FID 指標(biāo)上實(shí)現(xiàn)了 14/37 倍的訓(xùn)練速度提升,同時(shí)也收斂到了更好的生成質(zhì)量。

圖中橫軸代表訓(xùn)練時(shí)間(以 A100 GPU 的小時(shí)數(shù)為單位,log 尺度,從 100 小時(shí)到 10000 小時(shí)),縱軸代表 FID 分?jǐn)?shù)(越低越好,代表生成圖像質(zhì)量越高)。

博主認(rèn)為,這個(gè)圖的核心信息不是 TREAD 的速度優(yōu)勢(shì),而是DiT 的 FID 過早穩(wěn)定,暗示 DiT 可能存在「隱性架構(gòu)缺陷」,導(dǎo)致其無法繼續(xù)從數(shù)據(jù)中學(xué)習(xí)



博主提到的論文發(fā)表于今年 1 月(3 月更新 v2),介紹了一種名為TREAD的新方法,該工作通過一種創(chuàng)新的「令牌路由」(token routing)機(jī)制,在不改變模型架構(gòu)的情況下,極大地提升了訓(xùn)練效率和生成圖像的質(zhì)量,從而在速度和性能上都顯著超越了 DiT 模型

具體而言,TREAD 在訓(xùn)練過程中使用「部分令牌集」(partial token set) vs 「完整令牌集」(full token set),通過預(yù)定義路由保存信息并重新引入到更深層,跳過部分計(jì)算以減少成本,同時(shí)僅用于訓(xùn)練階段,推理時(shí)仍采用標(biāo)準(zhǔn)設(shè)置。這與 MaskDiT 等方法類似,但更高效。



  • 論文標(biāo)題:TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training
  • 論文地址:https://arxiv.org/abs/2501.04765
  • 代碼:https://github.com/CompVis/tread

博主在后續(xù)回復(fù)中逐步展開了對(duì) DiT 的批判,并解釋 TREAD 如何暴露這些問題。

博主指出,該論文揭示了 DiT 模型的設(shè)計(jì)缺陷。具體來說,研究發(fā)現(xiàn)在訓(xùn)練過程中,如果將模型中的一部分計(jì)算單元替換為「恒等函數(shù)」(Identity Function)——也就是讓這些單元什么計(jì)算都不做,僅僅是「直通」數(shù)據(jù),相當(dāng)于被臨時(shí)禁用了—— 模型的最終評(píng)估分?jǐn)?shù)反而會(huì)提高。



接著博主指出 DiT 的兩個(gè)「可疑」的設(shè)計(jì):

  • 整個(gè)架構(gòu)都使用「后層歸一化」(Post-LayerNorm)



博主認(rèn)為 DiT 使用了一種已知不太穩(wěn)定的技術(shù)(后層歸一化),來處理一個(gè)數(shù)值范圍變化極其劇烈的任務(wù)(擴(kuò)散過程)。

  • adaLN-zero



博主認(rèn)為,這個(gè)模型雖然整體上自稱是「Transformer」架構(gòu),但在處理最關(guān)鍵的「指導(dǎo)信息」(即條件數(shù)據(jù))時(shí),并沒有使用強(qiáng)大的 Transformer,而是用了一個(gè)非常簡單的 MLP 網(wǎng)絡(luò)(多層感知機(jī))。

更具體地,adaLN-zero 通過完全覆蓋注意力單元的輸入,并注入任意偏置來覆蓋輸出,這限制了模型的表達(dá)能力,相當(dāng)于「討厭注意力操作」(hate the attention operation),從而削弱了 DiT 的整體潛力。



博主還提到與早期論文相關(guān)的 LayerNorm 研究,指出 LayerNorm 的偏置和增益參數(shù)可能對(duì)梯度調(diào)整影響更大,而非真正改善模型性能。他認(rèn)為,adaLN-zero 正是利用了這一點(diǎn),名為「梯度調(diào)節(jié)」,實(shí)則像是在「給小模型偷偷注入過擬合的偏置」。



  • 論文標(biāo)題:Understanding and Improving Layer Normalization
  • 論文地址:https://arxiv.org/abs/1911.07013

看了這篇帖子,DiT 的作者,紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授謝賽寧有些忍不住了。

在 2022 年,謝賽寧發(fā)表了 DiT 的論文,這是擴(kuò)散模式首次和 Transformer 相結(jié)合。



  • 論文標(biāo)題:Scalable Diffusion Models with Transformers
  • 論文鏈接:https://arxiv.org/pdf/2212.09748

在 DiT 問世之后,Transformer 逐步代替原始擴(kuò)散模型中的 U-Net,在圖像和視頻生成任務(wù)中生成高質(zhì)量的結(jié)果。

其核心思想是采用 Transformer 代替?zhèn)鹘y(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)作為擴(kuò)散模型的主干網(wǎng)絡(luò)。



這一方法業(yè)已成為 Sora 和 Stable Diffusion 3 的基礎(chǔ)架構(gòu),同時(shí)也確定了 DiT 的學(xué)術(shù)地位。

在 DiT 論文剛剛問世時(shí),就已接連受到質(zhì)疑,甚至以「缺乏創(chuàng)新」為由被 CVPR 2023 拒稿。

這一次面對(duì) DiT 在數(shù)學(xué)和形式上都「是錯(cuò)的」的論調(diào),謝賽寧發(fā)推做出了幾點(diǎn)回應(yīng)。



從字里行間來看,謝賽寧對(duì)這個(gè)帖子多少有些情緒

我知道原帖是在釣魚騙點(diǎn)擊率,但我還是咬一下鉤……

坦白講,每個(gè)研究者的夢(mèng)想其實(shí)就是發(fā)現(xiàn)自己的架構(gòu)是錯(cuò)的。如果它永遠(yuǎn)都沒問題,那才是真正的大問題。

我們每天都在用 SiT、REPA、REPA-E 等方法試圖打破 DiT,但這需要基于假設(shè)、做實(shí)驗(yàn)、進(jìn)行驗(yàn)證,而不是只在腦子里扮演式地做科學(xué)…… 否則,你得出的結(jié)論不僅僅是錯(cuò)的,而是根本連錯(cuò)都談不上

也難怪謝賽寧語氣有些不善,原帖博主的一些說法可能有些拱火的嫌疑:





謝賽寧也從技術(shù)角度對(duì)于原帖子提出的一些問題進(jìn)行了回復(fù),在對(duì)原帖的部分問題進(jìn)行了反駁后,他也同樣說明了 DiT 架構(gòu)目前存在一些硬傷。

截至今天,DiT 的問題:

  • tread 更接近于 stochastic depth,我認(rèn)為它的收斂性來自正則化效應(yīng),這讓表示能力更強(qiáng)(注意推理過程是標(biāo)準(zhǔn)的 —— 所有模塊都會(huì)處理所有 token);這是非常有意思的工作,但和原帖說的完全不是一回事
  • Lightning DiT 已經(jīng)是經(jīng)過驗(yàn)證的穩(wěn)健升級(jí)版(結(jié)合了 swiglu、rmsnorm、rope、patch size=1),有條件就應(yīng)該優(yōu)先使用它。
  • 沒有任何證據(jù)表明 post-norm 會(huì)帶來負(fù)面影響。
  • 過去一年最大的改進(jìn)點(diǎn)在于內(nèi)部表示學(xué)習(xí):最早是 REPA,但現(xiàn)在有很多方法(例如 tokenizer 層面的修正:VA-VAE / REPA-E,把語義 token 拼接進(jìn)噪聲潛變量、解耦式架構(gòu)如 DDT,或者通過分散損失、自表示對(duì)齊等正則化手段)。
  • 始終優(yōu)先采用隨機(jī)插值 / 流匹配(SiT 在這里應(yīng)該是基線)。
  • 對(duì)于時(shí)間嵌入,使用 AdaLN-zero;但遇到更復(fù)雜的分布(如文本嵌入)時(shí),應(yīng)采用交叉注意力。
  • 不過要用對(duì)方式 —— 采用 PixArt 風(fēng)格的共享 AdaLN,否則會(huì)白白浪費(fèi) 30% 的參數(shù)。
  • 真正的「硬傷」其實(shí)是 DiT 里的 sd-vae:這是顯而易見卻長期被忽視的問題 —— 它臃腫低效(處理 256×256 圖像竟需要 445.87 GFlops?)、不是端到端的。像 VA-VAE 和 REPA-E 只是部分修復(fù),更多進(jìn)展還在路上。

評(píng)論網(wǎng)友也對(duì)回應(yīng)中提到的技術(shù)細(xì)節(jié)感興趣,謝賽寧也都對(duì)相關(guān)疑惑做出了回復(fù):





算法的迭代進(jìn)步總是伴隨著對(duì)現(xiàn)有算法的質(zhì)疑,雖說所謂「不破不立」,但 DiT 仍然在擂臺(tái)中央,不是么?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
為了錢,中國足協(xié)連臉都不要了?

為了錢,中國足協(xié)連臉都不要了?

筆桿論道
2025-09-01 09:50:49
成都成華區(qū):中鐵二十二局一在建工地塔吊坍塌致5人遇難,涉事工地已封停

成都成華區(qū):中鐵二十二局一在建工地塔吊坍塌致5人遇難,涉事工地已封停

界面新聞
2025-09-01 21:22:14
宋軼回應(yīng)整容:沒有整容,只是換了新的化妝老師

宋軼回應(yīng)整容:沒有整容,只是換了新的化妝老師

韓小娛
2025-08-31 17:40:46
洪秀柱組團(tuán)參加九三閱兵,民進(jìn)黨破防大罵,國民黨訪陸規(guī)格再升級(jí)

洪秀柱組團(tuán)參加九三閱兵,民進(jìn)黨破防大罵,國民黨訪陸規(guī)格再升級(jí)

頭條爆料007
2025-09-01 20:37:18
中國最后一位太監(jiān)孫耀庭自述:晚上伺候娘娘時(shí),鞋底必須藏蒼耳

中國最后一位太監(jiān)孫耀庭自述:晚上伺候娘娘時(shí),鞋底必須藏蒼耳

妙知
2025-08-28 10:19:43
重磅!利物浦3500萬鎊簽下水晶宮隊(duì)長,夏窗砸5.3億+夢(mèng)幻首發(fā)出爐

重磅!利物浦3500萬鎊簽下水晶宮隊(duì)長,夏窗砸5.3億+夢(mèng)幻首發(fā)出爐

我愛英超
2025-09-01 22:40:34
高盛預(yù)言:2027年房價(jià)再跌10%,2027年谷底將至,現(xiàn)在買房等于首付打水漂!

高盛預(yù)言:2027年房價(jià)再跌10%,2027年谷底將至,現(xiàn)在買房等于首付打水漂!

新浪財(cái)經(jīng)
2025-09-01 09:05:49
德國外長不明白,德日兩大強(qiáng)國要攜手抗中,中國人怎么就不怕呢?

德國外長不明白,德日兩大強(qiáng)國要攜手抗中,中國人怎么就不怕呢?

歷史求知所
2025-09-01 00:00:03
在美網(wǎng)搶走小孩簽名帽被罵,波蘭百萬富豪為自己辯護(hù):是我拿的,人生就是先到先得

在美網(wǎng)搶走小孩簽名帽被罵,波蘭百萬富豪為自己辯護(hù):是我拿的,人生就是先到先得

臺(tái)州交通廣播
2025-09-01 20:03:39
烏克蘭遠(yuǎn)超導(dǎo)彈量產(chǎn),匈牙利即將變天

烏克蘭遠(yuǎn)超導(dǎo)彈量產(chǎn),匈牙利即將變天

難得君
2025-09-01 16:23:14
島內(nèi)出席九三閱兵人員名單出爐,綠營氣急敗壞,川普對(duì)臺(tái)態(tài)度或變

島內(nèi)出席九三閱兵人員名單出爐,綠營氣急敗壞,川普對(duì)臺(tái)態(tài)度或變

DS北風(fēng)
2025-09-01 17:27:07
風(fēng)向變了,民眾突然都醒了

風(fēng)向變了,民眾突然都醒了

深度報(bào)
2025-08-31 22:48:44
七夕舔狗經(jīng)濟(jì)崩盤了,商家宣傳黯然退場(chǎng),男性群體徹底沒錢了!

七夕舔狗經(jīng)濟(jì)崩盤了,商家宣傳黯然退場(chǎng),男性群體徹底沒錢了!

眼光很亮
2025-09-01 02:44:22
買下維多利亞老宅,卻養(yǎng)不起賣1鎊都沒人要?!她變身Airbnb老板,把危機(jī)變財(cái)富

買下維多利亞老宅,卻養(yǎng)不起賣1鎊都沒人要?!她變身Airbnb老板,把危機(jī)變財(cái)富

英國那些事兒
2025-08-31 23:18:23
自己管不住孩子,讓全深圳陪綁?深圳家長投訴電話手表遭“打臉”

自己管不住孩子,讓全深圳陪綁?深圳家長投訴電話手表遭“打臉”

柚媽充電屋
2025-08-31 18:20:03
宋軼整容失敗認(rèn)不出?臉變寬嘴變大顴骨變高,乍一看還以為是易夢(mèng)玲

宋軼整容失敗認(rèn)不出?臉變寬嘴變大顴骨變高,乍一看還以為是易夢(mèng)玲

八卦王者
2025-09-01 15:15:08
重磅:烏克蘭火烈鳥導(dǎo)彈攻擊克里米亞!擊毀俄安全局大樓

重磅:烏克蘭火烈鳥導(dǎo)彈攻擊克里米亞!擊毀俄安全局大樓

項(xiàng)鵬飛
2025-09-01 18:07:01
光速下課!官方:滕哈赫不再擔(dān)任勒沃庫森主帥,上任僅62天

光速下課!官方:滕哈赫不再擔(dān)任勒沃庫森主帥,上任僅62天

直播吧
2025-09-01 18:09:19
小仙女隧道龜速騎電車后續(xù):真容曝光,社會(huì)性死亡,步行推車前行

小仙女隧道龜速騎電車后續(xù):真容曝光,社會(huì)性死亡,步行推車前行

花心電影
2025-09-01 20:16:15
澤連斯基吹響沖鋒號(hào):對(duì)俄展開縱深打擊,火烈鳥首戰(zhàn)告捷

澤連斯基吹響沖鋒號(hào):對(duì)俄展開縱深打擊,火烈鳥首戰(zhàn)告捷

史政先鋒
2025-09-01 12:57:50
2025-09-02 02:15:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11206文章數(shù) 142432關(guān)注度
往期回顧 全部

科技要聞

8月造車新勢(shì)力:零跑小鵬再創(chuàng)單月銷量新高

頭條要聞

媒體:莫迪到天津參加一場(chǎng)國際峰會(huì) 結(jié)果惹得有人吃醋

頭條要聞

媒體:莫迪到天津參加一場(chǎng)國際峰會(huì) 結(jié)果惹得有人吃醋

體育要聞

一支穿云箭,紅軍雙喜臨門

娛樂要聞

蘇有朋,禍從口出?

財(cái)經(jīng)要聞

行情剛好點(diǎn),創(chuàng)始人立馬漲估值

汽車要聞

激光雷達(dá)上車/配云輦-C 26款海豹07 DM-i全是硬貨

態(tài)度原創(chuàng)

游戲
親子
時(shí)尚
藝術(shù)
房產(chǎn)

《007:曙光》SOP專場(chǎng)直播公布 將有超長實(shí)機(jī)

親子要聞

開學(xué)了,躺平孩子的復(fù)學(xué)難題,1招就解決!

為什么“屁股大”的女生,更受直男歡迎?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產(chǎn)要聞

海珠宅地上新!廣州大道南788號(hào)二期8.6億起拍!

無障礙瀏覽 進(jìn)入關(guān)懷版