成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

視頻生成模型無(wú)損加速兩倍,秘訣是「抓住attention時(shí)空稀疏性」

0
分享至



自 OpenAI 發(fā)布 Sora 以來(lái),AI 視頻生成技術(shù)進(jìn)入快速爆發(fā)階段。憑借擴(kuò)散模型強(qiáng)大的生成能力,我們已經(jīng)可以看到接近現(xiàn)實(shí)的視頻生成效果。但在模型逼真度不斷提升的同時(shí),速度瓶頸卻成為橫亙?cè)诖笠?guī)模應(yīng)用道路上的最大障礙。

當(dāng)前最好的視頻生成模型 Wan 2.1、HunyuanVideo 等,在單張 H100 GPU 上生成一個(gè) 5 秒的 720p 視頻往往需要耗時(shí) 30 分鐘以上。主要瓶頸出現(xiàn)在 3D Full Attention 模塊,約占總推理時(shí)間的 80% 以上。

為了解決這個(gè)問(wèn)題,來(lái)自加州伯克利和 MIT 的研究者們提出了聯(lián)合提出了一種新穎的解決方案:Sparse VideoGen。



  • 論文標(biāo)題:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
  • 論文鏈接:https://arxiv.org/abs/2502.01776
  • 代碼:https://github.com/svg-project/Sparse-VideoGenn
  • 網(wǎng)頁(yè):https://svg-project.github.io/

這是一種完全無(wú)需重新訓(xùn)練模型的視頻生成加速方法。通過(guò)挖掘注意力機(jī)制中的空間與時(shí)間稀疏性,配合自適應(yīng)稀疏選擇與算子優(yōu)化,成功將推理時(shí)間減半。令人驚訝的是,它生成的視頻與 Dense Attention 方法相比,幾乎沒(méi)有肉眼可見(jiàn)的差別,保持極高的像素保真度 (PSNR = 29)。Sparse VideoGen 也是第一個(gè)能夠達(dá)到這種級(jí)別的像素保真度的方法。

目前,Sparse VideoGen 已經(jīng)支持了 Wan 2.1, HunyuanVideo, CogVideoX 等多種 SOTA 開(kāi)源模型,并且 T2V(文生視頻),I2V(圖生視頻)都可以加速。他們的所有代碼均已開(kāi)源。該工作已經(jīng)被 ICML 2025 錄取。

擴(kuò)散式視頻生成的性能瓶頸

擴(kuò)散模型(Diffusion Models)已經(jīng)成為圖像與視頻生成的主流方案。特別是基于 Transformer 架構(gòu)的 Video Diffusion Transformers(DiTs),在建模長(zhǎng)時(shí)空依賴與視覺(jué)細(xì)節(jié)方面具有顯著優(yōu)勢(shì)。然而,DiTs 模型的一大特征 ——3D Full Attention—— 也帶來(lái)了巨大的計(jì)算負(fù)擔(dān)。每個(gè) token 不僅要考慮當(dāng)前幀的空間上下文,還要參與跨幀的時(shí)間建模。隨著分辨率和幀數(shù)的提升,Attention 的計(jì)算復(fù)雜度以二次增長(zhǎng),遠(yuǎn)高于普通圖像生成模型。

例如,HunyuanVideo 和 Wan 2.1 在 1×H100 上生成 5 秒 720p 視頻需要 29 分鐘,其中Attention 計(jì)算占據(jù)超過(guò) 80% 的時(shí)間。如此高昂的代價(jià),大大限制了擴(kuò)散視頻模型在真實(shí)世界中的部署能力。



Sparse VideoGen 的核心設(shè)計(jì)

抓住 Attention 中的稀疏性

在 Video Diffusion Transformer 的 Attention Map 中存在兩種獨(dú)特的稀疏模式:空間稀疏性 (Spatial sparsity) 和時(shí)間稀疏性 (Temporal sparsity)。大多數(shù) Attention Head 都可以歸類為其中之一,并可以相應(yīng)地定義兩類 Attention Head:Spatial Head 和 Temporal Head。

Spatial Head - 關(guān)注空間鄰近的 Token

Spatial Head 主要關(guān)注相同幀及相鄰幀中的 Token,其 Attention Map 呈塊狀布局,集中于主對(duì)角線附近。它負(fù)責(zé)建模局部空間一致性,使得圖像生成在幀內(nèi)連貫。

Temporal Head - 關(guān)注不同幀中的相同 Token

Temporal Head 主要用于捕捉幀間的 Token 關(guān)系。其 Attention Map 呈斜線式布局,并具有恒定步長(zhǎng)。這種機(jī)制確保了時(shí)間一致性,即同一物體在多個(gè)幀中保持連貫。

這種 Attention 模式的解構(gòu),幫助模型在計(jì)算過(guò)程中識(shí)別哪些 token 是「重要的」,哪些可以忽略,從而構(gòu)建稀疏注意力策略。



實(shí)現(xiàn)無(wú)損像素保真度的關(guān)鍵

動(dòng)態(tài)自適應(yīng)的稀疏策略

盡管 Spatial Head 和 Temporal Head 分別解決了空間和時(shí)間一致性問(wèn)題,但真正實(shí)現(xiàn)無(wú)損像素保真度的關(guān)鍵在于最優(yōu)地組合它們。

在不同的去噪步驟(denoising steps)以及不同的生成提示(prompts)下,最優(yōu)的稀疏策略可能會(huì)發(fā)生顯著變化。因此,靜態(tài)的稀疏模式無(wú)法保證最佳效果,必須采用動(dòng)態(tài)、自適應(yīng)的策略。

為此,Sparse VideoGen 采用了一種在線稀疏模式優(yōu)化方法(Online Profiling),通過(guò)動(dòng)態(tài)的決定 Attention Mask,用于動(dòng)態(tài)決定每個(gè)注意力頭所采用的稀疏策略。

其方法如下:

1. 每一步推理過(guò)程中,隨機(jī)采樣極少量(僅 0.05%,約 64 個(gè))的 Query Token;

2. 分別使用 Spatial 和 Temporal 兩種稀疏模式計(jì)算其注意力結(jié)果,并與 Dense Attention 對(duì)比誤差;

3. 為每個(gè) Attention Head 選擇誤差最小的稀疏模式。

僅使用 64 個(gè) Query Token(占全部 token 總數(shù)的 0.1%),即可準(zhǔn)確預(yù)測(cè)最優(yōu)的稀疏模式。這種輕量級(jí)探索 + 局部誤差擬合的策略,幾乎不增加額外計(jì)算開(kāi)銷(<3%),但可在不同步驟下精準(zhǔn)選取最優(yōu)稀疏模式,從而最大限度保證畫(huà)質(zhì)(PSNR > 29)且實(shí)現(xiàn)有效加速。



從算子層優(yōu)化稀疏計(jì)算

Layout Transformation + Kernel 加速

盡管利用稀疏性能夠顯著提升 Attention 速度,但如何達(dá)到最優(yōu)的加速效果仍然是一大問(wèn)題。尤其是Temporal Head 的非連續(xù)內(nèi)存訪問(wèn)模式仍然對(duì) GPU 的性能構(gòu)成挑戰(zhàn)。

Temporal Head(時(shí)間注意力頭)需要跨多個(gè)幀訪問(wèn)相同空間位置的 token。然而,傳統(tǒng)的張量布局通常是以幀為主(frame-major)的順序存儲(chǔ)數(shù)據(jù),即同一幀的所有 token 連續(xù)存儲(chǔ),而不同幀的相同位置的 token 則分散開(kāi)來(lái)。

為了解決這一問(wèn)題,Sparse VideoGen 引入了一種硬件友好的布局轉(zhuǎn)換方法。該方法通過(guò)將張量從幀為主的布局轉(zhuǎn)換為 token 為主(token-major)的布局,使得 Temporal Head 所需的 token 在內(nèi)存中呈現(xiàn)連續(xù)排列,從而優(yōu)化了內(nèi)存訪問(wèn)模式。具體而言,這種轉(zhuǎn)換通過(guò)轉(zhuǎn)置操作實(shí)現(xiàn),將原本分散的 token 重組為連續(xù)的內(nèi)存塊,符合 GPU 的內(nèi)存訪問(wèn)特性。



這種布局轉(zhuǎn)換不僅提高了內(nèi)存訪問(wèn)效率,還使得稀疏注意力計(jì)算能夠更好地利用 GPU 的并行計(jì)算能力。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)布局轉(zhuǎn)換后,Sparse VideoGen 在 Temporal Head 上實(shí)現(xiàn)了接近理論極限的加速效果,顯著提升了整體推理速度。



除了注意力機(jī)制的優(yōu)化,Sparse VideoGen 還對(duì) Query-Key Normalization(QK-Norm)和 Rotary Position Embedding(RoPE)進(jìn)行了定制化優(yōu)化,以進(jìn)一步提升推理效率。在標(biāo)準(zhǔn)實(shí)現(xiàn)中,QK-Norm 和 RoPE 的計(jì)算開(kāi)銷較大,成為推理過(guò)程中的性能瓶頸之一。為此,研究者對(duì)這兩個(gè)模塊進(jìn)行了算子優(yōu)化,QK-Norm 的吞吐量在所有場(chǎng)景下均優(yōu)于 PyTorch 的標(biāo)準(zhǔn)實(shí)現(xiàn),平均加速比為 7.4 倍,。同樣地,定制化的 RoPE 實(shí)現(xiàn)也在所有幀數(shù)下表現(xiàn)出更高的吞吐量,平均加速比為 14.5 倍。

實(shí)驗(yàn)成果

媲美原模型的畫(huà)質(zhì),顯著的推理速度提升

在 Wan2.1、HunyuanVideo 和 CogVideoX 上,Sparse VideoGen 展現(xiàn)出強(qiáng)大性能:

1. 在 H100 上將 HunyuanVideo 的推理時(shí)間從約 30 分鐘降至 15 分鐘以內(nèi);將 Wan 2.1 的推理時(shí)間從 30 分鐘將至 20 分鐘;

2. 保持 PSNR 穩(wěn)定在 29dB 以上,接近 Dense Attention 輸出畫(huà)質(zhì);

3. 可無(wú)縫接入多種現(xiàn)有 SOTA 視頻生成模型(Wan 2.1、CogVideoX、HunyuanVideo);

4. 同時(shí)支持 T2V(文本生成視頻)和 I2V(圖像生成視頻)任務(wù)。

在未來(lái),隨著視頻擴(kuò)散模型的復(fù)雜度進(jìn)一步上升,如何在不損失視覺(jué)質(zhì)量的前提下提升效率,將是核心問(wèn)題之一。SVG 的工作展示了一條重要方向:結(jié)構(gòu)理解 + 自適應(yīng)稀疏性可能成為視頻生成推理優(yōu)化的黃金組合。

這一研究也在提示我們:視頻生成模型不必一味追求更大,理解其內(nèi)部結(jié)構(gòu)規(guī)律,或許能帶來(lái)比擴(kuò)容更可持續(xù)的性能突破。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
七夕共懷嚴(yán)鳳英,含冤而死后慘遭“開(kāi)膛破肚”

七夕共懷嚴(yán)鳳英,含冤而死后慘遭“開(kāi)膛破肚”

深度報(bào)
2025-08-29 16:22:55
1架專機(jī)抵華,中方迎來(lái)一位稀客,沙利文:特朗普幫中國(guó)“大忙”

1架專機(jī)抵華,中方迎來(lái)一位稀客,沙利文:特朗普幫中國(guó)“大忙”

南宮一二
2025-09-01 05:55:12
大外交|普京開(kāi)啟“罕見(jiàn)”四天訪華行:深化中俄務(wù)實(shí)合作,開(kāi)展同多國(guó)雙邊互動(dòng)

大外交|普京開(kāi)啟“罕見(jiàn)”四天訪華行:深化中俄務(wù)實(shí)合作,開(kāi)展同多國(guó)雙邊互動(dòng)

澎湃新聞
2025-09-01 07:00:28
半夜雞叫:足協(xié)斗蘇超

半夜雞叫:足協(xié)斗蘇超

沈素明
2025-08-31 17:22:02
趙勇離任,女排換帥?球隊(duì)或重建,2人回歸,2人離隊(duì),1人淡出

趙勇離任,女排換帥?球隊(duì)或重建,2人回歸,2人離隊(duì),1人淡出

東球弟
2025-09-01 10:00:29
2010年文強(qiáng)被執(zhí)行死刑前照片 ?生命最后四小時(shí)公開(kāi)

2010年文強(qiáng)被執(zhí)行死刑前照片 ?生命最后四小時(shí)公開(kāi)

書(shū)畫(huà)藝術(shù)收藏
2025-08-31 19:40:03
馮德萊恩:歐洲正在制定向?yàn)蹩颂m派兵具體方案

馮德萊恩:歐洲正在制定向?yàn)蹩颂m派兵具體方案

財(cái)聯(lián)社
2025-09-01 05:22:36
偏見(jiàn)太嚴(yán)重!從捷克歸來(lái)的覺(jué)醒,顛覆了我們對(duì)這個(gè)世界的認(rèn)知!

偏見(jiàn)太嚴(yán)重!從捷克歸來(lái)的覺(jué)醒,顛覆了我們對(duì)這個(gè)世界的認(rèn)知!

天下霸奇
2025-09-01 08:32:26
21歲男生計(jì)劃5萬(wàn)元半年游遍中國(guó):50多座城花兩萬(wàn)多元,想在紙質(zhì)火車票消失前完成

21歲男生計(jì)劃5萬(wàn)元半年游遍中國(guó):50多座城花兩萬(wàn)多元,想在紙質(zhì)火車票消失前完成

南國(guó)今報(bào)
2025-08-31 14:08:23
記者:王剛后來(lái)在領(lǐng)隊(duì)陪同下與球迷見(jiàn)面,雙方說(shuō)開(kāi)了道了歉

記者:王剛后來(lái)在領(lǐng)隊(duì)陪同下與球迷見(jiàn)面,雙方說(shuō)開(kāi)了道了歉

懂球帝
2025-09-01 11:18:11
傻眼了?孫繼海去法院起訴索賠266萬(wàn),張卓毅媽媽聰明反被聰明誤

傻眼了?孫繼海去法院起訴索賠266萬(wàn),張卓毅媽媽聰明反被聰明誤

吃瓜局
2025-08-29 13:54:03
就沖這個(gè)胸,這個(gè)扣子,不頒獎(jiǎng)給她,都說(shuō)不過(guò)去!

就沖這個(gè)胸,這個(gè)扣子,不頒獎(jiǎng)給她,都說(shuō)不過(guò)去!

另子維愛(ài)讀史
2025-08-31 19:15:27
300萬(wàn)人口,1.9萬(wàn)風(fēng)俗從業(yè)者!“鐵騎”蒙古國(guó)淪為韓國(guó)男人天堂?

300萬(wàn)人口,1.9萬(wàn)風(fēng)俗從業(yè)者!“鐵騎”蒙古國(guó)淪為韓國(guó)男人天堂?

燕梳樓頻道
2025-08-31 15:56:42
“子涵梓萱”時(shí)代已經(jīng)過(guò)去了!一年級(jí)入學(xué)看家長(zhǎng)起名有多用心

“子涵梓萱”時(shí)代已經(jīng)過(guò)去了!一年級(jí)入學(xué)看家長(zhǎng)起名有多用心

大象新聞
2025-09-01 09:25:00
一夜之間,上海女子晨跑不穿內(nèi)衣沖上熱搜!評(píng)論兩極分化 吵翻天了

一夜之間,上海女子晨跑不穿內(nèi)衣沖上熱搜!評(píng)論兩極分化 吵翻天了

小蜜情感說(shuō)
2025-08-31 10:58:11
從城市到鄉(xiāng)野,沃爾沃EX30 CC用小身材解鎖全場(chǎng)景

從城市到鄉(xiāng)野,沃爾沃EX30 CC用小身材解鎖全場(chǎng)景

選車大師兄
2025-07-25 11:36:14
如何判斷一個(gè)國(guó)家是否有軍國(guó)主義傾向

如何判斷一個(gè)國(guó)家是否有軍國(guó)主義傾向

小院之觀
2025-09-01 05:30:03
開(kāi)盤(pán)半小時(shí)兩市成交額突破1萬(wàn)億 預(yù)計(jì)全天成交約3.2萬(wàn)億

開(kāi)盤(pán)半小時(shí)兩市成交額突破1萬(wàn)億 預(yù)計(jì)全天成交約3.2萬(wàn)億

財(cái)聯(lián)社
2025-09-01 10:02:32
大量“毒洗發(fā)水”遭曝光!多家品牌檢出致癌物,速查洗漱臺(tái)停用

大量“毒洗發(fā)水”遭曝光!多家品牌檢出致癌物,速查洗漱臺(tái)停用

起喜電影
2025-08-31 04:48:01
被反噬的李凱文

被反噬的李凱文

非典型佛教徒
2025-08-31 19:40:10
2025-09-01 12:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11197文章數(shù) 142430關(guān)注度
往期回顧 全部

科技要聞

百度19億美元收購(gòu)將成歷史:91助手全面停服

頭條要聞

"四子王旗警察槍擊案"當(dāng)事人刑滿釋放:我將繼續(xù)申訴

頭條要聞

"四子王旗警察槍擊案"當(dāng)事人刑滿釋放:我將繼續(xù)申訴

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂(lè)要聞

張曼玉 活成了多少人不敢想的樣子?

財(cái)經(jīng)要聞

個(gè)人消費(fèi)貸款貼息開(kāi)閘!多家銀行提前預(yù)熱

汽車要聞

攜熱門(mén)AI科技產(chǎn)品矩陣亮相 小鵬汽車登陸成都車展

態(tài)度原創(chuàng)

房產(chǎn)
本地
藝術(shù)
時(shí)尚
公開(kāi)課

房產(chǎn)要聞

顛覆認(rèn)知!??谡嬲暮勒髌?,終于出現(xiàn)了!

本地新聞

換個(gè)城市過(guò)夏天 | 夏末狂歡,浪在阜新黃家溝!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

伊姐周日熱推:訪談《陳魯豫·漫談》;電視劇《目之所及》......

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版