成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

復(fù)旦&微軟提出首個(gè)端到端無(wú)限時(shí)長(zhǎng)音頻驅(qū)動(dòng)的人類(lèi)視頻生成新框架!

0
分享至



在《流浪地球 2》中圖恒宇將 AI 永生數(shù)字生命變?yōu)榭赡?,旨為將人?lèi)意識(shí)進(jìn)行數(shù)字化備份并進(jìn)行意識(shí)上傳,以實(shí)現(xiàn)人類(lèi)文明的完全數(shù)字化。

如今隨著擴(kuò)散模型的興起極大,涌現(xiàn)出大量基于音頻驅(qū)動(dòng)的數(shù)字人生成工作。具體而言,語(yǔ)音驅(qū)動(dòng)人類(lèi)視頻生成旨在基于參考圖像與音頻,合成面部表情與身體動(dòng)作與音頻高度同步的自然人像視頻,在電影制作、游戲制作、虛擬現(xiàn)實(shí)、直播帶貨等領(lǐng)域具有廣泛的應(yīng)用前景。

但是,現(xiàn)有方法僅能生成時(shí)長(zhǎng)不足 15 秒的短視頻,一旦模型嘗試生成超過(guò) 15 秒的視頻,就會(huì)出現(xiàn)明顯的身體變形與外觀不一致現(xiàn)象,尤其集中在面部區(qū)域,這使目前數(shù)字人技術(shù)還無(wú)法達(dá)到《流浪地球 2》中圖恒宇所創(chuàng)造的 AI 永生數(shù)字生命那樣的程度,嚴(yán)重限制了其實(shí)際應(yīng)用價(jià)值。

為了解決這一問(wèn)題,一些方法嘗試在音頻驅(qū)動(dòng)人類(lèi)視頻生成中引入一致性保持機(jī)制,但很少有工作深入探討問(wèn)題的根本原因?,F(xiàn)有策略——無(wú)論是利用運(yùn)動(dòng)幀(Motion Frame),還是在推理過(guò)程中采用多種滑動(dòng)窗口機(jī)制——都只能在一定程度上提升長(zhǎng)視頻的平滑性,卻無(wú)法從根本上緩解無(wú)限時(shí)長(zhǎng)頭像視頻的質(zhì)量退化問(wèn)題。

另一種可行方案是將長(zhǎng)音頻切分為多個(gè)片段,分別處理后再拼接成連續(xù)的視頻。然而,這種方式不可避免地會(huì)在片段銜接處引入不一致和突兀的過(guò)渡。

因此,對(duì)于語(yǔ)音驅(qū)動(dòng)的人類(lèi)視頻生成而言,實(shí)現(xiàn)端到端的無(wú)限時(shí)長(zhǎng)高保真視頻生成依然是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。



為了解決上述問(wèn)題,來(lái)自復(fù)旦、微軟、西交等研究團(tuán)隊(duì)提出 StableAvatar 框架,以實(shí)現(xiàn)無(wú)限時(shí)長(zhǎng)音頻驅(qū)動(dòng)的高保真人類(lèi)視頻生成,目前代碼已開(kāi)源,包括推理代碼和訓(xùn)練代碼。



  • 論文標(biāo)題:StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
  • 論文地址:https://arxiv.org/abs/2508.08248
  • 項(xiàng)目主頁(yè):https://francis-rings.github.io/StableAvatar/
  • 項(xiàng)目代碼:https://github.com/Francis-Rings/StableAvatar
  • 項(xiàng)目 Demo:https://www.bilibili.com/video/BV1hUt9z4EoQ

方法簡(jiǎn)介

如下圖所示,StableAvatar 是基于 Wan2.1-1.3B 基座模型開(kāi)發(fā)的,首先將音頻輸入 Wav2Vec 模型中提取 audio embeddings,隨后通過(guò)我們提出的音頻適配器(Audio Adapter)進(jìn)行優(yōu)化,以減少潛變量分布誤差的累積。



經(jīng)過(guò)優(yōu)化的 audio embeddings 會(huì)輸入至去噪 DiT 中進(jìn)行處理。參考圖像的處理通過(guò)兩條路徑輸入擴(kuò)散模型:

  • 沿時(shí)間軸將參考圖像與零填充幀拼接,并通過(guò)凍結(jié)的 3D VAE Encoder 轉(zhuǎn)換為潛變量編碼(latent code)。該潛變量編碼在通道軸上與壓縮后的視頻幀及二值掩碼(第一幀為 1,后續(xù)所有幀為 0)拼接。
  • 通過(guò) CLIP Encoder 編碼參考圖像以獲得 image embeddings,并將其輸入到去噪 DiT 的每個(gè)圖像-音頻交叉注意力模塊中,用于約束生成對(duì)象的外觀。

在推理階段,我們將原始輸入視頻幀替換為隨機(jī)噪聲,而保持其他輸入不變。我們提出了一種新穎的音頻原生引導(dǎo)(Audio Native Guidance)方法,以替代傳統(tǒng)的 Classify-Free-Guidance,從而進(jìn)一步促進(jìn)唇形同步與面部表情生成。此外,我們引入了一種動(dòng)態(tài)加權(quán)滑動(dòng)窗口去噪策略,通過(guò)在時(shí)間維度上融合潛變量,以提升長(zhǎng)視頻生成過(guò)程中的視頻平滑性。

Timestep-aware Audio Adapter

以往的方法在生成超過(guò) 15 秒的虛擬人視頻時(shí),往往出現(xiàn)明顯的面部與身體扭曲,以及顏色漂移。這主要源于它們的音頻建模方式:直接將第三方預(yù)訓(xùn)練的音頻嵌入通過(guò)交叉注意力注入擴(kuò)散模型。由于當(dāng)前的擴(kuò)散主干缺乏音頻相關(guān)的先驗(yàn)知識(shí),在注入過(guò)程中會(huì)在跨片段之間逐步累積潛在分布誤差,使得后續(xù)片段的潛在分布逐漸偏離最優(yōu)解。

為了解決這一問(wèn)題,本文提出了一種新穎的 Timestep-aware Audio Adapter,其中音頻嵌入通過(guò)多個(gè)仿射調(diào)制和交叉注意力模塊與時(shí)間步嵌入和潛在特征進(jìn)行交互,如上圖(a)所述。

具體而言,初始音頻嵌入(Query)依次與初始潛變量(Key 和 Value)進(jìn)行交叉注意力計(jì)算,隨后結(jié)合 timestep embeddings 進(jìn)行 affine modulation,從而得到優(yōu)化后的音頻嵌入。由于 timestep embeddings 與潛變量高度相關(guān),這一設(shè)計(jì)潛在地迫使擴(kuò)散模型在每個(gè)時(shí)步上建模音頻–潛變量的聯(lián)合特征分布,從而有效緩解因缺乏音頻先驗(yàn)而導(dǎo)致的潛變量分布誤差累積,優(yōu)化后的音頻嵌入(Key 和 Value)最后通過(guò)交叉注意力與潛變量(Query)交互后注入擴(kuò)散模型。

Audio Native Guidance

為了進(jìn)一步增強(qiáng)音頻同步性和面部表情,本文提出了一種新穎的 Audio Native Guidance 機(jī)制,用以替代傳統(tǒng)的 CFG,它未考慮音頻與潛在特征的聯(lián)合關(guān)系。本文修改了去噪得分函數(shù),以引導(dǎo)去噪過(guò)程朝著最大化音頻同步性與自然性的方向前進(jìn)。

由于優(yōu)化后的 audio embeddings 本質(zhì)上也依賴(lài)于潛變量,而不僅僅依賴(lài)外部音頻信號(hào),我們的 Audio Native Guidance 不再將 audio embeddings 作為一個(gè)獨(dú)立于潛變量的外部特征,而是將其作為一個(gè)與潛變量相關(guān)的擴(kuò)散模型的內(nèi)部特征,我們的引導(dǎo)機(jī)制能夠直接作用于擴(kuò)散模型的采樣分布,將生成過(guò)程引導(dǎo)至音頻–潛變量的聯(lián)合分布,并使擴(kuò)散模型在整個(gè)去噪過(guò)程中不斷優(yōu)化其生成結(jié)果。











我們進(jìn)一步將上述公式轉(zhuǎn)化為得分函數(shù)形式:



因此最終推導(dǎo)公式為:





Dynamic Weighted Sliding-Window Strategy

與先前的滑窗去噪策略相比,我們?cè)谙噜彺翱诘闹丿B潛變量上引入了滑動(dòng)融合機(jī)制,其中融合權(quán)重依據(jù)相對(duì)幀索引采用對(duì)數(shù)插值分布。融合后的潛變量會(huì)回注到兩個(gè)相鄰窗口中,從而保證中央窗口的兩側(cè)邊界均由混合特征構(gòu)成。

借助對(duì)數(shù)加權(quán)函數(shù),可在視頻片段之間的過(guò)渡中引入一種漸進(jìn)式平滑效果:早期階段的權(quán)重變化更為顯著,而后期階段變化趨于平緩,從而實(shí)現(xiàn)跨視頻片段的無(wú)縫銜接,具體算法流程如下面算法表和圖像所述。





生成結(jié)果示例


https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7


https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7


https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7


https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7


https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7

實(shí)驗(yàn)對(duì)比


https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7


https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7


https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
金正恩剛到北京,韓官媒就大言不慚:韓高層要在天安門(mén)城樓上見(jiàn)他

金正恩剛到北京,韓官媒就大言不慚:韓高層要在天安門(mén)城樓上見(jiàn)他

千里持劍
2025-09-02 11:00:13
湖南老人活到127歲,但奇怪的是,她13個(gè)孩子,沒(méi)有一個(gè)活過(guò)18歲

湖南老人活到127歲,但奇怪的是,她13個(gè)孩子,沒(méi)有一個(gè)活過(guò)18歲

博覽歷史
2025-09-02 13:57:57
烏克蘭襲擊克里米亞RT-70射電望遠(yuǎn)鏡:意義甚至超過(guò)摧毀S-400雷達(dá)

烏克蘭襲擊克里米亞RT-70射電望遠(yuǎn)鏡:意義甚至超過(guò)摧毀S-400雷達(dá)

零度Military
2025-09-01 19:45:41
“買(mǎi)得起,用不起”,普通老百姓,真沒(méi)必要買(mǎi)這6種電器,太燒錢(qián)

“買(mǎi)得起,用不起”,普通老百姓,真沒(méi)必要買(mǎi)這6種電器,太燒錢(qián)

裝修秀
2025-09-02 11:00:03
確認(rèn)了!全面關(guān)停,數(shù)據(jù)永久丟失!曾擁有超1億用戶(hù)…抓緊退款,有時(shí)限↗

確認(rèn)了!全面關(guān)停,數(shù)據(jù)永久丟失!曾擁有超1億用戶(hù)…抓緊退款,有時(shí)限↗

申消費(fèi)
2025-09-02 10:08:48
俄羅斯兩支軍隊(duì)在赫爾松地區(qū)混亂中互相開(kāi)火,致21死17傷

俄羅斯兩支軍隊(duì)在赫爾松地區(qū)混亂中互相開(kāi)火,致21死17傷

環(huán)球熱點(diǎn)快評(píng)
2025-09-02 07:48:43
女兒褲兜翻出“海龜湯”,母親情緒失控:孩子就是這樣學(xué)壞的!

女兒褲兜翻出“海龜湯”,母親情緒失控:孩子就是這樣學(xué)壞的!

妍妍教育日記
2025-08-31 09:35:03
張水華喊話(huà)領(lǐng)導(dǎo)調(diào)休后續(xù):同事發(fā)聲,名聲沒(méi)了,361度也被連累

張水華喊話(huà)領(lǐng)導(dǎo)調(diào)休后續(xù):同事發(fā)聲,名聲沒(méi)了,361度也被連累

老吳教育課堂
2025-09-02 03:05:22
有一有二沒(méi)有再三!賈玲新片剛殺青就遭抵制,網(wǎng)友理由出奇一致

有一有二沒(méi)有再三!賈玲新片剛殺青就遭抵制,網(wǎng)友理由出奇一致

銀河史記
2025-08-31 23:33:19
中國(guó)將迎來(lái)死亡高峰?22年去世1041萬(wàn)人,23年1110萬(wàn),去年多少?

中國(guó)將迎來(lái)死亡高峰?22年去世1041萬(wàn)人,23年1110萬(wàn),去年多少?

博覽歷史
2025-09-01 14:31:33
金正恩坐綠皮火車(chē)來(lái)了,慢也要確保安全

金正恩坐綠皮火車(chē)來(lái)了,慢也要確保安全

深度財(cái)線
2025-09-01 23:31:01
捏蛋女已社死:正臉曝光面目猙獰,工作單位被扒,一家都是狠角色

捏蛋女已社死:正臉曝光面目猙獰,工作單位被扒,一家都是狠角色

吃瓜盟主
2025-08-30 15:53:04
天津上合峰會(huì)媒體包火了!俄羅斯記者解密里面都有啥,看完...

天津上合峰會(huì)媒體包火了!俄羅斯記者解密里面都有啥,看完...

娛樂(lè)圈見(jiàn)解說(shuō)
2025-09-02 12:55:08
幾乎絕跡的床虱“卷土重來(lái)”,專(zhuān)家手把手教你科學(xué)防蟲(chóng)

幾乎絕跡的床虱“卷土重來(lái)”,專(zhuān)家手把手教你科學(xué)防蟲(chóng)

人民日?qǐng)?bào)健康客戶(hù)端
2025-08-31 23:47:07
1.2億頂薪,恭喜勇士!交易大獲成功,“三巨頭”豪陣劍指總冠軍

1.2億頂薪,恭喜勇士!交易大獲成功,“三巨頭”豪陣劍指總冠軍

老侃侃球
2025-09-02 09:44:12
佩通坦卸任了,但我們9.3閱兵留的名額不用可惜?不少人說(shuō)該邀她

佩通坦卸任了,但我們9.3閱兵留的名額不用可惜?不少人說(shuō)該邀她

阿七說(shuō)史
2025-09-02 12:40:30
宋軼回應(yīng)整容:沒(méi)有整容,只是換了新的化妝老師

宋軼回應(yīng)整容:沒(méi)有整容,只是換了新的化妝老師

韓小娛
2025-08-31 17:40:46
最快女護(hù)士張水華:為什么不辭職,全職跑馬拉松

最快女護(hù)士張水華:為什么不辭職,全職跑馬拉松

金牌娛樂(lè)
2025-09-02 11:13:45
A股:大家要做好心理準(zhǔn)備了,明天不出所料,很有可能要這樣走了

A股:大家要做好心理準(zhǔn)備了,明天不出所料,很有可能要這樣走了

小嵩
2025-09-02 15:08:30
重磅:烏克蘭火烈鳥(niǎo)導(dǎo)彈攻擊克里米亞!擊毀俄安全局大樓

重磅:烏克蘭火烈鳥(niǎo)導(dǎo)彈攻擊克里米亞!擊毀俄安全局大樓

項(xiàng)鵬飛
2025-09-01 18:07:01
2025-09-02 16:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11213文章數(shù) 142436關(guān)注度
往期回顧 全部

科技要聞

別叫我車(chē)企!馬斯克:特斯拉80%價(jià)值在機(jī)器人

頭條要聞

印度駐華大使館發(fā)文:請(qǐng)欣賞莫迪在天津受到的熱烈歡迎

頭條要聞

印度駐華大使館發(fā)文:請(qǐng)欣賞莫迪在天津受到的熱烈歡迎

體育要聞

等了十年,石宇奇終于說(shuō)出這句話(huà)

娛樂(lè)要聞

于正也保不?。繕I(yè)內(nèi)暗示許凱成風(fēng)險(xiǎn)藝人

財(cái)經(jīng)要聞

一級(jí)市場(chǎng)不靈,LP勸我去炒股

汽車(chē)要聞

勢(shì)能爆發(fā) 盧放談全新嵐圖知音爆款邏輯

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
本地
公開(kāi)課
軍事航空

手機(jī)要聞

摩托羅拉 Moto G06 手機(jī)曝光:6.88 英寸 120Hz 屏+5200mAh 電池

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

本地新聞

換個(gè)城市過(guò)夏天 | “中式美學(xué)”打開(kāi)夏日濰坊

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

九三閱兵 具體安排來(lái)了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版