在《流浪地球 2》中圖恒宇將 AI 永生數(shù)字生命變?yōu)榭赡?,旨為將人?lèi)意識(shí)進(jìn)行數(shù)字化備份并進(jìn)行意識(shí)上傳,以實(shí)現(xiàn)人類(lèi)文明的完全數(shù)字化。
如今隨著擴(kuò)散模型的興起極大,涌現(xiàn)出大量基于音頻驅(qū)動(dòng)的數(shù)字人生成工作。具體而言,語(yǔ)音驅(qū)動(dòng)人類(lèi)視頻生成旨在基于參考圖像與音頻,合成面部表情與身體動(dòng)作與音頻高度同步的自然人像視頻,在電影制作、游戲制作、虛擬現(xiàn)實(shí)、直播帶貨等領(lǐng)域具有廣泛的應(yīng)用前景。
但是,現(xiàn)有方法僅能生成時(shí)長(zhǎng)不足 15 秒的短視頻,一旦模型嘗試生成超過(guò) 15 秒的視頻,就會(huì)出現(xiàn)明顯的身體變形與外觀不一致現(xiàn)象,尤其集中在面部區(qū)域,這使目前數(shù)字人技術(shù)還無(wú)法達(dá)到《流浪地球 2》中圖恒宇所創(chuàng)造的 AI 永生數(shù)字生命那樣的程度,嚴(yán)重限制了其實(shí)際應(yīng)用價(jià)值。
為了解決這一問(wèn)題,一些方法嘗試在音頻驅(qū)動(dòng)人類(lèi)視頻生成中引入一致性保持機(jī)制,但很少有工作深入探討問(wèn)題的根本原因?,F(xiàn)有策略——無(wú)論是利用運(yùn)動(dòng)幀(Motion Frame),還是在推理過(guò)程中采用多種滑動(dòng)窗口機(jī)制——都只能在一定程度上提升長(zhǎng)視頻的平滑性,卻無(wú)法從根本上緩解無(wú)限時(shí)長(zhǎng)頭像視頻的質(zhì)量退化問(wèn)題。
另一種可行方案是將長(zhǎng)音頻切分為多個(gè)片段,分別處理后再拼接成連續(xù)的視頻。然而,這種方式不可避免地會(huì)在片段銜接處引入不一致和突兀的過(guò)渡。
因此,對(duì)于語(yǔ)音驅(qū)動(dòng)的人類(lèi)視頻生成而言,實(shí)現(xiàn)端到端的無(wú)限時(shí)長(zhǎng)高保真視頻生成依然是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。
為了解決上述問(wèn)題,來(lái)自復(fù)旦、微軟、西交等研究團(tuán)隊(duì)提出 StableAvatar 框架,以實(shí)現(xiàn)無(wú)限時(shí)長(zhǎng)音頻驅(qū)動(dòng)的高保真人類(lèi)視頻生成,目前代碼已開(kāi)源,包括推理代碼和訓(xùn)練代碼。
- 論文標(biāo)題:StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
- 論文地址:https://arxiv.org/abs/2508.08248
- 項(xiàng)目主頁(yè):https://francis-rings.github.io/StableAvatar/
- 項(xiàng)目代碼:https://github.com/Francis-Rings/StableAvatar
- 項(xiàng)目 Demo:https://www.bilibili.com/video/BV1hUt9z4EoQ
方法簡(jiǎn)介
如下圖所示,StableAvatar 是基于 Wan2.1-1.3B 基座模型開(kāi)發(fā)的,首先將音頻輸入 Wav2Vec 模型中提取 audio embeddings,隨后通過(guò)我們提出的音頻適配器(Audio Adapter)進(jìn)行優(yōu)化,以減少潛變量分布誤差的累積。
經(jīng)過(guò)優(yōu)化的 audio embeddings 會(huì)輸入至去噪 DiT 中進(jìn)行處理。參考圖像的處理通過(guò)兩條路徑輸入擴(kuò)散模型:
- 沿時(shí)間軸將參考圖像與零填充幀拼接,并通過(guò)凍結(jié)的 3D VAE Encoder 轉(zhuǎn)換為潛變量編碼(latent code)。該潛變量編碼在通道軸上與壓縮后的視頻幀及二值掩碼(第一幀為 1,后續(xù)所有幀為 0)拼接。
- 通過(guò) CLIP Encoder 編碼參考圖像以獲得 image embeddings,并將其輸入到去噪 DiT 的每個(gè)圖像-音頻交叉注意力模塊中,用于約束生成對(duì)象的外觀。
在推理階段,我們將原始輸入視頻幀替換為隨機(jī)噪聲,而保持其他輸入不變。我們提出了一種新穎的音頻原生引導(dǎo)(Audio Native Guidance)方法,以替代傳統(tǒng)的 Classify-Free-Guidance,從而進(jìn)一步促進(jìn)唇形同步與面部表情生成。此外,我們引入了一種動(dòng)態(tài)加權(quán)滑動(dòng)窗口去噪策略,通過(guò)在時(shí)間維度上融合潛變量,以提升長(zhǎng)視頻生成過(guò)程中的視頻平滑性。
Timestep-aware Audio Adapter
以往的方法在生成超過(guò) 15 秒的虛擬人視頻時(shí),往往出現(xiàn)明顯的面部與身體扭曲,以及顏色漂移。這主要源于它們的音頻建模方式:直接將第三方預(yù)訓(xùn)練的音頻嵌入通過(guò)交叉注意力注入擴(kuò)散模型。由于當(dāng)前的擴(kuò)散主干缺乏音頻相關(guān)的先驗(yàn)知識(shí),在注入過(guò)程中會(huì)在跨片段之間逐步累積潛在分布誤差,使得后續(xù)片段的潛在分布逐漸偏離最優(yōu)解。
為了解決這一問(wèn)題,本文提出了一種新穎的 Timestep-aware Audio Adapter,其中音頻嵌入通過(guò)多個(gè)仿射調(diào)制和交叉注意力模塊與時(shí)間步嵌入和潛在特征進(jìn)行交互,如上圖(a)所述。
具體而言,初始音頻嵌入(Query)依次與初始潛變量(Key 和 Value)進(jìn)行交叉注意力計(jì)算,隨后結(jié)合 timestep embeddings 進(jìn)行 affine modulation,從而得到優(yōu)化后的音頻嵌入。由于 timestep embeddings 與潛變量高度相關(guān),這一設(shè)計(jì)潛在地迫使擴(kuò)散模型在每個(gè)時(shí)步上建模音頻–潛變量的聯(lián)合特征分布,從而有效緩解因缺乏音頻先驗(yàn)而導(dǎo)致的潛變量分布誤差累積,優(yōu)化后的音頻嵌入(Key 和 Value)最后通過(guò)交叉注意力與潛變量(Query)交互后注入擴(kuò)散模型。
Audio Native Guidance
為了進(jìn)一步增強(qiáng)音頻同步性和面部表情,本文提出了一種新穎的 Audio Native Guidance 機(jī)制,用以替代傳統(tǒng)的 CFG,它未考慮音頻與潛在特征的聯(lián)合關(guān)系。本文修改了去噪得分函數(shù),以引導(dǎo)去噪過(guò)程朝著最大化音頻同步性與自然性的方向前進(jìn)。
由于優(yōu)化后的 audio embeddings 本質(zhì)上也依賴(lài)于潛變量,而不僅僅依賴(lài)外部音頻信號(hào),我們的 Audio Native Guidance 不再將 audio embeddings 作為一個(gè)獨(dú)立于潛變量的外部特征,而是將其作為一個(gè)與潛變量相關(guān)的擴(kuò)散模型的內(nèi)部特征,我們的引導(dǎo)機(jī)制能夠直接作用于擴(kuò)散模型的采樣分布,將生成過(guò)程引導(dǎo)至音頻–潛變量的聯(lián)合分布,并使擴(kuò)散模型在整個(gè)去噪過(guò)程中不斷優(yōu)化其生成結(jié)果。
我們進(jìn)一步將上述公式轉(zhuǎn)化為得分函數(shù)形式:
因此最終推導(dǎo)公式為:
Dynamic Weighted Sliding-Window Strategy
與先前的滑窗去噪策略相比,我們?cè)谙噜彺翱诘闹丿B潛變量上引入了滑動(dòng)融合機(jī)制,其中融合權(quán)重依據(jù)相對(duì)幀索引采用對(duì)數(shù)插值分布。融合后的潛變量會(huì)回注到兩個(gè)相鄰窗口中,從而保證中央窗口的兩側(cè)邊界均由混合特征構(gòu)成。
借助對(duì)數(shù)加權(quán)函數(shù),可在視頻片段之間的過(guò)渡中引入一種漸進(jìn)式平滑效果:早期階段的權(quán)重變化更為顯著,而后期階段變化趨于平緩,從而實(shí)現(xiàn)跨視頻片段的無(wú)縫銜接,具體算法流程如下面算法表和圖像所述。
生成結(jié)果示例
https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7
https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7
https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7
https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7
https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7
實(shí)驗(yàn)對(duì)比
https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7
https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7
https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.