網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

復(fù)旦&微軟提出首個(gè)端到端無(wú)限時(shí)長(zhǎng)音頻驅(qū)動(dòng)的人類(lèi)視頻生成新框架!

2025-09-01 18:59:51　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在《流浪地球 2》中圖恒宇將 AI 永生數(shù)字生命變?yōu)榭赡?，旨為將人?lèi)意識(shí)進(jìn)行數(shù)字化備份并進(jìn)行意識(shí)上傳，以實(shí)現(xiàn)人類(lèi)文明的完全數(shù)字化。

如今隨著擴(kuò)散模型的興起極大，涌現(xiàn)出大量基于音頻驅(qū)動(dòng)的數(shù)字人生成工作。具體而言，語(yǔ)音驅(qū)動(dòng)人類(lèi)視頻生成旨在基于參考圖像與音頻，合成面部表情與身體動(dòng)作與音頻高度同步的自然人像視頻，在電影制作、游戲制作、虛擬現(xiàn)實(shí)、直播帶貨等領(lǐng)域具有廣泛的應(yīng)用前景。

但是，現(xiàn)有方法僅能生成時(shí)長(zhǎng)不足 15 秒的短視頻，一旦模型嘗試生成超過(guò) 15 秒的視頻，就會(huì)出現(xiàn)明顯的身體變形與外觀不一致現(xiàn)象，尤其集中在面部區(qū)域，這使目前數(shù)字人技術(shù)還無(wú)法達(dá)到《流浪地球 2》中圖恒宇所創(chuàng)造的 AI 永生數(shù)字生命那樣的程度，嚴(yán)重限制了其實(shí)際應(yīng)用價(jià)值。

為了解決這一問(wèn)題，一些方法嘗試在音頻驅(qū)動(dòng)人類(lèi)視頻生成中引入一致性保持機(jī)制，但很少有工作深入探討問(wèn)題的根本原因?，F(xiàn)有策略——無(wú)論是利用運(yùn)動(dòng)幀（Motion Frame），還是在推理過(guò)程中采用多種滑動(dòng)窗口機(jī)制——都只能在一定程度上提升長(zhǎng)視頻的平滑性，卻無(wú)法從根本上緩解無(wú)限時(shí)長(zhǎng)頭像視頻的質(zhì)量退化問(wèn)題。

另一種可行方案是將長(zhǎng)音頻切分為多個(gè)片段，分別處理后再拼接成連續(xù)的視頻。然而，這種方式不可避免地會(huì)在片段銜接處引入不一致和突兀的過(guò)渡。

因此，對(duì)于語(yǔ)音驅(qū)動(dòng)的人類(lèi)視頻生成而言，實(shí)現(xiàn)端到端的無(wú)限時(shí)長(zhǎng)高保真視頻生成依然是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。

為了解決上述問(wèn)題，來(lái)自復(fù)旦、微軟、西交等研究團(tuán)隊(duì)提出 StableAvatar 框架，以實(shí)現(xiàn)無(wú)限時(shí)長(zhǎng)音頻驅(qū)動(dòng)的高保真人類(lèi)視頻生成，目前代碼已開(kāi)源，包括推理代碼和訓(xùn)練代碼。

論文標(biāo)題：StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
論文地址：https://arxiv.org/abs/2508.08248
項(xiàng)目主頁(yè)：https://francis-rings.github.io/StableAvatar/
項(xiàng)目代碼：https://github.com/Francis-Rings/StableAvatar
項(xiàng)目 Demo：https://www.bilibili.com/video/BV1hUt9z4EoQ

方法簡(jiǎn)介

如下圖所示，StableAvatar 是基于 Wan2.1-1.3B 基座模型開(kāi)發(fā)的，首先將音頻輸入 Wav2Vec 模型中提取 audio embeddings，隨后通過(guò)我們提出的音頻適配器（Audio Adapter）進(jìn)行優(yōu)化，以減少潛變量分布誤差的累積。

經(jīng)過(guò)優(yōu)化的 audio embeddings 會(huì)輸入至去噪 DiT 中進(jìn)行處理。參考圖像的處理通過(guò)兩條路徑輸入擴(kuò)散模型：

沿時(shí)間軸將參考圖像與零填充幀拼接，并通過(guò)凍結(jié)的 3D VAE Encoder 轉(zhuǎn)換為潛變量編碼（latent code）。該潛變量編碼在通道軸上與壓縮后的視頻幀及二值掩碼（第一幀為 1，后續(xù)所有幀為 0）拼接。
通過(guò) CLIP Encoder 編碼參考圖像以獲得 image embeddings，并將其輸入到去噪 DiT 的每個(gè)圖像-音頻交叉注意力模塊中，用于約束生成對(duì)象的外觀。

在推理階段，我們將原始輸入視頻幀替換為隨機(jī)噪聲，而保持其他輸入不變。我們提出了一種新穎的音頻原生引導(dǎo)（Audio Native Guidance）方法，以替代傳統(tǒng)的 Classify-Free-Guidance，從而進(jìn)一步促進(jìn)唇形同步與面部表情生成。此外，我們引入了一種動(dòng)態(tài)加權(quán)滑動(dòng)窗口去噪策略，通過(guò)在時(shí)間維度上融合潛變量，以提升長(zhǎng)視頻生成過(guò)程中的視頻平滑性。

Timestep-aware Audio Adapter

以往的方法在生成超過(guò) 15 秒的虛擬人視頻時(shí)，往往出現(xiàn)明顯的面部與身體扭曲，以及顏色漂移。這主要源于它們的音頻建模方式：直接將第三方預(yù)訓(xùn)練的音頻嵌入通過(guò)交叉注意力注入擴(kuò)散模型。由于當(dāng)前的擴(kuò)散主干缺乏音頻相關(guān)的先驗(yàn)知識(shí)，在注入過(guò)程中會(huì)在跨片段之間逐步累積潛在分布誤差，使得后續(xù)片段的潛在分布逐漸偏離最優(yōu)解。

為了解決這一問(wèn)題，本文提出了一種新穎的 Timestep-aware Audio Adapter，其中音頻嵌入通過(guò)多個(gè)仿射調(diào)制和交叉注意力模塊與時(shí)間步嵌入和潛在特征進(jìn)行交互，如上圖（a）所述。

具體而言，初始音頻嵌入（Query）依次與初始潛變量（Key 和 Value）進(jìn)行交叉注意力計(jì)算，隨后結(jié)合 timestep embeddings 進(jìn)行 affine modulation，從而得到優(yōu)化后的音頻嵌入。由于 timestep embeddings 與潛變量高度相關(guān)，這一設(shè)計(jì)潛在地迫使擴(kuò)散模型在每個(gè)時(shí)步上建模音頻–潛變量的聯(lián)合特征分布，從而有效緩解因缺乏音頻先驗(yàn)而導(dǎo)致的潛變量分布誤差累積，優(yōu)化后的音頻嵌入（Key 和 Value）最后通過(guò)交叉注意力與潛變量（Query）交互后注入擴(kuò)散模型。

Audio Native Guidance

為了進(jìn)一步增強(qiáng)音頻同步性和面部表情，本文提出了一種新穎的 Audio Native Guidance 機(jī)制，用以替代傳統(tǒng)的 CFG，它未考慮音頻與潛在特征的聯(lián)合關(guān)系。本文修改了去噪得分函數(shù)，以引導(dǎo)去噪過(guò)程朝著最大化音頻同步性與自然性的方向前進(jìn)。

由于優(yōu)化后的 audio embeddings 本質(zhì)上也依賴(lài)于潛變量，而不僅僅依賴(lài)外部音頻信號(hào)，我們的 Audio Native Guidance 不再將 audio embeddings 作為一個(gè)獨(dú)立于潛變量的外部特征，而是將其作為一個(gè)與潛變量相關(guān)的擴(kuò)散模型的內(nèi)部特征，我們的引導(dǎo)機(jī)制能夠直接作用于擴(kuò)散模型的采樣分布，將生成過(guò)程引導(dǎo)至音頻–潛變量的聯(lián)合分布，并使擴(kuò)散模型在整個(gè)去噪過(guò)程中不斷優(yōu)化其生成結(jié)果。

我們進(jìn)一步將上述公式轉(zhuǎn)化為得分函數(shù)形式：

因此最終推導(dǎo)公式為：

Dynamic Weighted Sliding-Window Strategy

與先前的滑窗去噪策略相比，我們?cè)谙噜彺翱诘闹丿B潛變量上引入了滑動(dòng)融合機(jī)制，其中融合權(quán)重依據(jù)相對(duì)幀索引采用對(duì)數(shù)插值分布。融合后的潛變量會(huì)回注到兩個(gè)相鄰窗口中，從而保證中央窗口的兩側(cè)邊界均由混合特征構(gòu)成。

借助對(duì)數(shù)加權(quán)函數(shù)，可在視頻片段之間的過(guò)渡中引入一種漸進(jìn)式平滑效果：早期階段的權(quán)重變化更為顯著，而后期階段變化趨于平緩，從而實(shí)現(xiàn)跨視頻片段的無(wú)縫銜接，具體算法流程如下面算法表和圖像所述。

生成結(jié)果示例

https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7

實(shí)驗(yàn)對(duì)比

https://mp.weixin.qq.com/s/BoHk9XZRdaSGMSK-9_PpGA?click_id=7

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.