成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

復(fù)旦&微軟開源StableAnimator: 首個端到端ID一致性人類視頻生成

0
分享至



第一作者、第二作者分別為復(fù)旦大學(xué)研究生涂樹源、邢楨,通訊作者為復(fù)旦大學(xué)吳祖煊副教授。

近年來,擴散模型在圖像與視頻合成領(lǐng)域展現(xiàn)出強大能力,為圖像動畫技術(shù)的發(fā)展帶來了新的契機。特別是在人物圖像動畫方面,該技術(shù)能夠基于一系列預(yù)設(shè)姿態(tài)驅(qū)動參考圖像,使其動態(tài)化,從而生成高度可控的人體動畫視頻。此類技術(shù)在多個應(yīng)用場景中展現(xiàn)出巨大潛力,包括:(1)影視行業(yè):為動畫制作提供高效解決方案,使虛擬角色的動畫生成更加精細(xì)與便捷。(2)游戲行業(yè):賦予游戲角色和虛擬人物自然流暢的動作表現(xiàn),增強交互體驗,使虛擬世界更加真實。(3)自媒體內(nèi)容創(chuàng)作:助力短視頻創(chuàng)作者與數(shù)字藝術(shù)家拓展創(chuàng)意邊界,實現(xiàn)高度定制化的動態(tài)形象設(shè)計。

人像動畫生成的關(guān)鍵在于:基于參考圖像和輸入的動作序列合成動態(tài)視頻,同時確保人物身份特征(尤其是面部信息)的一致性。然而,現(xiàn)有方法在處理復(fù)雜動作變化時仍然面臨諸多挑戰(zhàn):(1)身份一致性受損,面部區(qū)域在劇烈動作下易產(chǎn)生形變和失真,難以保持穩(wěn)定的個體特征。(2)視頻質(zhì)量下降,當(dāng)前最先進的人像動畫生成模型(如 MimicMotion 和 ControlneXt)依賴外部換臉工具(FaceFusion)進行后處理,這種方式雖能改善局部細(xì)節(jié),但往往降低整體視頻的視覺質(zhì)量。(3)空間與時間建模的矛盾,即便已有眾多專注于身份一致性的圖像生成模型,直接將其嵌入視頻擴散模型卻常導(dǎo)致建模沖突。其根本原因在于,視頻擴散模型引入時間建模層后,原本穩(wěn)定的空間特征分布被擾動,而基于圖像 的 ID 保護方法通常依賴于靜態(tài)的空間特征分布,這種失衡導(dǎo)致身份保持能力下降,并在 ID 還原與視頻流時序暢度之間產(chǎn)生難以調(diào)和的矛盾。

為了解決上述問題,我們提出了 StableAnimator 框架,以實現(xiàn)高質(zhì)量和高保真的 ID 一致性人類視頻生成,目前代碼已開源,包括推理代碼和訓(xùn)練代碼。



  • 論文地址:https://arxiv.org/abs/2411.17697
  • 項目主頁:https://francis-rings.github.io/StableAnimator/
  • 項目代碼:https://github.com/Francis-Rings/StableAnimator
  • 項目 Demo: https://www.bilibili.com/video/BV1X5zyYUEuD

方法簡介

如圖所示,StableAnimator 在 Stable Video Diffusion (SVD) 這一常用骨干模型的基礎(chǔ)上進行構(gòu)建,以高效處理用戶輸入的參考圖像,生成符合輸入姿態(tài)序列的視頻。其關(guān)鍵流程包括三條并行的特征提取與融合路徑:(1)參考圖像首先通過凍結(jié)的 VAE 編碼器轉(zhuǎn)換為潛變量特征,這些特征被復(fù)制以匹配視頻幀數(shù),并與主要潛變量拼接,以確保時序一致性。(2)圖像同時經(jīng)過 CLIP 圖像編碼器,提取全局外觀嵌入,這些嵌入分別輸入至去噪 U-Net 的每個交叉注意力層以及 StableAnimator 專門設(shè)計的面部編碼器,以增強生成圖像的外觀一致性。(3)此外,圖像還經(jīng)過 ArcFace 進行面部特征提取,生成的面部嵌入進一步由 StableAnimator 的面部編碼器優(yōu)化,以提升面部對齊度和身份一致性,優(yōu)化后的嵌入最終輸入至去噪 U-Net 以指導(dǎo)生成過程。同時,PoseNet 結(jié)構(gòu)(類似于 AnimateAnyone)負(fù)責(zé)提取輸入姿態(tài)序列的運動特征,并將其添加至噪聲潛變量特征中,以確保生成視頻的姿態(tài)精準(zhǔn)匹配輸入序列。

在推理階段,StableAnimator 采用去噪生成策略,將原始輸入視頻幀替換為隨機噪聲,同時保持其他輸入信息不變,以確保生成過程的靈活性和泛化能力。其核心創(chuàng)新在于引入了一種基于 Hamilton-Jacobi-Bellman(HJB)方程的面部優(yōu)化方法,以提升身份一致性并徹底擺脫對外部換臉工具的依賴。具體而言,該方法將 HJB 方程的求解過程嵌入到去噪步驟中,通過計算 HJB 方程的最優(yōu)解,引導(dǎo) U-Net 在潛變量特征的分布調(diào)整上朝向更高的身份一致性方向收斂。這樣一來,去噪過程不僅僅是對隨機噪聲的純粹去除,更是一個動態(tài)優(yōu)化過程,使生成的視頻在保持高質(zhì)量的同時,實現(xiàn)面部特征的精準(zhǔn)保留,從而在身份一致性與視頻保真度之間達到更優(yōu)的平衡。

StableAnimator 的核心技術(shù)點包括以下三個方面:

(1)全局內(nèi)容感知面部編碼器(Global Content-aware Face Encoder):該編碼器創(chuàng)新性地將面部特征與全局圖像布局深度融合,利用多層交叉注意力機制,使面部嵌入特征精準(zhǔn)對齊參考圖像的整體上下文。通過這種方式,它有效過濾掉與身份無關(guān)的背景噪聲,確保面部建模更加穩(wěn)定,從而提高面部特征的一致性和清晰度。

(2)分布感知的身份適配器(Distribution-aware ID Adapter):針對擴散模型中時序?qū)訉臻g特征分布的干擾問題,該適配器引入了一種分布對齊策略。具體而言,它通過計算面部特征和全局圖像特征的均值與方差,確保二者在整個去噪過程中保持一致性,避免特征偏移和失真。該適配器的設(shè)計使得面部特征能夠無縫適配時序建模層,同時維持視頻整體的空間一致性和視覺質(zhì)量。

(3)基于 Hamilton-Jacobi-Bellman (HJB) 方程的面部優(yōu)化:此優(yōu)化過程僅在推理階段激活,并不會影響 U-Net 的參數(shù)更新。StableAnimator 通過在擴散推理過程中引入 HJB 方程優(yōu)化,使面部特征的調(diào)整遵循最優(yōu)路徑選擇原則。HJB 優(yōu)化過程與去噪步驟并行進行,使優(yōu)化后的變量對去噪路徑施加約束,從而促使模型在生成過程中保留更高的身份一致性,同時顯著減少面部區(qū)域的細(xì)節(jié)損失,確保視頻的高質(zhì)量輸出。

生成結(jié)果示例









請點擊訪問項目主頁(https://francis-rings.github.io/StableAnimator/)獲取以上示例的高清原視頻。

實驗對比分析

1. 與 SOTA 方法的定性對比實驗



現(xiàn)有方法在處理面部和身體變形以及服裝變化方面存在明顯局限。例如,Disco、MagicAnimate、AnimateAnyone 和 Champ 在姿態(tài)轉(zhuǎn)換過程中容易導(dǎo)致面部特征扭曲或服裝結(jié)構(gòu)丟失,而 Unianimate 在動作匹配方面表現(xiàn)良好,能夠精準(zhǔn)調(diào)整參考圖像的姿態(tài),但仍難以保證身份一致性。同時,MimicMotion 和 ControlNeXt 在保留服裝細(xì)節(jié)方面具有優(yōu)勢,但在身份特征一致性上仍然存在缺陷。相比之下,StableAnimator 通過精確建模姿勢序列驅(qū)動圖像動畫化,在動態(tài)生成過程中不僅保持了參考圖像的身份特征完整性,而且確保了生成結(jié)果的細(xì)節(jié)準(zhǔn)確性和生動性,充分展現(xiàn)了在身份一致性和高質(zhì)量動畫生成方面的顯著優(yōu)勢。

2. 與 SOTA 方法的定量對比實驗



StableAnimator 在 TikTok 數(shù)據(jù)集和 Unseen100 數(shù)據(jù)集上與當(dāng)前最先進(SOTA)的人像圖像動畫模型進行了定量對比。其中,Unseen100 數(shù)據(jù)集從主流視頻網(wǎng)站額外收集的 100 個視頻組成,相較于 TikTok 數(shù)據(jù)集,Unseen100 具有更復(fù)雜的動作信息和更精細(xì)的主體外觀,尤其是包含位置變化和面部表情動態(tài)變化(如搖頭動作),使得保持身份一致性更具挑戰(zhàn)性。為了確保公平性,所有模型均在 StableAnimator 的訓(xùn)練集上進行訓(xùn)練后,再在 Unseen100 上進行評估。對比實驗結(jié)果表明,StableAnimator 在面部質(zhì)量(CSIM)和視頻保真度(FVD)方面均超越所有對比模型,同時保持了較高的單幀質(zhì)量。特別是,相較于當(dāng)前最優(yōu)的 Unianimate,StableAnimator 在 TikTok 和 Unseen100 數(shù)據(jù)集上的 CSIM 分別提升了 36.9% 和 45.8%,而這一顯著的身份一致性提升并未以犧牲視頻保真度和單幀質(zhì)量為代價,充分驗證了其在高質(zhì)量人像動畫生成中的卓越性能。

3. 與 SOTA 方法在長視頻生成的對比實驗







視頻鏈接:https://mp.weixin.qq.com/s/qK3s-us2XeDv7phW83W5BQ

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
真慘,這只國企建材股下跌了15年,從139跌到了1.7,多只基金被套

真慘,這只國企建材股下跌了15年,從139跌到了1.7,多只基金被套

小舟談歷史
2025-08-30 15:34:38
斯諾克戰(zhàn)報!肖國棟6分,出租車司機連續(xù)2桿破百追平,搶10變搶5

斯諾克戰(zhàn)報!肖國棟6分,出租車司機連續(xù)2桿破百追平,搶10變搶5

劉姚堯的文字城堡
2025-08-30 19:50:18
中方公布名單,歐盟卻尷尬了,意總理警告:我們連上桌資格都沒有

中方公布名單,歐盟卻尷尬了,意總理警告:我們連上桌資格都沒有

愛下廚的阿釃
2025-08-30 12:24:09
胡歌三年抱倆,黃曦寧朋友圈曝光,承認(rèn)二胎兒子,不哭不鬧超乖

胡歌三年抱倆,黃曦寧朋友圈曝光,承認(rèn)二胎兒子,不哭不鬧超乖

鑫鑫說說
2025-08-29 10:32:50
廣東男籃三消息:崔永熙報到時間確定,王少杰沒走,徐昕還回來!

廣東男籃三消息:崔永熙報到時間確定,王少杰沒走,徐昕還回來!

硯底沉香
2025-08-30 19:40:07
2025下半年,霉運清零,鴻運當(dāng)頭,注定大富大貴的三個星座

2025下半年,霉運清零,鴻運當(dāng)頭,注定大富大貴的三個星座

小晴星座說
2025-08-30 18:26:07
1968年周總理找黃永勝談話后,黃永勝見到林彪:林總,我有個請求

1968年周總理找黃永勝談話后,黃永勝見到林彪:林總,我有個請求

談古論今歷史有道
2025-08-30 13:34:50
提新車住豪宅,68歲“丁克”了一輩子的葛優(yōu),最終活成了人生贏家

提新車住豪宅,68歲“丁克”了一輩子的葛優(yōu),最終活成了人生贏家

瓜農(nóng)娟姐
2025-08-30 16:06:15
楊采鈺破防回懟網(wǎng)友!被曝沒領(lǐng)證給人當(dāng)小老婆,本人反駁:離大譜

楊采鈺破防回懟網(wǎng)友!被曝沒領(lǐng)證給人當(dāng)小老婆,本人反駁:離大譜

萌神木木
2025-08-30 13:19:11
一個十分危險的信號,美國不裝了,要硬搶了,但在中國卻無人在意

一個十分危險的信號,美國不裝了,要硬搶了,但在中國卻無人在意

小舟談歷史
2025-08-30 18:19:42
也門胡塞高官凌晨遭一鍋端!防空崩了:以軍追著打?qū)椪◤椧黄鹫?>
    </a>
        <h3>
      <a href=起喜電影
2025-08-29 16:17:48
隆妮!狂飆(高啟蘭)驚艷照曝光,網(wǎng)友:太美了!

隆妮!狂飆(高啟蘭)驚艷照曝光,網(wǎng)友:太美了!

娛樂領(lǐng)航家
2025-08-28 23:00:03
特朗普,突發(fā)!關(guān)稅大消息!美股突變!

特朗普,突發(fā)!關(guān)稅大消息!美股突變!

證券時報e公司
2025-08-30 07:50:00
1967年,馬思聰“叛逃”到美國,周總理:這是我平生兩件憾事之一

1967年,馬思聰“叛逃”到美國,周總理:這是我平生兩件憾事之一

帝哥說史
2025-08-29 23:08:21
日本干擾九三閱兵失??!30個歐洲國確定出席央媒四字回應(yīng)大快人心

日本干擾九三閱兵失?。?0個歐洲國確定出席央媒四字回應(yīng)大快人心

壹知眠羊
2025-08-29 11:29:56
河南加油站學(xué)胖東來,直接公示進價,員工漲工資,網(wǎng)友卻質(zhì)疑了!

河南加油站學(xué)胖東來,直接公示進價,員工漲工資,網(wǎng)友卻質(zhì)疑了!

涵豆說娛
2025-08-30 17:14:02
何小鵬飄了?小鵬汽車被新華社痛批:隱瞞缺陷,瞞天過海

何小鵬飄了?小鵬汽車被新華社痛批:隱瞞缺陷,瞞天過海

象視汽車
2025-08-29 07:00:05
4-1!蓉城掀翻衛(wèi)冕冠軍登榜首,前國腳發(fā)揮失常,中超爭冠白熱化

4-1!蓉城掀翻衛(wèi)冕冠軍登榜首,前國腳發(fā)揮失常,中超爭冠白熱化

環(huán)太平洋老正太
2025-08-30 21:34:12
重要賽事:8月31日晚18點,央視CCTV5直播有變,中國女排沖擊8強

重要賽事:8月31日晚18點,央視CCTV5直播有變,中國女排沖擊8強

體育就你秀
2025-08-30 12:14:02
凱迪拉克全新XT5正式上市,驚喜價22.99萬元起

凱迪拉克全新XT5正式上市,驚喜價22.99萬元起

每人Auto
2025-08-29 23:56:29
2025-08-30 22:08:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來四季度必須盈利

頭條要聞

以色列資深外交官:馬克龍早就決定承認(rèn)巴勒斯坦國了

頭條要聞

以色列資深外交官:馬克龍早就決定承認(rèn)巴勒斯坦國了

體育要聞

淘汰曼聯(lián)的英乙隊,仍然沒有忘記張恩華

娛樂要聞

吳京風(fēng)波拉出多位明星

財經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

輔助駕駛新賽道 理想VLA司機大模型即將全量推送

態(tài)度原創(chuàng)

健康
藝術(shù)
旅游
手機
軍事航空

精神科專家解答學(xué)習(xí)困難七大問題

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

突發(fā),OPPO A6 Max手機突然上架開賣,1599元起!

軍事要聞

美國務(wù)院批準(zhǔn)對烏新軍售

無障礙瀏覽 進入關(guān)懷版