成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

告別「面癱」配音,InfiniteTalk開啟從口型同步到全身表達新范式

0
分享至



傳統(tǒng) video dubbing 技術長期受限于其固有的 “口型僵局”,即僅能編輯嘴部區(qū)域,導致配音所傳遞的情感與人物的面部、肢體表達嚴重脫節(jié),削弱了觀眾的沉浸感,F(xiàn)有新興的音頻驅(qū)動視頻生成模型,在應對長視頻序列時也暴露出身份漂移和片段過渡生硬等問題。為解決這些痛點,Infinitetalk 引入 “稀疏幀 video dubbing”。

這一新范式從根本上重新定義了 video dubbing,將其從簡單的 “嘴部區(qū)域修復” 轉(zhuǎn)變?yōu)?“以稀疏關鍵幀為引導的全身視頻生成”。該模型不僅能夠?qū)崿F(xiàn)口型與配音的精準同步,更實現(xiàn)了面部表情、頭部轉(zhuǎn)動和肢體語言與音頻所表達情感的自然對齊,消除長視頻生成中的累積誤差和突兀過渡。

InfiniteTalk 是由美團視覺智能部主導研發(fā)的新型虛擬人驅(qū)動技術,技術論文、代碼、權(quán)重已開源。 美團視覺智能部能圍繞豐富的本地生活電商場景,建設從基礎通用到細分領域的視覺技術能力,包括視覺生成大模型、多模交互虛擬人,助力營銷創(chuàng)意生產(chǎn)和商家低成本直播;文檔、商品、安全多模態(tài)大模型,助力商家開店經(jīng)營、平臺商品治理和違規(guī)賬號治理;人臉識別、文字識別、細粒度圖像分析、高性能檢測分割、街景理解成為公司基礎設施能力。



  • 項目主頁:https://meigen-ai.github.io/InfiniteTalk/
  • 開源代碼:https://github.com/MeiGen-AI/InfiniteTalk
  • 技術報告:https://arxiv.org/abs/2508.14033

我們先看示例:

一、引言 ——video dubbing 的一個長期痛點

長期以來,video dubbing 一直面臨一個核心的 “僵局”—— 其編輯范圍的局限性。傳統(tǒng)的 video dubbing 技術,例如 MuseTalk 和 LatentSync,通常專注于對嘴部區(qū)域進行 “修復式” 編輯,以實現(xiàn)口型與新音頻的同步。這種方法的主要局限在于,它幾乎不觸及人物的面部表情、頭部轉(zhuǎn)動和肢體動作。

這種 “局部編輯” 的策略導致了一個嚴重的矛盾:當配音表達出強烈的情感(例如激動、憤怒或喜悅)時,視頻中人物的身體姿態(tài)卻保持著僵硬或靜止狀態(tài)。例如,一段充滿激情的對話,人物卻只是面部肌肉輕微抽動,身體保持紋絲不動。這種視聽信息的不一致性會嚴重破壞觀眾的沉浸感,使生成的視頻顯得不自然,缺乏說服力。這種矛盾感的存在,從根本上制約了配音視頻的質(zhì)量,并成為內(nèi)容創(chuàng)作者亟待解決的難題。如圖 1 所示。



隨著人工智能技術的發(fā)展,一些音頻驅(qū)動的視頻生成模型應運而生,試圖解決這一問題。然而,直接將這些模型應用于長 video dubbing 任務,同樣暴露出新的、且同樣關鍵的挑戰(zhàn)。

首先是基于圖像轉(zhuǎn)視頻(Image-to-Video, I2V)的方法。這類模型通常以視頻的首幀圖像作為初始參考,然后根據(jù)音頻生成后續(xù)的視頻序列。雖然這種方法在理論上提供了更大的動作自由度,但它存在嚴重的 “累積誤差” 問題,如圖 2 (left)。由于模型缺乏持續(xù)的原始關鍵幀作為錨定,在生成較長的視頻序列時,人物的身份特征(如面部細節(jié)、發(fā)型等)會逐漸偏離源視頻,甚至背景的色調(diào)也可能發(fā)生不可控的偏移,導致視頻質(zhì)量隨時間推移而下降。

其次是基于首末幀轉(zhuǎn)視頻(First-Last-frame-to-Video, FL2V)的方法。該方法試圖通過同時使用視頻片段的起始幀和終止幀作為參考來解決累積誤差。然而,這種策略帶來了另一個問題:過渡生硬, 如圖 2(right)。FL2V 模型生成過程缺乏從前一片段向后一片段傳遞的 “動量信息”,不同視頻片段之間的動作銜接會顯得突兀和不自然,打破了視頻流的連續(xù)性。與此同時,其過于嚴格地遵循固定的參考幀,強制生成的視頻在片段(chunk)的邊界上精確復制參考幀的姿態(tài),即使這種姿態(tài)與新音頻的情感或節(jié)奏相悖。

這兩種主流 AI 方案的局限性揭示了一個核心矛盾:即 “局部編輯的僵硬” 與 “全局生成的失控”。傳統(tǒng)方法因編輯范圍狹窄而僵硬,而新興的 AI 生成模型則在長視頻的連貫性上遭遇了挑戰(zhàn)。



二、新的范式:稀疏幀 video dubbing

為了從根本上解決上述挑戰(zhàn),Infinitetalk 引入了一個全新的技術范式 ——“稀疏幀 video dubbing”。這一范式徹底改變了 video dubbing 的技術哲學:它不再將任務定義為對嘴部區(qū)域的 “修復”(inpainting),而是將其重構(gòu)為一場 “以稀疏關鍵幀為引導的全身視頻生成”。其核心理念在于,不是逐幀地、僵硬地復制源視頻,而是策略性地僅保留和利用源視頻中的少數(shù)關鍵幀(sparse keyframes)作為核心參考。這些關鍵幀如同 “視覺錨點”,在生成過程中發(fā)揮著至關重要的作用。



為了應對無限長度的視頻序列生成任務,InfiniteTalk 采用了流式(streaming)生成架構(gòu),整體網(wǎng)絡框架如圖 4 所示。其工作原理是將一個超長視頻分解為多個小的、可管理的視頻片段(chunks),然后逐一進行生成。然而,與簡單的分段生成不同,InfiniteTalk 的核心在于其精巧設計的 “上下文幀”(context frames)機制。

當模型生成一個新片段時,它不僅僅依賴于源視頻的參考幀,還會利用上一段已生成視頻的末尾幀作為下一段生成的 “動量信息”。這些上下文幀為新片段的生成提供了必要的 “時間上下文”,使其能夠承接前一片段的運動趨勢和動態(tài),確保動作的連續(xù)性和流暢性。這一機制如同接力賽中的接力棒,將前一棒的沖刺動量無縫傳遞給下一棒,從而徹底解決了傳統(tǒng) FL2V 模型中因缺乏動量信息而導致的片段間突兀過渡問題。通過流式架構(gòu)和上下文幀機制的結(jié)合,InfiniteTalk 成功地將 “片段生成” 任務提升為 “連續(xù)流生成”,這是其實現(xiàn) “無限長度” 生成能力的技術基石。

在 “稀疏幀 video dubbing” 范式下,一個關鍵的挑戰(zhàn)是如何在 “自由表達” 與 “跟隨參考” 之間找到微妙的平衡。過于嚴格地復制參考幀(如 M1 策略)會導致生成的動作僵硬,而如果控制過于松散(如 M2 策略),則又會面臨身份和背景失真等問題。InfiniteTalk 的核心策略是采用一種 “軟條件”(soft conditioning)控制機制 。該機制的核心發(fā)現(xiàn)是,模型的控制強度并非固定不變,而是由 “視頻上下文和參考圖像的相似度” 所決定 。基于這一發(fā)現(xiàn),Infinitetalk 設計了一種獨特的采樣策略,通過 “細粒度的參考幀定位”(fine-grained reference frame positioning)來動態(tài)調(diào)整控制強度,從而在動作自然度與參考幀的保真度之間取得平衡。



如表 3 所示,M0 策略因隨機采樣而控制強度過高,導致模型不恰當?shù)貜椭茀⒖紕幼,削弱了同步性。M1 策略雖然在視覺質(zhì)量上表現(xiàn)尚可,但在同步性上表現(xiàn)較差,因為它過于嚴格地復制了邊界幀。M2 策略因參考幀與上下文幀的時間距離過遠,導致模型對身份和背景的控制力不足,最終在視覺質(zhì)量(FID、FVD)上表現(xiàn)最差。

最終被采納的 M3 策略,通過在訓練中從鄰近分塊(adjacent chunks)中采樣參考幀,找到了一個 “最優(yōu)平衡點”(optimal equilibrium)。這種策略既能確保模型在視覺上遵循源視頻的風格,又能賦予模型根據(jù)音頻動態(tài)生成全身動作的自由。



此外,該模型還能通過集成 SDEdit 或 Uni3C 等插件,實現(xiàn)對源視頻中微妙的鏡頭運動(camera movement)的精確保留。這一點至關重要,因為它確保了生成的視頻不僅人物動作自然,連畫面的構(gòu)圖和運鏡都與源視頻保持一致,進一步提升了視頻的真實感和連貫性。

三、實驗數(shù)據(jù)與視覺實證

為了全面驗證 InfiniteTalk 的性能,將其與多個方法進行了對比。





不同相機控制方法的對比:



四、結(jié)語與展望

InfiniteTalk 成功解決了 “僵硬” 與 “斷裂” 兩大痛點。其核心技術 —— 流式生成架構(gòu)、軟條件控制以及全方位同步能力,共同為高質(zhì)量、長序列的視頻內(nèi)容生成提供了新的解決方案。在短視頻創(chuàng)作、虛擬偶像、在線教育以及沉浸式體驗等領域,這項技術可以為創(chuàng)作者提供強大的工具,以更低的成本、更高的效率生成富有表現(xiàn)力的動態(tài)內(nèi)容,徹底打破現(xiàn)有制作流程的瓶頸。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
血淚澆灌的烏克蘭陣亡將士紀念日;普通人為何必須關注世界大事?

血淚澆灌的烏克蘭陣亡將士紀念日;普通人為何必須關注世界大事?

近距離
2025-08-30 10:09:49
1-1,2-1!西甲最新戰(zhàn)報:皇馬3連勝領跑,馬競3場不勝

1-1,2-1!西甲最新戰(zhàn)報:皇馬3連勝領跑,馬競3場不勝

sh山海足球
2025-08-31 10:03:09
震驚!家委建議請家政搞教室衛(wèi)生,費用分攤7.3元,引發(fā)家長抱怨

震驚!家委建議請家政搞教室衛(wèi)生,費用分攤7.3元,引發(fā)家長抱怨

火山詩話
2025-08-31 05:51:49
師徒反目?徐昕發(fā)40字小作文,感謝老東家栽培,一字不提恩師杜鋒

師徒反目?徐昕發(fā)40字小作文,感謝老東家栽培,一字不提恩師杜鋒

娛樂看阿敞
2025-08-30 16:45:03
貨車司機路邊買西瓜忘付錢,往返15公里送還19.5元,賣瓜大姐:沒事沒事,忘了就算了

貨車司機路邊買西瓜忘付錢,往返15公里送還19.5元,賣瓜大姐:沒事沒事,忘了就算了

極目新聞
2025-08-30 17:21:33
三名日本女性到臺灣賣淫:一人自稱AV女優(yōu),收費翻四倍,最終全被強制遣返

三名日本女性到臺灣賣淫:一人自稱AV女優(yōu),收費翻四倍,最終全被強制遣返

日本物語
2025-08-30 19:48:08
瞧不上國足?意大利華裔新星拒絕歸化,無視中超,只想在歐洲踢球

瞧不上國足?意大利華裔新星拒絕歸化,無視中超,只想在歐洲踢球

國足風云
2025-08-31 08:54:46
落葉歸根!那個最硬的男人終于回東北了,曾繁日正式加盟吉林!

落葉歸根!那個最硬的男人終于回東北了,曾繁日正式加盟吉林!

田先生籃球
2025-08-30 13:49:44
62歲,血虧2.5億后,姜文也許后悔離開那個“金主弟弟”了

62歲,血虧2.5億后,姜文也許后悔離開那個“金主弟弟”了

柴叔帶你看電影
2025-08-29 15:40:28
中國腦梗發(fā)病率世界第一,醫(yī)生:主要原因已查出,4種蔬菜要少吃

中國腦梗發(fā)病率世界第一,醫(yī)生:主要原因已查出,4種蔬菜要少吃

詩意世界
2025-08-26 13:31:36
100 Gbps!全球首款 6G 芯片問世

100 Gbps!全球首款 6G 芯片問世

半導體行業(yè)觀察
2025-08-30 11:02:03
奚夢瑤何猷君:6年婚姻,正式解綁。

奚夢瑤何猷君:6年婚姻,正式解綁。

LULU生活家
2025-08-30 18:05:01
“沒有遺憾了”,廣東男子16年后偶遇初戀光速訂婚,兩人已見家長決定年底結(jié)婚

“沒有遺憾了”,廣東男子16年后偶遇初戀光速訂婚,兩人已見家長決定年底結(jié)婚

極目新聞
2025-08-30 10:58:07
美女一身綠色瑜伽褲清新時尚,熱情似火,不愧是永不過時的單品

美女一身綠色瑜伽褲清新時尚,熱情似火,不愧是永不過時的單品

小喬古裝漢服
2025-08-31 08:20:02
下課僅1天,穆里尼奧新東家曝光,時隔4年重回英超,這次帶隊保級

下課僅1天,穆里尼奧新東家曝光,時隔4年重回英超,這次帶隊保級

綠茵舞著
2025-08-30 15:15:47
耐殺王!賴浩俊把石宇奇推到地獄邊緣,網(wǎng)友呼吁歸化20歲華裔天才

耐殺王!賴浩俊把石宇奇推到地獄邊緣,網(wǎng)友呼吁歸化20歲華裔天才

楊華評論
2025-08-31 02:26:25
1983年南陽慘劇:得知女婿打死的青年身份后,局長槍殺女婿后自盡

1983年南陽慘。旱弥龃蛩赖那嗄晟矸莺,局長槍殺女婿后自盡

八哥講故事
2024-01-16 00:11:39
希勒:如果利物浦同時拿下伊薩克和格伊,其他球隊就沒得玩了

希勒:如果利物浦同時拿下伊薩克和格伊,其他球隊就沒得玩了

直播吧
2025-08-31 11:58:38
中國男足夢碎:德國名帥將登陸豪門,年薪超3千萬!足協(xié)無能為力

中國男足夢碎:德國名帥將登陸豪門,年薪超3千萬!足協(xié)無能為力

國足風云
2025-08-31 09:53:36
39歲恩施富豪付君銳去世,疑因壓力大致心梗,多才多藝有勞斯萊斯

39歲恩施富豪付君銳去世,疑因壓力大致心梗,多才多藝有勞斯萊斯

裕豐娛間說
2025-08-31 09:12:48
2025-08-31 12:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142429關注度
往期回顧 全部

科技要聞

美團京東拼搶"線下折扣店",劉強東現(xiàn)身"助陣"

頭條要聞

情侶欠租失聯(lián)中介打開房門崩潰 對方還稱錢被偷要賠償

頭條要聞

情侶欠租失聯(lián)中介打開房門崩潰 對方還稱錢被偷要賠償

體育要聞

扛著別人的老婆,贏下那該死的冠軍

娛樂要聞

韓磊起訴后,女方公開道歉

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預售煥新11.28萬起

態(tài)度原創(chuàng)

本地
房產(chǎn)
時尚
公開課
軍事航空

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

房產(chǎn)要聞

顛覆認知!海口真正的豪宅作品,終于出現(xiàn)了!

我發(fā)現(xiàn)朋友圈吸引人的女生,都有這個特點!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

哈馬斯證實其軍事領導人辛瓦爾已死亡

無障礙瀏覽 進入關懷版