成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

每一幕皆可控!字節(jié)發(fā)布多主體視頻生成神器,人人皆主角

0
分享至

字節(jié) 投稿
量子位 | 公眾號 QbitAI

僅基于一張參考圖像,生成主體保持高度一致的視頻,多人同臺也不串臉

字節(jié)發(fā)布多主體視頻生成神器——MAGREF(Masked Guidance for Any?Reference Video Generation)

比如,愛因斯坦版風馳電掣**摩托,效果be like:



牛頓縱情揮筆繪制大作:



提供一張圖靈的參考圖,也能生成動起來的全身視頻,人物面貌服飾在每一幀中保持高一致性,不會逐漸跑偏:



根據(jù)多樣文本提示,MAGREF可實現(xiàn)“一圖千面”:



無論輸入是誰、來自哪個時代、風格是否抽象,它都能精準復刻其身份特征,同時根據(jù)文本指令渲染出多變的動作、環(huán)境和光影氛圍。



重要的是,不僅是單一主體生成



MAGREF在不增加模型復雜度的前提下,通過引入掩碼引導與通道拼接機制,實現(xiàn)了對多樣參考圖像的統(tǒng)一處理能力。

無論是單人演繹、多人物互動,還是人物與物體、背景共同出現(xiàn)在畫面中,MAGREF都能生成身份穩(wěn)定、結(jié)構(gòu)一致、語義協(xié)調(diào)的視頻序列。

多人同臺不串臉,人物+物體+場景全控

在傳統(tǒng)視頻生成任務中,一旦涉及多個人物共同出現(xiàn)在鏡頭中,模型就容易出現(xiàn)身份混淆、面部融合、動作不協(xié)調(diào)等問題。MAGREF則打破了這一技術(shù)瓶頸。

下面多個示例中,兩人自拍、三位女孩喝飲料等復雜場景,全部是由MAGREF通過多張參考圖生成的完整視頻序列。



每一位角色的面貌、發(fā)型、神態(tài)與參考圖一致,表情自然,互動合理。



不論是兩人同框還是群體聯(lián)動,或是人物置于復雜背景中,MAGREF都能以統(tǒng)一結(jié)構(gòu)精確建模,生成真實可信的多主體視頻。

另外,在圖像生成邁向視頻時代的過程中,想要同時控制人物身份、出現(xiàn)物體、背景語境三要素,是一項極具挑戰(zhàn)的任務。

而MAGREF展示了這一領(lǐng)域的嶄新能力邊界。

MAGREF只需輸入:一張人像圖、一張物體圖、一張環(huán)境參考圖和一段prompt,就能生成包含三類要素的完整視頻序列,人物與物體有真實交互,場景融入毫無違和感。



可以看到多種組合場景:

  • 人與寵物共處草地、與貓嬉戲;
  • 人物形象與服飾屬性一體生成,如黑色T恤、泳裝;
  • 背景從綠地到寫字樓,從鄉(xiāng)村街景到東方園林,語義清晰且風格協(xié)調(diào)。



那MAGREF是如何做到的?

基于掩碼指導的的DiT視頻生成方案

首先,MAGREF采用了一個三階段數(shù)據(jù)處理流程,以構(gòu)建高質(zhì)量、結(jié)構(gòu)清晰的視頻訓練樣本:

  • 通用篩選與字幕生成:從原始視頻中切分出語義一致的片段,過濾低質(zhì)量樣本,并為每段生成結(jié)構(gòu)化文本。
  • 主體提取與掩碼標注:通過標簽提取與語義分割識別出視頻中的關(guān)鍵物體(如動物、服飾、道具等),并進行后處理以獲得精準遮罩。
  • 人臉識別與身份建模:檢測并分配視頻中人物身份,篩選高質(zhì)量面部圖像用于參考圖構(gòu)建,確保訓練過程中的身份一致性。



另外,MAGREF構(gòu)建在DiT(Diffusion Transformer)架構(gòu)之上,通過引入兩項關(guān)鍵機制——區(qū)域感知動態(tài)遮罩與像素級通道拼接,成功實現(xiàn)了一個統(tǒng)一模型適配單人、多人、人物與物體+背景混合 等復雜視頻生成任務的能力。



具體來說,MAGREF首先在生成空間中構(gòu)建一塊空白畫布,將輸入的參考圖(可以是人臉、寵物、服飾、背景等)隨機排列其中。

隨后,模型為每張參考圖生成一張空間區(qū)域掩碼,指示該圖像在畫布中的語義位置。

這個區(qū)域感知動態(tài)遮罩機制可自動引導模型理解“誰控制哪一塊畫面”,使得在視頻生成中,即使參考圖數(shù)量和順序不同,系統(tǒng)也能保持結(jié)構(gòu)一致、身份不串、關(guān)系明確。

為了進一步提升外觀細節(jié)保真度,MAGREF還采用了像素級通道拼接策略

將所有參考圖在特征維度上逐像素對齊拼接,避免傳統(tǒng) token 拼接可能引發(fā)的圖像模糊或信息混疊問題。

該機制不僅增強了視覺一致性,也保持了生成結(jié)果對姿態(tài)、服飾、背景等細節(jié)的精準還原。

無需為不同任務單獨設計模型,MAGREF通過最小的架構(gòu)改動和統(tǒng)一的訓練流程,全面支持多種參考圖配置,實現(xiàn)了強泛化性與高可控性的平衡。

總結(jié)來說,MAGREF作為一個統(tǒng)一的參考圖驅(qū)動視頻生成框架,具備高度的通用性和靈活性,適用于從個人內(nèi)容創(chuàng)作到企業(yè)級生產(chǎn)的多種場景。

無論是通過一張自拍生成日常短片,還是合成多人互動的廣告腳本,又或是構(gòu)建虛擬人與真實場景融合的數(shù)字影像,MAGREF都展現(xiàn)出極強的生成一致性與可控性。

展望未來,團隊計劃引入更先進的模型架構(gòu),進一步提升視頻的清晰度、運動連貫性與長時一致性。

同時,MAGREF將朝著統(tǒng)一多模態(tài)生成系統(tǒng)方向演進,結(jié)合多模態(tài)大語言模型(MLLM)在理解與視覺定位上的強大能力,實現(xiàn)視頻、音頻與文本的聯(lián)動生成。

這一擴展將使系統(tǒng)不僅能“看懂”圖文指令,還能“聽懂”“說出”場景語義,從而實現(xiàn)真正意義上的跨模態(tài)、協(xié)同一致的智能內(nèi)容創(chuàng)作框架。

注:文中示例僅為展示模型效果。如有侵權(quán)或冒犯,請聯(lián)系論文作者,將及時刪除。

project: https://magref-video.github.io/magref.github.io/
code: https://github.com/MAGREF-Video/MAGREF
arXiv: https://arxiv.org/pdf/2505.23742

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
官宣:博格丹遭遇腿筋撕裂 將缺席歐洲杯剩余比賽

官宣:博格丹遭遇腿筋撕裂 將缺席歐洲杯剩余比賽

北青網(wǎng)-北京青年報
2025-08-31 19:47:15
社保的石頭 韓國已經(jīng)摸過了

社保的石頭 韓國已經(jīng)摸過了

盧詩翰
2025-08-13 21:58:51
儒·釋·道的最高境界,總結(jié)的太好了!

儒·釋·道的最高境界,總結(jié)的太好了!

金沛的國學筆記
2025-08-25 18:14:30
中央?yún)R金,萬億元持倉曝光!

中央?yún)R金,萬億元持倉曝光!

新浪財經(jīng)
2025-08-31 15:06:40
周恩來去世當天,葉劍英鄧小平紛紛到場,江青當眾高喊:小超小超

周恩來去世當天,葉劍英鄧小平紛紛到場,江青當眾高喊:小超小超

大運河時空
2025-08-30 13:09:33
1699 元!蘋果新品官宣,即將發(fā)布

1699 元!蘋果新品官宣,即將發(fā)布

芝麻科技訊官方號
2025-08-31 15:07:08
矛盾升級!石家莊某小區(qū)物業(yè)通知,更換電梯需每戶業(yè)主平攤6593元

矛盾升級!石家莊某小區(qū)物業(yè)通知,更換電梯需每戶業(yè)主平攤6593元

火山詩話
2025-08-31 08:38:18
美國宣布取消三星、SK海力士對華出售許可,人民日報的話說的沒錯

美國宣布取消三星、SK海力士對華出售許可,人民日報的話說的沒錯

一個有靈魂的作者
2025-08-31 15:40:38
6比0泰山主場狂屠國安!瓦科大四喜手刃仇敵,韓鵬神指揮雪恥戰(zhàn)

6比0泰山主場狂屠國安!瓦科大四喜手刃仇敵,韓鵬神指揮雪恥戰(zhàn)

體壇小鵬
2025-08-31 21:40:03
羅馬諾:曼聯(lián)已與大馬丁談妥個人條款,正與維拉展開接洽

羅馬諾:曼聯(lián)已與大馬丁談妥個人條款,正與維拉展開接洽

雷速體育
2025-08-31 21:18:53
調(diào)查發(fā)現(xiàn):高血脂患者若常吃西紅柿,過不了多久,身體或有4改善

調(diào)查發(fā)現(xiàn):高血脂患者若常吃西紅柿,過不了多久,身體或有4改善

泠泠說史
2025-08-30 17:31:49
閱兵還剩5天,美軍終于坐不住:新裝備是重大挑戰(zhàn),航母危險了!

閱兵還剩5天,美軍終于坐不?。盒卵b備是重大挑戰(zhàn),航母危險了!

墨蘭史書
2025-08-30 04:05:03
利物浦vs阿森納:維爾茨、埃基蒂克、馬丁內(nèi)利首發(fā),埃澤替補

利物浦vs阿森納:維爾茨、埃基蒂克、馬丁內(nèi)利首發(fā),埃澤替補

懂球帝
2025-08-31 22:27:15
1-1!55歲西蒙尼麻了 馬競夏窗砸1.75億卻3輪不勝 格子失空門絕殺

1-1!55歲西蒙尼麻了 馬競夏窗砸1.75億卻3輪不勝 格子失空門絕殺

我愛英超
2025-08-31 01:07:08
8歲女童將體溫計放入開水中爆炸,媽媽不慎喝下含水銀的水,醫(yī)生:少量在身體中不會被吸收,揮發(fā)在空氣中毒性更大

8歲女童將體溫計放入開水中爆炸,媽媽不慎喝下含水銀的水,醫(yī)生:少量在身體中不會被吸收,揮發(fā)在空氣中毒性更大

大象新聞
2025-08-30 20:21:23
有情有義!首鋼球員趙睿罕見發(fā)表長文致謝,主要談了以下6點!

有情有義!首鋼球員趙睿罕見發(fā)表長文致謝,主要談了以下6點!

田先生籃球
2025-08-30 22:45:46
1-0!鄧卓翔戰(zhàn)術(shù)完爆司機!鄧涵文太強了 朱辰杰蔣圣龍狀態(tài)太差了

1-0!鄧卓翔戰(zhàn)術(shù)完爆司機!鄧涵文太強了 朱辰杰蔣圣龍狀態(tài)太差了

刀鋒體育
2025-08-31 22:01:16
54歲汪峰對35歲的女友森林北,不僅是靈魂依賴,更是生理性喜歡

54歲汪峰對35歲的女友森林北,不僅是靈魂依賴,更是生理性喜歡

草莓解說體育
2025-08-31 07:57:42
9月3日中國閱兵,歐美發(fā)達國家的領(lǐng)導人,為何選擇集體缺席?

9月3日中國閱兵,歐美發(fā)達國家的領(lǐng)導人,為何選擇集體缺席?

文史道
2025-08-30 06:45:03
我還是想把銀牌的故事寫下來…

我還是想把銀牌的故事寫下來…

后體工隊長
2025-08-31 22:41:43
2025-08-31 23:11:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11216文章數(shù) 176256關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會了

頭條要聞

外媒:和莫迪鬧掰 特朗普決定不去印度參會了

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預售煥新11.28萬起

態(tài)度原創(chuàng)

家居
親子
時尚
手機
公開課

家居要聞

提升功能 靈活居住環(huán)境

親子要聞

她有兩個子宮,同時懷孕!醫(yī)生:堪比中彩票

看來看去還是這些穿搭最適合夏天,不沉悶、不顯老,舒適減齡

手機要聞

曝小米16有大驚喜,澎湃OS 3 Beta版反饋還不錯

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版