向迅之,南京大學(xué) R&L 課題組在讀博士生,導(dǎo)師是范琦副教授。研究聚焦圖像/視頻生成與世界模型等 AIGC 方向。
你是否曾被 AI 生成視頻的驚艷開場所吸引,卻在幾秒后失望于?彩漂移、畫面模糊、節(jié)奏斷裂? 當(dāng)前 AI 長視頻?成普遍?臨 “高開低走 ” 的困境:前幾秒驚艷奪? ,之后卻質(zhì)量驟降、細(xì)節(jié)崩壞;更別提幀間串行生成導(dǎo)致的低效問題 —— 動輒數(shù)小時(shí)的等待,實(shí)時(shí)預(yù)覽幾乎難以企及。
這—行業(yè)難題,如今迎來突破性解法!
南京大學(xué)聯(lián)合 TeleAI 推出長視頻自回歸生成新范式——Macro-from-Micro Planning( MMPL),重新定義 AI 視頻創(chuàng)作流程。
靈感源自電影工業(yè)的 “分鏡腳本 + 多組并行拍攝” 機(jī)制,MMPL 首創(chuàng) “宏觀規(guī)劃、微觀執(zhí)行 ” 的雙層?成架構(gòu):
- 先謀全局:在宏觀層面統(tǒng)—規(guī)劃整段視頻的敘事脈絡(luò)與視覺—致性,確保劇情連貫、風(fēng)格統(tǒng)—;
- 再精細(xì)節(jié):將長視頻拆解為多個短片段,并通過并行化?成管線?效填充每—幀細(xì)節(jié),大幅提升速度與穩(wěn)定性。
成果令人振奮:
- 實(shí)現(xiàn)分鐘級?質(zhì)量長視頻穩(wěn)定生成,告別 “虎頭蛇尾”;
- ?成效率顯著提升,結(jié)合蒸餾加速技術(shù),預(yù)覽幀率最高可達(dá)約 32 FPS ,接近實(shí)時(shí)交互體驗(yàn);
- 在色彩—致性、 內(nèi)容連貫性上全?超越傳統(tǒng)串行生成方案。
MMPL 不僅是—項(xiàng)技術(shù)升級,更是向 “AI 導(dǎo)演” 邁進(jìn)的重要—步 —— 讓機(jī)器不僅會 “拍鏡頭” ,更能 “講好—個故事”。
- 論文標(biāo)題:Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
- 作者:Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li
- 機(jī)構(gòu) :南京大學(xué);中國電信人工智能研究院;上海交通大學(xué);香港中文大學(xué)(深圳);中國科學(xué)院大學(xué)
- 論?地址:https://arxiv.org/abs/2508.03334
- 項(xiàng)?主頁:https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/
傳統(tǒng)困境:逐幀?成的兩大瓶頸
在長視頻生成領(lǐng)域,隨著時(shí)長從幾秒擴(kuò)展到數(shù)十秒甚至一分鐘以上,主流自回歸模型面臨兩個根本性挑戰(zhàn):
1. 時(shí)域漂移(Temporal Drift)
由于每—幀都依賴前—幀生成,微小誤差會隨時(shí)間不斷累積,導(dǎo)致畫面逐漸 “跑偏”:人物變形、場景錯亂、色彩失真等問題頻發(fā),嚴(yán)重影響視覺質(zhì)量。
2. 串?瓶頸(Serial Bottleneck)
視頻必須逐幀?成,?法并?處理。?成 60 秒視頻可能需要數(shù)分鐘乃?數(shù)?時(shí),難以?持實(shí)時(shí)預(yù)覽或交互式創(chuàng)作。
這些問題使得當(dāng)前 AI 視頻仍停留在 “ 片段級表達(dá)” ,難以勝任需要長時(shí)連貫性的敘事任務(wù)。
創(chuàng)新突破:導(dǎo)演式雙層生成框架 MMPL
為解決上述問題,我們提出 Macro-from-Micro Planning( MMPL) —— — 種 “先規(guī)劃、后填充” 的兩階段生成范式,其核心思想是:
先全局規(guī)劃,再并行執(zhí)行。
這—理念借鑒了電影工業(yè)中 “導(dǎo)演制定分鏡腳本 + 多攝制組并行拍攝” 的協(xié)作模式,將長視頻生成從 “接龍式繪畫” 轉(zhuǎn)變?yōu)?“系統(tǒng)性制片 ”。
MMPL 的核心優(yōu)勢在于實(shí)現(xiàn)了三大突破:
- 長時(shí)?致性:通過宏觀規(guī)劃抑制跨片段漂移;
- 高效并行性:各片段可獨(dú)立填充細(xì)節(jié),支持多 GPU 并行;
- 靈活調(diào)度性:采用流水線機(jī)制,進(jìn)—步提升資源利用率。
最終,系統(tǒng)可在保證高質(zhì)量的前提下,實(shí)現(xiàn)分鐘級、節(jié)奏可控的穩(wěn)定?成,結(jié)合蒸餾加速方案,預(yù)覽速度可達(dá) ≥32 FPS ,接近實(shí)時(shí)交互體驗(yàn)。
效果呈現(xiàn):更穩(wěn)、更長 、更快
在統(tǒng)—測試集上,MMPL 顯著優(yōu)于現(xiàn)有方法(如 MAGI 、SkyReels 、CausVid 、Self Foricng 等),在視覺質(zhì)量、時(shí)間—致性和穩(wěn)定性方面均取得領(lǐng)先。
- 更穩(wěn):無明顯色彩漂移、 閃爍或結(jié)構(gòu)崩壞,長時(shí)間生成仍保持高保真;
- 更長: 支持 20 秒、30 秒乃至 1 分鐘的連貫敘事,片段銜接自然;
- 更快:得益于并行填充與自適應(yīng)調(diào)度,長視頻生成整體吞吐量大幅提升。
技術(shù)解析:兩階段協(xié)同工作機(jī)制
MMPL 的成功源于其精心設(shè)計(jì)的 “規(guī)劃 — 填充” 雙階段架構(gòu)。整個流程分為兩個層次:微觀規(guī)劃( Micro Planning) 和宏觀規(guī)劃( Macro Planning),隨后進(jìn)行并行內(nèi)容填充(Content Populating)。
第?階段:雙層規(guī)劃,構(gòu)建穩(wěn)定骨架
1. Micro Planning: 片段內(nèi)關(guān)鍵幀聯(lián)合預(yù)測
這些錨點(diǎn)在同—去噪過程中聯(lián)合生成,彼此之間語義協(xié)調(diào)、運(yùn)動連貫;且均以首幀為條件單步預(yù)測,避免了多步累積誤差。它們共同構(gòu)成了該片段的 “視覺骨架” ,為后續(xù)填充提供強(qiáng)約束。
2. Macro Planning:跨片段敘事?致性建模
這種 “分段稀疏連接” 的設(shè)計(jì),將誤差累積從 T 幀級別降低至 S 段級別( S ? T),從根本上緩解了長程漂移問題。
第二階段:并行填充,釋放計(jì)算潛能
1. Content Populating:基于錨點(diǎn)的并行細(xì)節(jié)生成
這意味著: 多個片段可以同時(shí)在不同 GPU 上并行?成,極大提升效率。
2. Adaptive Workload Scheduling:動態(tài)調(diào)度,實(shí)現(xiàn)流水線加速
為進(jìn)—步提升資源利用率,我們引入自適應(yīng)工作負(fù)載調(diào)度機(jī)制,實(shí)現(xiàn) “規(guī)劃” 與 “填充” 的重疊執(zhí)行:
當(dāng)片段 s 的錨點(diǎn)生成后,即可:
- 立即啟動下—片段 s + 1 的 Micro 計(jì)劃;
- 同時(shí),片段 s 自身可提前開始中間幀填充,無需等待全局規(guī)劃完成。
該機(jī)制的形式化表達(dá)為:
- 優(yōu)勢:消除冗余,最大化流水線效率;
- 缺點(diǎn):每段計(jì)算負(fù)載更高。
這兩種策略可在內(nèi)存、延遲與吞吐量之間靈活權(quán)衡,適配不同部署場景。
結(jié)語:從 “會畫” 到 “會拍”,AI 開始有了導(dǎo)演思維
當(dāng) AI 不再局限于逐幀生成,而是具備了從整體出發(fā)的規(guī)劃能力 —— 理解情節(jié)的推進(jìn)、協(xié)調(diào)畫面的連貫性、控制運(yùn)動的節(jié)奏,長視頻生成便邁出了從 “ 片段拼接” 走向 “統(tǒng)—表達(dá)” 的關(guān)鍵—步。我們希望,MMPL 能為視頻創(chuàng)作提供—種更穩(wěn)定、更高效的技術(shù)路徑。借助其近實(shí)時(shí)的生成能力,創(chuàng)作者可以在快速反饋中不斷調(diào)整與完善自己的構(gòu)想,讓創(chuàng)意更自由地流動。
也許真正的 “所見即所得” 尚在遠(yuǎn)方 ,但至少,我們正朝著那個方向,穩(wěn)步前行。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.