成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

畫到哪,動到哪!字節(jié)跳動發(fā)布視頻生成「神筆馬良」ATI,已開源

0
分享至



Angtian Wang 是字節(jié)跳動的研究員,研究方向包括視頻生成、3D 視覺、differentiable rendering。博士畢業(yè)于約翰霍普金斯(Johns Hopkins University)大學。師從 Dr. Alan Yuille。

近年來,隨著擴散模型(Diffusion Models)、Transformer 架構與高性能視覺理解模型的蓬勃發(fā)展,視頻生成任務取得了令人矚目的進展。從靜態(tài)圖像生成視頻的任務(Image-to-Video generation)尤其受到關注,其關鍵優(yōu)勢在于:能夠以最小的信息輸入生成具有豐富時間連續(xù)性與空間一致性的動態(tài)內容。

然而,盡管生成質量不斷提升,當前主流方法普遍面臨一個關鍵瓶頸:缺乏有效、直觀、用戶友好的運動控制方式。

用戶在創(chuàng)作動態(tài)視頻時,往往具有明確的運動意圖,例如人物要往哪個方向奔跑、鏡頭如何推進拉遠、動物的跳躍軌跡等。但現(xiàn)有方法普遍依賴于預設模板、動作標簽或風格提示,缺少一種既自由又精準的方式來指定對象與攝像機的運動路徑。尤其是在存在多個主體或復雜場景交互的情況下,這種控制能力的缺失,極大限制了生成系統(tǒng)的創(chuàng)意表達能力與實際應用價值。

為了解決這一問題,字節(jié)跳動提出了ATI——一種全新的、以「軌跡為指令」的可控視頻生成框架。ATI 的核心理念是:將用戶在輸入圖像上手繪的任意軌跡,轉化為驅動物體與攝像機運動的顯式控制信號,并以統(tǒng)一的潛在空間建模方式注入視頻生成過程。這使得視頻創(chuàng)作從「參數(shù)調控」轉變?yōu)椤缚梢暬瘎?chuàng)意」,讓用戶「畫到哪,動到哪」,以直觀方式實現(xiàn)幀級精準控制。



  • Title:ATI: Any Trajectory Instruction for Controllable Video Generation
  • Paper:https://arxiv.org/pdf/2505.22944
  • Project page:https://anytraj.github.io/
  • Github:https://github.com/bytedance/ATI
  • Hugging Face:https://huggingface.co/bytedance-research/ATI
  • ComfyUI:https://github.com/kijai/ComfyUI-WanVideoWrapper

方法

ATI 接受兩個基本輸入:一張靜態(tài)圖像和一組用戶手繪軌跡。這些軌跡可以在圖像上自由繪制,支持任意形狀,包括直線、曲線、折線、回環(huán)乃至抽象形狀。ATI 通過高斯運動注入器(Gaussian Motion Injector)將這些軌跡編碼為潛在空間中的運動向量,再注入至擴散生成流程中,進而引導生成過程逐幀呈現(xiàn)對應的物體運動與視角變換。



如上圖所示,我們希望讓視頻生成模型「理解」用戶畫出的運動軌跡,并在后續(xù)幀里按照這條軌跡產(chǎn)生動作。為此,我們在模型的輸入特征空間上,對每一個軌跡點都注入一個「高斯權重」。使得模型就能在特征圖上「看到」一顆顆從時刻 0 到 t 按軌跡移動的小「亮點」,并在訓練中逐步理解輸入軌跡在輸入特征上和 denoise 生成視頻的關聯(lián)。



編碼圖像:先用一個「編碼器」把原始圖片轉換成一張低分辨率的特征圖。

采樣特征:對于軌跡的起始點,從特征圖上精確地(通過雙線性差值,保持小數(shù)位置精度)取出一個特征向量。

生成高斯權重:在每一幀,對應軌跡點的位置,都用一個小圓形「高斯」亮點去覆蓋周圍的像素,越靠近圓心的像素,權重越高。

注入特征:把起始點的特征向量,按照這些高斯權重「軟」地分配到特征圖上的鄰近區(qū)域,并在模型在生成視頻時輸入給模型。

這樣一來,當我們給生成器喂入圖像和這組「高斯掩碼+特征」,模型就能直觀地「看懂」在每一幀里,哪兒應該動、怎樣動,從而生成符合用戶手繪軌跡的連貫動畫效果。借助高斯運動注入器(Gaussian Motion Injector)與像素級通道拼接策略(Pixel-wise Channel Fusion),ATI 能夠統(tǒng)一控制對象級動作、局部身體部位運動與攝像機視角變化,無需切換模型或模塊結構,即可高效支持多目標、多風格、多任務的視頻生成需求。同時 ATI 支持多個視頻生成模型,可以在 Seaweed-7B 以及 Wan2.1-I2V-14B 等不同結構以及大小的模型上均有穩(wěn)定的表現(xiàn)。

結果展示



用戶僅需在原圖上以手指或鼠標拖拽繪制任意軌跡,ATI 即可實時捕捉該軌跡路徑并將其注入擴散模型。借助高斯運動注入器,無論直線、曲線還是復雜回環(huán),均能被轉化為連貫自然的動態(tài)視頻——畫到哪兒,動到哪兒。



在人物或動物肖像場景中,用戶可以指定奔跑、跳躍、揮臂等關鍵動作的軌跡。ATI 對每一幀中的關鍵點進行細粒度采樣與編碼,準確還原關節(jié)弧度與質心移動,生成符合生物力學規(guī)律的自然運動序列。



當場景包含多個目標時,ATI 最多可并行處理 8 條獨立軌跡。系統(tǒng)通過空間掩碼和通道分離策略,保證各對象身份信息互不干擾,從而呈現(xiàn)復雜群體互動時的連貫動態(tài)。



ATI 不僅支持對象級運動控制,還能同步驅動攝像機視角。用戶可在原圖上繪制推拉、平移、旋轉等鏡頭軌跡,將其與對象軌跡共同注入潛在空間,生成包含搖鏡、跟隨和俯仰等電影級鏡頭語言的視頻。



在同一推理過程中,物體與攝像機軌跡可同時注入,借助像素級通道拼接策略實現(xiàn)多條運動指令的無縫融合。系統(tǒng)無需模塊化切換,即可在潛在特征中并行呈現(xiàn)角色動作、群體互動與鏡頭切換,輸出豐富而連貫的動態(tài)敘事。



ATI 展示出良好的跨領域泛化能力,覆蓋寫實電影、卡通插畫、油畫質感、水彩渲染、游戲美術等多種藝術風格。通過更換參考圖與輸入軌跡,系統(tǒng)能夠在保留原始風格特征的基礎上生成對應的運動視頻,滿足多元化的應用需求。



用戶可在潛在空間中繪制超越物理邊界的軌跡,以生成飛天、伸縮、扭曲等非現(xiàn)實動作效果,為科幻或魔幻場景提供無限創(chuàng)意空間。



基于 Wan2.1-I2V-14B 的高精度模型,ATI 可生成與實拍媲美的視頻短片,精準還原面部表情、服飾材質與光影細節(jié);同時提供輕量級 Seaweed-7B 版本,以滿足資源受限環(huán)境中的實時交互需求。

模型開源

目前,ATI 的 Wan2.1-I2V-14B 模型版本已在 Hugging Face 社區(qū)正式開源,為研究人員與開發(fā)者提供了高質量、可控的視頻生成能力。圍繞該模型的社區(qū)生態(tài)也在快速完善:Kijai開發(fā)的 ComfyUI-WanVideoWrapper 插件支持 FP8 量化模型(如 Wan2_1-I2V-ATI-14B_fp8_e4m3fn.safetensors),顯著降低顯存需求,方便在消費級 GPU 上進行推理部署。同時,Benji在 YouTube 發(fā)布的教學視頻《ComfyUI Wan 2.1 任意軌跡指令運動控制教程》為創(chuàng)作者提供了詳盡的實操指南。完整代碼與模型請參閱 GitHub(bytedance/ATI)及 Hugging Face 模型庫。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
渝貴高鐵定了!走中線,重慶到貴陽1小時,西南人出行方便

渝貴高鐵定了!走中線,重慶到貴陽1小時,西南人出行方便

娛樂八卦木木子
2025-09-01 05:57:00
這五種病都不是?。慷悄挲g到了!過度治療反而傷身,坦然接受

這五種病都不是病?而是年齡到了!過度治療反而傷身,坦然接受

王曉愛體彩
2025-09-01 00:06:09
名單曝光!113人被退回錄取通知書

名單曝光!113人被退回錄取通知書

綿學堂
2025-08-31 20:27:45
真子公主一家三口逛街!抱孩子時母愛爆棚,和小室圭夫妻相好甜

真子公主一家三口逛街!抱孩子時母愛爆棚,和小室圭夫妻相好甜

吃瓜局
2025-08-31 13:35:17
被泰國踢出局的佩通坦,用親身經(jīng)歷告訴中國,洪森這人絕不可交心

被泰國踢出局的佩通坦,用親身經(jīng)歷告訴中國,洪森這人絕不可交心

影孖看世界
2025-08-30 17:50:37
關曉彤公開雙人擁吻照,熱搜爆了

關曉彤公開雙人擁吻照,熱搜爆了

In風尚
2025-08-29 19:47:14
美媒:距勇士首場季前賽僅剩35天 但他們仍只有10名正式簽約球員

美媒:距勇士首場季前賽僅剩35天 但他們仍只有10名正式簽約球員

直播吧
2025-09-01 05:54:25
上合峰會外方領導人全部抵達天津

上合峰會外方領導人全部抵達天津

財聯(lián)社
2025-08-31 20:34:52
一個人最大的愚蠢,就是輕易公開這四件事!

一個人最大的愚蠢,就是輕易公開這四件事!

娛樂洞察點點
2025-08-31 22:55:32
為什么女人出軌第一次發(fā)生關系非常難,后面就會越來越容易?

為什么女人出軌第一次發(fā)生關系非常難,后面就會越來越容易?

素然追光
2025-06-23 02:10:05
太會玩梗了!趙露思成立新公司!公司名曝光網(wǎng)笑死

太會玩梗了!趙露思成立新公司!公司名曝光網(wǎng)笑死

艷姐的搞笑視頻
2025-08-31 19:41:41
放大招了!深夜突傳利好!國家隊大舉進場?

放大招了!深夜突傳利好!國家隊大舉進場?

龍行天下虎
2025-08-31 13:17:34
58歲大爺仍能每周2次性生活,其妻子透露,他有自己的小妙招

58歲大爺仍能每周2次性生活,其妻子透露,他有自己的小妙招

蕭竹輕語
2025-08-29 17:35:51
尚界H5開訂18小時訂單破5萬臺!余承東:賣20萬以下都是虧的

尚界H5開訂18小時訂單破5萬臺!余承東:賣20萬以下都是虧的

快科技
2025-08-30 20:18:10
新一代機皇!新機官宣:9月4日,正式首發(fā)!

新一代機皇!新機官宣:9月4日,正式首發(fā)!

科技堡壘
2025-08-30 12:39:37
這身打扮真的特別有高級感

這身打扮真的特別有高級感

美女穿搭分享
2025-08-26 11:13:02
趙文卓才是真·人間清醒吧!

趙文卓才是真·人間清醒吧!

小光侃娛樂
2025-08-31 15:45:02
歷史性一幕將在中國發(fā)生,沙利文批特朗普:中國現(xiàn)在只要坐著看戲

歷史性一幕將在中國發(fā)生,沙利文批特朗普:中國現(xiàn)在只要坐著看戲

南宮一二
2025-08-31 10:54:06
深圳一大叔,因“空調機位養(yǎng)花”火了,網(wǎng)友:厲害,白賺幾萬塊~

深圳一大叔,因“空調機位養(yǎng)花”火了,網(wǎng)友:厲害,白賺幾萬塊~

平祥生活日志
2025-08-31 23:19:45
索博斯洛伊:我也無法解釋這個球是怎么踢出來的,只是多練習

索博斯洛伊:我也無法解釋這個球是怎么踢出來的,只是多練習

懂球帝
2025-09-01 02:43:41
2025-09-01 06:55:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11188文章數(shù) 142429關注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機全面對比

頭條要聞

車輛占道違停小車逆行超車撞車 險企欲讓占道車擔責

頭條要聞

車輛占道違停小車逆行超車撞車 險企欲讓占道車擔責

體育要聞

破2億身家!莎拉波娃的"勝負腦"

娛樂要聞

胡歌是永遠都不會離婚的,原因很簡單

財經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預售煥新11.28萬起

態(tài)度原創(chuàng)

健康
教育
游戲
親子
時尚

精神科專家解答學習困難七大問題

教育要聞

開學啦!華中師大一附中2025新生報到全程直擊!

《合金裝備6》在路上?Konami有信心能開發(fā)新的正傳

親子要聞

孩子不是讀書機器不是我們家長盲目炫耀學習的“利器”分數(shù)不值錢

看來看去還是這些穿搭最適合夏天,不沉悶、不顯老,舒適減齡

無障礙瀏覽 進入關懷版