智東西AI前瞻(公眾號(hào):zhidxcomAI)
作者 江宇
編輯 漠影
短短半月,混元團(tuán)隊(duì)又向3D生成的“視野盲區(qū)”推進(jìn)了一步。
智東西9月2日?qǐng)?bào)道,今日,騰訊混元團(tuán)隊(duì)正式開源其HunyuanWorld 1.0世界模型的官方擴(kuò)展模型“HunyuanWorld-Voyager”。
這也是混元在近兩個(gè)月內(nèi),圍繞3D世界生成系統(tǒng)的第三次發(fā)布:7月,團(tuán)隊(duì)首次開源HunyuanWorld 1.0模型,支持從文本或圖像生成可漫游的三維場(chǎng)景;8月,推出適配消費(fèi)級(jí)顯卡的Lite版本,降低部署門檻。
Voyager則將目標(biāo)從“生成一個(gè)可看的世界”進(jìn)一步推向“構(gòu)建一個(gè)可走、可擴(kuò)展的世界”。
它主要針對(duì)當(dāng)前世界模型在長(zhǎng)距離生成和視角一致性上的限制,首次引入RGB-D視頻聯(lián)合建模與空間緩存機(jī)制,可根據(jù)單張圖和用戶設(shè)定的相機(jī)軌跡,生成結(jié)構(gòu)連續(xù)、深度一致的點(diǎn)云視頻,并可直接導(dǎo)出為標(biāo)準(zhǔn)3D格式。
換句話說(shuō),它不僅能把視野之外的區(qū)域合理補(bǔ)全,還能持續(xù)“記住”用戶走過的路徑,并在空間中銜接新的視角內(nèi)容。
根據(jù)斯坦福李飛飛團(tuán)隊(duì)主導(dǎo)的WorldScore排行榜,Voyager在當(dāng)前主流世界模型中平均成績(jī)位列第一。
體驗(yàn)指路:
主頁(yè):https://3d-models.hunyuan.tencent.com/world/
Github:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
Huggingface:https://huggingface.co/tencent/HunyuanWorld-Voyager
技術(shù)報(bào)告:https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
一、多種3D任務(wù)解鎖,直出結(jié)果可即用
Voyager不僅繼承了混元世界模型1.0的圖生世界能力,還進(jìn)一步解決了“用戶走出原視角之后”的補(bǔ)全問題。其生成結(jié)果不僅可實(shí)時(shí)呈現(xiàn),還能直接導(dǎo)出為標(biāo)準(zhǔn)3D格式(如點(diǎn)云、mesh),無(wú)需借助Colmap、VGGT等后處理工具。
具體來(lái)看,Voyager可應(yīng)用于以下典型任務(wù):
1、控制生成視頻畫面:用戶可通過鍵盤或搖桿設(shè)定相機(jī)軌跡,系統(tǒng)生成對(duì)應(yīng)視角的視頻序列,同時(shí)保持空間結(jié)構(gòu)一致性;
2、風(fēng)格化編輯與控制:支持對(duì)生成視頻進(jìn)行畫面風(fēng)格調(diào)整與局部重繪,保持內(nèi)容可控;
3、圖生3D與視頻深度估計(jì):支持從圖像生成結(jié)構(gòu)完整的3D物體,也可對(duì)普通視頻進(jìn)行深度補(bǔ)全,用于三維理解與后續(xù)建模;
▲圖生3D物體
▲視頻深度估計(jì)
二、引入新架構(gòu),空間建模能力顯著增強(qiáng)
混元世界模型-Voyager架構(gòu)是對(duì)混元世界模型1.0新視角內(nèi)容的補(bǔ)全,引入了“世界一致視頻擴(kuò)散”與“長(zhǎng)距離世界探索”兩大核心機(jī)制。
此前,混元世界模型1.0模型已支持從文本或圖像生成可漫游的三維世界,并輸出標(biāo)準(zhǔn)3D格式,兼容游戲引擎。但當(dāng)用戶“走出”原始畫面后,生成范圍會(huì)受限。Voyager解決的正是這類遮擋與長(zhǎng)距離視角問題。
1、世界一致的視頻擴(kuò)散
目前,可控視頻生成模型已經(jīng)具備構(gòu)建“世界模型”的潛力,但這類“圖生視頻”方案多停留在RGB模態(tài),難以還原三維結(jié)構(gòu),限制了交互性和空間一致性。相比之下,顯式生成3D場(chǎng)景(如點(diǎn)云、Mesh)可用于更真實(shí)的空間重建,但受限于訓(xùn)練數(shù)據(jù)和計(jì)算資源,難以在大規(guī)模場(chǎng)景中泛化。
混元世界模型Voyager結(jié)合了視頻生成與顯式3D建模兩類方法,支持在用戶設(shè)定相機(jī)軌跡和初始場(chǎng)景的條件下,生成空間一致的RGB-D視頻序列,并可直接導(dǎo)出為點(diǎn)云格式的三維數(shù)據(jù)。
Voyager首次在視頻生成中引入RGB+Depth的雙模態(tài)聯(lián)合建模,形成“點(diǎn)云視頻”:
1、輸入:圖片+用戶指定的相機(jī)軌跡;
2、輸出:RGB-D視頻序列,每幀均具備像素級(jí)深度信息;
3、拼接機(jī)制:先在空間維度上拼接RGB和D(Depth),再在特征維度上結(jié)合兩模態(tài)信息,用VAE框架學(xué)習(xí)RGB-D的生成規(guī)律;
4、訓(xùn)練結(jié)構(gòu):由雙流模塊與控制模塊組成,基于Hunyuan-Video DiT模型進(jìn)行訓(xùn)練。
此外,為支撐訓(xùn)練需求,混元團(tuán)隊(duì)構(gòu)建了一套可擴(kuò)展的數(shù)據(jù)構(gòu)建引擎,可自動(dòng)對(duì)任意輸入視頻估計(jì)相機(jī)姿態(tài)與時(shí)序信息,擺脫人工標(biāo)注依賴,批量生成可用于RGB-D建模的訓(xùn)練樣本?;谠撘妫琕oyager融合真實(shí)視頻與虛幻引擎合成數(shù)據(jù),構(gòu)建了包含超過10萬(wàn)段視頻片段的大規(guī)模訓(xùn)練集。
這種機(jī)制讓Voyager具備“原生3D記憶能力”,無(wú)需后處理重建步驟即可生成空間一致、格式統(tǒng)一的3D點(diǎn)云。
2、長(zhǎng)距離世界探索
Voyager通過提出一種具備空間一致性的可拓展世界緩存機(jī)制,突破了長(zhǎng)距離世界探索的限制。
1、先生成一個(gè)初始場(chǎng)景點(diǎn)云緩存(來(lái)自HunyuanWorld 1.0);
2、再將緩存投影至用戶設(shè)定的相機(jī)視角;
3、利用擴(kuò)散模型生成新視角畫面,并不斷更新緩存,最終形成一個(gè)支持任意相機(jī)軌跡的閉環(huán)系統(tǒng)。
這一方法兼顧空間結(jié)構(gòu)記憶、視角可控與多視圖一致性,意味著用戶可以像玩第一人稱游戲一樣“自由走”,所到之處都能被系統(tǒng)填補(bǔ),并保持幾何結(jié)構(gòu)一致。
三、三項(xiàng)實(shí)驗(yàn):驗(yàn)證空間一致性與重建質(zhì)量
為全面驗(yàn)證HunyuanWorld-Voyager的性能表現(xiàn),混元團(tuán)隊(duì)圍繞視頻生成質(zhì)量、三維場(chǎng)景重建能力以及世界生成能力三個(gè)方向進(jìn)行了系統(tǒng)實(shí)驗(yàn),覆蓋RGB視頻質(zhì)量、幾何一致性與長(zhǎng)距離空間表達(dá)等多個(gè)維度。
1. 視頻生成:相似性與結(jié)構(gòu)性指標(biāo)均領(lǐng)先
在視頻生成任務(wù)中,混元團(tuán)隊(duì)選取RealEstate10K數(shù)據(jù)集中的150個(gè)視頻片段,并與四種開源的攝像頭可控視頻生成方法進(jìn)行對(duì)比。
結(jié)果顯示,Voyager在全部指標(biāo)上均優(yōu)于現(xiàn)有方法。
定性分析中,Voyager能夠生成更為多樣、結(jié)構(gòu)清晰的視頻幀,尤其在細(xì)節(jié)區(qū)域的保留上表現(xiàn)出色。例如在樣例中,其他方法在相機(jī)大幅移動(dòng)時(shí)易產(chǎn)生α影或結(jié)構(gòu)塌陷,而Voyager仍能準(zhǔn)確還原輸入圖像中的產(chǎn)品邊界與材質(zhì)細(xì)節(jié)。
2. 場(chǎng)景重建能力:融合RGB-D,三維結(jié)構(gòu)更準(zhǔn)確
在場(chǎng)景生成任務(wù)中,Voyager進(jìn)一步驗(yàn)證了其RGB-D視頻序列對(duì)三維結(jié)構(gòu)重建的支持能力?;煸獔F(tuán)隊(duì)使用VGGT方法作為后處理統(tǒng)一流程,對(duì)比核心模型的RGB視頻生成后能否支持高質(zhì)量點(diǎn)云還原。
結(jié)果表明,即便在僅使用RGB重建的場(chǎng)景下,Voyager生成的視頻在幾何一致性方面也優(yōu)于其他方法;而一旦加入原生深度信息初始化點(diǎn)云,重建精度進(jìn)一步提升。
在3D Gaussian Splatting任務(wù)中,Voyager成功還原了復(fù)雜結(jié)構(gòu)(如吊燈)的完整形狀,而其他方法在邊緣結(jié)構(gòu)與局部細(xì)節(jié)上普遍存在缺失。
3. 世界生成能力:跨域泛化與長(zhǎng)距離空間表達(dá)能力增強(qiáng)
在更具挑戰(zhàn)性的WorldScore靜態(tài)基準(zhǔn)測(cè)試中,Voyager同樣展現(xiàn)出領(lǐng)先能力。該基準(zhǔn)評(píng)估模型在開放域條件下的世界建構(gòu)能力,尤其關(guān)注光學(xué)運(yùn)動(dòng)控制能力與空間一致性表現(xiàn)。
Voyager在該任務(wù)中獲得最高平均分,驗(yàn)證了其空間一致建模機(jī)制具備跨數(shù)據(jù)域的泛化能力。
同時(shí),由于生成條件一致,Voyager在保證一致性的前提下,所驅(qū)動(dòng)的相機(jī)運(yùn)動(dòng)幅度大幅超過對(duì)比模型,其對(duì)于長(zhǎng)路徑建模與多視角連續(xù)性控制更具備優(yōu)勢(shì)。
結(jié)語(yǔ):讓生成的世界走得更遠(yuǎn)
從靜態(tài)場(chǎng)景到可控漫游,再到具備深度信息與空間拓展,Voyager補(bǔ)足了混元世界模型在空間連續(xù)性上的一塊關(guān)鍵能力。
從一段文字、一張圖生成一個(gè)初始場(chǎng)景,再根據(jù)用戶設(shè)定的相機(jī)軌跡拓展新視角內(nèi)容,這種“邊走邊生成”的邏輯,正在成為AI理解空間的另一種可能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.