網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

騰訊世界模型Voyager開源！三項(xiàng)能力登頂斯坦福WorldScore，平均分第一

2025-09-02 18:18:33　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西AI前瞻（公眾號(hào)：zhidxcomAI）
作者江宇
編輯漠影

短短半月，混元團(tuán)隊(duì)又向3D生成的“視野盲區(qū)”推進(jìn)了一步。

智東西9月2日?qǐng)?bào)道，今日，騰訊混元團(tuán)隊(duì)正式開源其HunyuanWorld 1.0世界模型的官方擴(kuò)展模型“HunyuanWorld-Voyager”。

這也是混元在近兩個(gè)月內(nèi)，圍繞3D世界生成系統(tǒng)的第三次發(fā)布：7月，團(tuán)隊(duì)首次開源HunyuanWorld 1.0模型，支持從文本或圖像生成可漫游的三維場(chǎng)景；8月，推出適配消費(fèi)級(jí)顯卡的Lite版本，降低部署門檻。

Voyager則將目標(biāo)從“生成一個(gè)可看的世界”進(jìn)一步推向“構(gòu)建一個(gè)可走、可擴(kuò)展的世界”。

它主要針對(duì)當(dāng)前世界模型在長(zhǎng)距離生成和視角一致性上的限制，首次引入RGB-D視頻聯(lián)合建模與空間緩存機(jī)制，可根據(jù)單張圖和用戶設(shè)定的相機(jī)軌跡，生成結(jié)構(gòu)連續(xù)、深度一致的點(diǎn)云視頻，并可直接導(dǎo)出為標(biāo)準(zhǔn)3D格式。

換句話說(shuō)，它不僅能把視野之外的區(qū)域合理補(bǔ)全，還能持續(xù)“記住”用戶走過的路徑，并在空間中銜接新的視角內(nèi)容。

根據(jù)斯坦福李飛飛團(tuán)隊(duì)主導(dǎo)的WorldScore排行榜，Voyager在當(dāng)前主流世界模型中平均成績(jī)位列第一。

體驗(yàn)指路：

主頁(yè)：https://3d-models.hunyuan.tencent.com/world/

Github：https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager

Huggingface：https://huggingface.co/tencent/HunyuanWorld-Voyager

技術(shù)報(bào)告：https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf

一、多種3D任務(wù)解鎖，直出結(jié)果可即用

Voyager不僅繼承了混元世界模型1.0的圖生世界能力，還進(jìn)一步解決了“用戶走出原視角之后”的補(bǔ)全問題。其生成結(jié)果不僅可實(shí)時(shí)呈現(xiàn)，還能直接導(dǎo)出為標(biāo)準(zhǔn)3D格式（如點(diǎn)云、mesh），無(wú)需借助Colmap、VGGT等后處理工具。

具體來(lái)看，Voyager可應(yīng)用于以下典型任務(wù)：

1、控制生成視頻畫面：用戶可通過鍵盤或搖桿設(shè)定相機(jī)軌跡，系統(tǒng)生成對(duì)應(yīng)視角的視頻序列，同時(shí)保持空間結(jié)構(gòu)一致性；

2、風(fēng)格化編輯與控制：支持對(duì)生成視頻進(jìn)行畫面風(fēng)格調(diào)整與局部重繪，保持內(nèi)容可控；

3、圖生3D與視頻深度估計(jì)：支持從圖像生成結(jié)構(gòu)完整的3D物體，也可對(duì)普通視頻進(jìn)行深度補(bǔ)全，用于三維理解與后續(xù)建模；

▲圖生3D物體

▲視頻深度估計(jì)

二、引入新架構(gòu)，空間建模能力顯著增強(qiáng)

混元世界模型-Voyager架構(gòu)是對(duì)混元世界模型1.0新視角內(nèi)容的補(bǔ)全，引入了“世界一致視頻擴(kuò)散”與“長(zhǎng)距離世界探索”兩大核心機(jī)制。

此前，混元世界模型1.0模型已支持從文本或圖像生成可漫游的三維世界，并輸出標(biāo)準(zhǔn)3D格式，兼容游戲引擎。但當(dāng)用戶“走出”原始畫面后，生成范圍會(huì)受限。Voyager解決的正是這類遮擋與長(zhǎng)距離視角問題。

1、世界一致的視頻擴(kuò)散

目前，可控視頻生成模型已經(jīng)具備構(gòu)建“世界模型”的潛力，但這類“圖生視頻”方案多停留在RGB模態(tài)，難以還原三維結(jié)構(gòu)，限制了交互性和空間一致性。相比之下，顯式生成3D場(chǎng)景（如點(diǎn)云、Mesh）可用于更真實(shí)的空間重建，但受限于訓(xùn)練數(shù)據(jù)和計(jì)算資源，難以在大規(guī)模場(chǎng)景中泛化。

混元世界模型Voyager結(jié)合了視頻生成與顯式3D建模兩類方法，支持在用戶設(shè)定相機(jī)軌跡和初始場(chǎng)景的條件下，生成空間一致的RGB-D視頻序列，并可直接導(dǎo)出為點(diǎn)云格式的三維數(shù)據(jù)。

Voyager首次在視頻生成中引入RGB+Depth的雙模態(tài)聯(lián)合建模，形成“點(diǎn)云視頻”：

1、輸入：圖片+用戶指定的相機(jī)軌跡；

2、輸出：RGB-D視頻序列，每幀均具備像素級(jí)深度信息；

3、拼接機(jī)制：先在空間維度上拼接RGB和D（Depth），再在特征維度上結(jié)合兩模態(tài)信息，用VAE框架學(xué)習(xí)RGB-D的生成規(guī)律；

4、訓(xùn)練結(jié)構(gòu)：由雙流模塊與控制模塊組成，基于Hunyuan-Video DiT模型進(jìn)行訓(xùn)練。

此外，為支撐訓(xùn)練需求，混元團(tuán)隊(duì)構(gòu)建了一套可擴(kuò)展的數(shù)據(jù)構(gòu)建引擎，可自動(dòng)對(duì)任意輸入視頻估計(jì)相機(jī)姿態(tài)與時(shí)序信息，擺脫人工標(biāo)注依賴，批量生成可用于RGB-D建模的訓(xùn)練樣本?；谠撘妫琕oyager融合真實(shí)視頻與虛幻引擎合成數(shù)據(jù)，構(gòu)建了包含超過10萬(wàn)段視頻片段的大規(guī)模訓(xùn)練集。

這種機(jī)制讓Voyager具備“原生3D記憶能力”，無(wú)需后處理重建步驟即可生成空間一致、格式統(tǒng)一的3D點(diǎn)云。

2、長(zhǎng)距離世界探索

Voyager通過提出一種具備空間一致性的可拓展世界緩存機(jī)制，突破了長(zhǎng)距離世界探索的限制。

1、先生成一個(gè)初始場(chǎng)景點(diǎn)云緩存（來(lái)自HunyuanWorld 1.0）；

2、再將緩存投影至用戶設(shè)定的相機(jī)視角；

3、利用擴(kuò)散模型生成新視角畫面，并不斷更新緩存，最終形成一個(gè)支持任意相機(jī)軌跡的閉環(huán)系統(tǒng)。

這一方法兼顧空間結(jié)構(gòu)記憶、視角可控與多視圖一致性，意味著用戶可以像玩第一人稱游戲一樣“自由走”，所到之處都能被系統(tǒng)填補(bǔ)，并保持幾何結(jié)構(gòu)一致。

三、三項(xiàng)實(shí)驗(yàn)：驗(yàn)證空間一致性與重建質(zhì)量

為全面驗(yàn)證HunyuanWorld-Voyager的性能表現(xiàn)，混元團(tuán)隊(duì)圍繞視頻生成質(zhì)量、三維場(chǎng)景重建能力以及世界生成能力三個(gè)方向進(jìn)行了系統(tǒng)實(shí)驗(yàn)，覆蓋RGB視頻質(zhì)量、幾何一致性與長(zhǎng)距離空間表達(dá)等多個(gè)維度。

1. 視頻生成：相似性與結(jié)構(gòu)性指標(biāo)均領(lǐng)先

在視頻生成任務(wù)中，混元團(tuán)隊(duì)選取RealEstate10K數(shù)據(jù)集中的150個(gè)視頻片段，并與四種開源的攝像頭可控視頻生成方法進(jìn)行對(duì)比。

結(jié)果顯示，Voyager在全部指標(biāo)上均優(yōu)于現(xiàn)有方法。

定性分析中，Voyager能夠生成更為多樣、結(jié)構(gòu)清晰的視頻幀，尤其在細(xì)節(jié)區(qū)域的保留上表現(xiàn)出色。例如在樣例中，其他方法在相機(jī)大幅移動(dòng)時(shí)易產(chǎn)生α影或結(jié)構(gòu)塌陷，而Voyager仍能準(zhǔn)確還原輸入圖像中的產(chǎn)品邊界與材質(zhì)細(xì)節(jié)。

2. 場(chǎng)景重建能力：融合RGB-D，三維結(jié)構(gòu)更準(zhǔn)確

在場(chǎng)景生成任務(wù)中，Voyager進(jìn)一步驗(yàn)證了其RGB-D視頻序列對(duì)三維結(jié)構(gòu)重建的支持能力?；煸獔F(tuán)隊(duì)使用VGGT方法作為后處理統(tǒng)一流程，對(duì)比核心模型的RGB視頻生成后能否支持高質(zhì)量點(diǎn)云還原。

結(jié)果表明，即便在僅使用RGB重建的場(chǎng)景下，Voyager生成的視頻在幾何一致性方面也優(yōu)于其他方法；而一旦加入原生深度信息初始化點(diǎn)云，重建精度進(jìn)一步提升。

在3D Gaussian Splatting任務(wù)中，Voyager成功還原了復(fù)雜結(jié)構(gòu)（如吊燈）的完整形狀，而其他方法在邊緣結(jié)構(gòu)與局部細(xì)節(jié)上普遍存在缺失。

3. 世界生成能力：跨域泛化與長(zhǎng)距離空間表達(dá)能力增強(qiáng)

在更具挑戰(zhàn)性的WorldScore靜態(tài)基準(zhǔn)測(cè)試中，Voyager同樣展現(xiàn)出領(lǐng)先能力。該基準(zhǔn)評(píng)估模型在開放域條件下的世界建構(gòu)能力，尤其關(guān)注光學(xué)運(yùn)動(dòng)控制能力與空間一致性表現(xiàn)。

Voyager在該任務(wù)中獲得最高平均分，驗(yàn)證了其空間一致建模機(jī)制具備跨數(shù)據(jù)域的泛化能力。

同時(shí)，由于生成條件一致，Voyager在保證一致性的前提下，所驅(qū)動(dòng)的相機(jī)運(yùn)動(dòng)幅度大幅超過對(duì)比模型，其對(duì)于長(zhǎng)路徑建模與多視角連續(xù)性控制更具備優(yōu)勢(shì)。

結(jié)語(yǔ)：讓生成的世界走得更遠(yuǎn)

從靜態(tài)場(chǎng)景到可控漫游，再到具備深度信息與空間拓展，Voyager補(bǔ)足了混元世界模型在空間連續(xù)性上的一塊關(guān)鍵能力。

從一段文字、一張圖生成一個(gè)初始場(chǎng)景，再根據(jù)用戶設(shè)定的相機(jī)軌跡拓展新視角內(nèi)容，這種“邊走邊生成”的邏輯，正在成為AI理解空間的另一種可能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.