不圓 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
騰訊混元世界模型上新,綜合能力問鼎WorldScore排行榜。
HunyuanWorld-Voyager(簡稱混元Voyager),發(fā)布即開源。這距離HunyuanWorld 1.0 Lite版發(fā)布僅過兩周。
官方介紹說,這是業(yè)界首個支持原生3D重建的超長漫游世界模型,能夠生成長距離、世界一致的漫游場景,支持將視頻直接導(dǎo)出為3D格式。
無論是真實街景:
還是像素游戲:
效果都相當(dāng)不錯,不說的話還以為是實拍或者錄屏。
它和之前的模型相比有什么不同呢?一起來看一下。
一句話,一張圖,一個場景
仔細(xì)看了看混元Voyager的介紹,這次上新的直觀表現(xiàn)其實是多了一個「漫游場景」的功能。
比360°全景圖交互性更強(qiáng),可以用鼠標(biāo)和鍵盤在場景內(nèi)活動,更好地感受和探索世界。
左邊可以調(diào)整渲染畫質(zhì)和場視角:
錄制gif圖會壓縮畫質(zhì),實際體驗相當(dāng)清晰。
而且只需要一句話或一張圖就可以生成這樣的場景。
混元官方還給出了Prompt指引:
給出的示例效果也相當(dāng)不錯,體驗感很好,甚至想戴個VR眼鏡試試。
由于文件大小受限,壓縮了很多次,截個屏給大家看看原本的畫質(zhì):
對了,圖生場景對圖片的分辨率是有要求的,太大或者太小都會報錯。
具體要求也給出來了,寫得十分清楚:
除此之外,混元Voyager3D輸入-3D輸出的特性,與此前已開源的混元世界模型1.0高度適配,可進(jìn)一步擴(kuò)展1.0模型的漫游范圍,提升復(fù)雜場景的生成質(zhì)量,并可對生成的場景做風(fēng)格化控制和編輯。
同時混元Voyager還可支持視頻場景重建、3D物體紋理生成、視頻風(fēng)格定制化生成、視頻深度估計等多種3D理解與生成應(yīng)用,展現(xiàn)出空間智能的潛力。
將場景深度預(yù)測引入視頻生成過程
混元Voyager為什么能夠做到一鍵生成沉浸式漫游場景呢?這個問題涉及到它的模型框架。
混元Voyager框架創(chuàng)新性地將場景深度預(yù)測引入視頻生成過程,首次通過空間與特征結(jié)合的方式,支持原生的3D記憶和場景重建,避免了傳統(tǒng)后處理帶來的延遲和精度損失。
同時,在輸入端加入3D條件保證畫面視角精準(zhǔn),輸出端直接生成3D點(diǎn)云,適配多種應(yīng)用場景。額外的深度信息還能支持視頻場景重建、3D物體紋理生成、風(fēng)格化編輯和深度估計等功能。
用比較好理解的話來說,視頻生成+3D建模——
基于相機(jī)可控的視頻生成技術(shù),從初始場景視圖和用戶指定相機(jī)軌跡中,合成可自由控制視角、空間連貫的RGB-D視頻。
混元Voyager包含兩個關(guān)鍵組件:
(1)世界一致的視頻擴(kuò)散:提出了一種統(tǒng)一的架構(gòu),能夠基于現(xiàn)有世界觀測,同時生成精確對齊的RGB視頻與深度視頻序列,并確保全局場景的一致性。
(2)長距離世界探索:提出了一種高效的世界緩存機(jī)制,該機(jī)制融合了點(diǎn)云剔除與自回歸推理能力,可支持迭代式的場景擴(kuò)展,并通過上下文感知的一致性技術(shù)實現(xiàn)平滑的視頻采樣。
為訓(xùn)練混元Voyager模型,騰訊混元團(tuán)隊還構(gòu)建了一套可擴(kuò)展的數(shù)據(jù)構(gòu)建引擎——該引擎是一個自動化視頻重建流水線,能夠?qū)θ我廨斎胍曨l自動估計相機(jī)位姿以及度量深度,從而無需依賴人工標(biāo)注,即可實現(xiàn)大規(guī)模、多樣化訓(xùn)練數(shù)據(jù)的構(gòu)建。
基于此流水線,混元Voyager整合了真實世界采集與虛幻引擎渲染的視頻資源,構(gòu)建了一個包含超過10萬個視頻片段的大規(guī)模數(shù)據(jù)集。
將基于1.0模型生成的初始3D點(diǎn)云緩存投影到目標(biāo)相機(jī)視圖,即可為擴(kuò)散模型提供指導(dǎo)。
此外,生成的視頻幀還會實時更新緩存,形成閉環(huán)系統(tǒng),支持任意相機(jī)軌跡,同時維持幾何一致性。這不僅擴(kuò)展了漫游范圍,還為1.0模型補(bǔ)充新視角內(nèi)容,提升整體生成質(zhì)量。
混元Voyager模型在斯坦福大學(xué)李飛飛團(tuán)隊發(fā)布的世界模型基準(zhǔn)測試WorldScore上位居綜合能力首位,超越現(xiàn)有開源方法。
這一結(jié)果表明,與基于3D的方法相比,混元Voyager在相機(jī)運(yùn)動控制和空間一致性方面表現(xiàn)出優(yōu)異競爭力。
在視頻生成質(zhì)量上,定性定量結(jié)果表明混元Voyager具備卓越的視頻生成質(zhì)量,能夠生成高度逼真的視頻序列。
特別在定性比較的最后一組樣例中,只有混元Voyager有效保留了輸入圖像中產(chǎn)品的細(xì)節(jié)特征。相比之下,其他方法容易產(chǎn)生明顯偽影。
場景重建方面,在使用VGGT進(jìn)行后處理的情況下,混元Voyager的重建結(jié)果優(yōu)于所有基線模型,表明其生成視頻在幾何一致性方面表現(xiàn)更為出色。
同時,若進(jìn)一步使用生成的深度信息來初始化點(diǎn)云,重建效果更佳,這也進(jìn)一步證明了所提出深度生成模塊對于場景重建任務(wù)的有效性。
上圖中的定性結(jié)果同樣印證了這一結(jié)論。在最后一組樣例中,混元Voyager 能夠較好地保留吊燈的細(xì)節(jié)特征,而其他方法難以重建出基本形狀。
同時,在主觀質(zhì)量評價中,混元Voyager同樣獲得最高評分,進(jìn)一步驗證了所生成視頻具備卓越的視覺真實性。
并且混元Voyager完全開源,相關(guān)技術(shù)報告已公開,源代碼在GitHub和Hugging Face上免費(fèi)開放。
模型部署的要求如下:
One More Thing
騰訊混元正在不斷加速開源進(jìn)展,除了包括混元Voyager在內(nèi)的混元世界模型系列,還有MoE架構(gòu)的代表性模型混元large、混合推理模型Hunyuan-A13B,以及多個面向端側(cè)場景的小尺寸模型,最小僅0.5B參數(shù)。
最近還開源了翻譯模型Hunyuan-MT-7B和翻譯集成模型Hunyuan-MT-Chimera-7B(奇美拉),前者在國際機(jī)器翻譯比賽中拿下了30個第一名。
除騰訊以外的其它國內(nèi)大廠也在猛猛開源。
阿里的Qwen自不用說,除此外,阿里前段時間還開源了視頻生成模型Wan2.2-S2V。
美團(tuán)的第一個開源大模型Longcat-Flash-Chat最近也發(fā)布了,不知道大家有沒有關(guān)注。
參考鏈接:https://mp.weixin.qq.com/s/vCkFWwV5vUQhjMRfMQB2XA
項目主頁:https://3d-models.hunyuan.tencent.com/world/
模型:https://3d.hunyuan.tencent.com/sceneTo3D
GitHub:https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.