在最近的2025世界人工智能大會(WAIC)上,騰訊突然放了個“王炸”,正式發(fā)布并開源了旗下「混元3D 世界模型 1.0」。
據(jù)了解,相較于以往,此次發(fā)布的「混元3D世界模型」最大的不同在于,這是業(yè)界首個開源可沉浸漫游、可交互、可仿真的世界生成模型。按照騰訊的說法,用戶只需輸入一句話或一張圖,就能在幾分鐘內(nèi)生成一個完整、可360度沉浸式漫游的3D世界。
在混元大模型官網(wǎng),官方展示了幾個例子。
比如通過上傳一張畫著一棵樹、一艘船以及幾棟建筑的原始圖片,就能夠快速生成一個包含小樹、大海、藍天白云、城鎮(zhèn)等豐富要素的海濱小鎮(zhèn)。
又比如,通過一段簡短的文字描述,生成了一個布滿珊瑚、魚群以及海底城市的水下世界。整體來看,無論是作為主體的海底城市,還是周圍的生態(tài)環(huán)境分布、光照等元素,構(gòu)筑得都較為完整,算是較好地還原了文字描述的內(nèi)容。
除了以上兩個例子,官網(wǎng)還展示了許多其它的3D世界模型,包括小鎮(zhèn)、雪山、火山等等,且這些模型的美術(shù)風格也較為多樣,涵蓋了油畫、卡通、寫實、水墨等等風格。
值得一提的是,這些生成的3D世界,均允許用戶自由拖動視角進行360度觀察,并導(dǎo)出為全景貼圖以便在游戲、仿真或視覺引擎中使用。
回顧3D生成大模型的發(fā)展,從生成單個3D資產(chǎn),到如今一句話構(gòu)筑完整的3D世界,3D創(chuàng)作的門檻正在以肉眼可見的速度在下降。
實際用起來怎樣?
隨著混元3D世界模型正式發(fā)布,騰訊也面向所有人開放了試用體驗。
在實際體驗后,我發(fā)現(xiàn)該模型的「3D生成」能力主要有兩個特點:
一是對文字或圖像的理解能力較強。
在試用的過程中,我主要采用的是「文生全景」的方式。我發(fā)現(xiàn)即便我故意以一種非常不直白的方式來闡述自己想要的3D世界,混元模型還是能夠較為準確地理解文字的含義,并生成一個大體符合我要求的全景。
比如在我要求混元模型生成一個類似武俠小說中肅殺凄涼的場景時,我給出了如下一段長文字,其中加入了大量對場景細節(jié)的藝術(shù)化表達,用于干擾模型的理解,包括“枯草低伏”、“殘陽如血”、“無聲的鋒芒”等等。
「朔風卷過死寂的荒原,枯草低伏,嗚咽作響。殘陽如血,將銹蝕斷劍與焦黑枯樹的影子拖長,斜插在龜裂的硬土上。幾具森森白骨半掩于風化的黃沙中,散落的破碎甲片閃著冷光。一只禿鷲盤旋于鉛灰色的低垂天幕,發(fā)出斷續(xù)嘶鳴??諝饫飶浡F銹的腥甜與塵土干燥的嗆人氣息。一面殘破的戰(zhàn)旗掛在光禿的旗桿頂端,被風撕扯出裂帛般的聲響。遠處,風沙漫過嶙峋的亂石崗,發(fā)出沙沙的低吼。天地間唯余一片枯槁、冰冷與無聲的鋒芒?!?/em>
然而,從實際情況來看,混元模型算是較好地理解并抓住了以上文字的要點,一些關(guān)鍵性的要素,比如殘陽、禿鷲、枯樹、白骨、戰(zhàn)旗等,都在生成的全景圖里有所體現(xiàn)。同時,整個場景的氛圍雖說刻畫得不算完美,但也大體符合我原本“肅殺、凄涼”的要求。
當然,或許是模型吞噬的數(shù)據(jù)還不夠多,我發(fā)現(xiàn)在要是向它描述一些現(xiàn)實中沒有明文規(guī)定,但大家都約定俗成的定義時,混元模型的理解就容易走偏。
比如大多數(shù)人都能理解的「原神美術(shù)風格」,在我要求它以《原神》的美術(shù)風格,生成一個帶有植被生態(tài)、中世紀教堂建筑以及以及遺跡殘骸的城鎮(zhèn)時,混元模型就給出了一個離我預(yù)期相差較遠的全景圖。
且不說細節(jié)能不能構(gòu)筑出來,單單是美術(shù)風格就沒能過關(guān)。能看得出來,混元模型其實并不理解所謂的「原神美術(shù)風格」。
雖然對一些定義的理解還有待加強,但混元模型的第二個特點彌補了這些劣勢:那就是它生成全景圖或者模型的速度是真的快。
實際上,以上兩次嘗試從我輸入完文字開始算起,每一個全景圖的生成時間即便算上排隊,也沒有超過1分鐘。
至于「圖生全景」,同樣也很快速。比如我在某次試用時,扔給了模型一張塞爾達傳說風格的圖片,混元模型同樣用了不到一分鐘,就生成了一個可360度觀看的塞爾達風格全景世界。雖然細節(jié)上還有些粗糙,也沒有太多的要素填充,但起碼美術(shù)風格對上了。
需要指出的是,上述的試用生成的都是不可交互的全景圖,想要生成可交互的漫游場景需要額外申請資格。兩者的區(qū)別在于,漫游場景能夠允許用戶用WASD自由移動,是真正的虛擬3D世界。但從上述演示中不難看出,混元模型在3D世界模型生成方面的實際表現(xiàn)。
怎么實現(xiàn)的?
按照騰訊官方的說法,混元3D世界模型能實現(xiàn)上述效果,核心在于其創(chuàng)新的「語意層次化3D場景表征及生成算法」。該算法能夠?qū)?fù)雜的3D世界解構(gòu)為不同語意層級,實現(xiàn)前景、中景、遠景分層生成。
不僅如此,在生成的場景中,用戶還能對生成的每一部分,即場景內(nèi)的元素進行獨立編輯或物理仿真,比如前景物體可單獨選中、綁定骨骼或添加行為邏輯;天空與地形支持替換或個性化渲染。
同時,還能輸出標準化的3D Mesh資產(chǎn),可兼容Unity、Unreal Engine、Blender等主流工具,直接用于游戲開發(fā)、影視特效制作、教育仿真、工業(yè)訓(xùn)練等場景。用戶既可在官網(wǎng)使用,也可在 Hugging Face上部署模型本地運行。
據(jù)了解,目前混元3D生成大模型已在騰訊內(nèi)部多個業(yè)務(wù)場景中落地。比如在游戲領(lǐng)域,借助混元3D平臺加持,游戲3D資產(chǎn)制作時間成本從數(shù)天降到分鐘級;在地圖導(dǎo)航領(lǐng)域,騰訊地圖基于混元3D大模型推出自定義3D導(dǎo)航車標功能,創(chuàng)作效率提升91%。
考慮到現(xiàn)在混元3D世界模型還處于1.0階段,相關(guān)場景應(yīng)用還有待進一步拓展。隨著版本的迭代,其或許能夠在游戲研發(fā)、影視制作等環(huán)節(jié),帶給行業(yè)更多可能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.