“如果沒有開源,沒有去和社區(qū)交流,我們靠閉門造車是空想不出來的?!苯?,在接受字母榜獨家專訪時,騰訊混元3D團隊負(fù)責(zé)人郭春超這樣說道。
郭春超的感慨來自于在近期的開源社區(qū)中,國產(chǎn)模型“攪動”了整個大模型業(yè)界的開源生態(tài), Hugging Face的模型熱度榜單被中國企業(yè)連續(xù)“霸榜”。最多時,前10開源席位中有9個來自中國。在排名前幾的選手中,除了 “Text Generation”(文本生成)、“Text to Image”(文生圖)等常見模態(tài)外,一款并不常見的“Image to 3D”(圖生3D)模型擠入前三名,榜單中顯示其為騰訊開發(fā)的“混元3D世界模型1.0”。
“混元3D世界模型1.0”是騰訊混元3D系列的最新成果,在不久前結(jié)束的WAIC(世界人工智能大會)上發(fā)布并全面開源。在產(chǎn)品演示中,該模型可以用一句話、一張圖生成一個可漫游、可編輯的3D世界。盡管有分析顯示,該模型能力還在早期階段,但其技術(shù)論文迅速登頂了Hugging Face的論文熱度榜單。
近年來,騰訊在大模型領(lǐng)域版圖不斷擴展,但在傳統(tǒng)的語言模型板塊,騰訊旗下元寶等C端產(chǎn)品,就陷入了行業(yè)內(nèi)同類產(chǎn)品的高強度“內(nèi)卷”。而在有些“冷門”的3D模型領(lǐng)域,騰訊卻迅速在國內(nèi)較早形成產(chǎn)品規(guī)?;_@背后的驅(qū)動力,似乎來自那些騰訊最賺錢的業(yè)務(wù)。
“騰訊在游戲、影視、動漫等業(yè)務(wù)都會用到3D建模,為混元3D模型的發(fā)展提供了需求場景?!睋?jù)郭春超介紹,已經(jīng)有數(shù)十個游戲的項目組在使用混元3D的模型能力。一位騰訊方面人士向字母榜表示,這其中就包括《元夢之星》等主力產(chǎn)品。
據(jù)騰訊方面人士介紹,自2024年11月發(fā)布并開源首代3D生成模型以來,混元3D系列持續(xù)迭代。今年4月,混元3D系列迭代至2.5版本,在建模精細(xì)度上大幅提升,有效面片數(shù)增加超10倍。同時,騰訊還發(fā)布了面向創(chuàng)作者的3D AI創(chuàng)作引擎,以滿足游戲開發(fā)、動畫影視及3D打印等領(lǐng)域的專業(yè)需求。相關(guān)數(shù)據(jù)顯示,混元3D模型系列在Hugging Face平臺下載量已超過230萬。
“越來越多的游戲開發(fā)者、3D打印企業(yè)及專業(yè)設(shè)計師采用混元3D模型來生成數(shù)字資產(chǎn)。”在剛剛發(fā)布的騰訊Q2財報中,提到混元3D系列受到業(yè)內(nèi)認(rèn)可的現(xiàn)狀,對于模型的技術(shù)水平,財報中的描述為“領(lǐng)先行業(yè)的幾何精度、紋理真實度、指令與3D對齊能力?!?/p>
另一方面,“3D世界模型”是3D生成大模型中的新銳領(lǐng)域,直到去年才在業(yè)內(nèi)嶄露頭角。去年年底,“AI教母”李飛飛創(chuàng)業(yè)公司W(wǎng)orld Labs展示了一圖生成3D世界的AI系統(tǒng),隨后,谷歌DeepMind也發(fā)布了可通過單張圖片或文字描述,生成3D場景的大型基礎(chǔ)世界模型Genie 2,并于上周更新至Genie 3。
Genie 3能以每秒 24 幀的速度實時導(dǎo)航,并以 720P分辨率保持幾分鐘的一致性。不過,和混元3D世界的技術(shù)路線不同,Genie 3更側(cè)重于打造一個動態(tài)、多幀一致的交互式模擬世界,可以逐幀生成一個實時交互3d場景,但并不具備像混元3D世界那樣導(dǎo)出mesh場景的能力。
事實上,“世界模型”并不是一個新鮮概念,早在上世紀(jì)90年代開始,就已在機器人導(dǎo)航工具領(lǐng)域應(yīng)用。而進入大模型時代后,由人工智能驅(qū)動的世界模型,已經(jīng)逐漸在包括具身智能、AR/VR、游戲影視開發(fā)等領(lǐng)域內(nèi),發(fā)揮基建性的作用。
“它既可以復(fù)刻一個虛擬的世界,去創(chuàng)造一個虛擬社交/游戲的場景,也可以創(chuàng)造一個模擬真實場景、比如展覽會等復(fù)制現(xiàn)實的形態(tài)?!闭劶?D世界模型給未來提供的想象空間,郭春超提供了他的思考。
為什么騰訊要瞄準(zhǔn)3D模型賽道?3D世界模型真的能給游戲/動畫行業(yè)帶來產(chǎn)業(yè)革命嗎?日前,在深圳的一個炎熱午后,郭春超向字母榜回應(yīng)了上述問題。
“在這個行業(yè)內(nèi),只要一中斷,就在業(yè)界沒有聲音了。”在郭春超看來,想要在新領(lǐng)域站穩(wěn)腳跟,對新技術(shù)的持續(xù)跟進和投入。這樣的觀點在業(yè)內(nèi)并不缺少案例, Meta早在去年就發(fā)布了Meta 3D Gen,一度處于業(yè)內(nèi)領(lǐng)先的水平。但隨后Meta并未持續(xù)在3D生成領(lǐng)域發(fā)力,更新節(jié)奏一度中斷,直到今年5月才推出Meta 3D Gen2.0。
“一個模型團隊需要持續(xù)交付出好的東西,如果有一個階段沒有交付出來,后面可能就要還‘技術(shù)債’?!?總結(jié)混元3D團隊的發(fā)展歷程,郭春超這樣說道。
|對話|
3D大模型,正在前半程奔跑
字母榜:和其他類型的大模型不同,3D生成模型是大眾用戶感知相對較弱的領(lǐng)域。作為資深從業(yè)者,你能簡單總結(jié)一下目前3D生成所處的階段嗎?
郭春超:3D模型是一個發(fā)展相對較新、較晚的領(lǐng)域,大約在2024年業(yè)界才開始加大投入、今年才看到商業(yè)拐點并爆發(fā)。相比之下,LLM(大語言模型)從2022年就出現(xiàn)了比較成熟的產(chǎn)品,比如GPT3.5的出現(xiàn)?,F(xiàn)在所處的階段,可以類比在LLM中,GPT2-GPT3之間并接近GPT3的一個狀態(tài)。
字母榜:你是說,3D生成模型還在一個比較早期的階段?
郭春超:是的?,F(xiàn)在屬于是前半段賽程,在3D資產(chǎn)生成領(lǐng)域,希望到年底能做到類比LLM中GPT3.5的水平。
字母榜:在3D模型領(lǐng)域,騰訊是國內(nèi)走得比較快、做得也比較多的一家企業(yè),而其他國內(nèi)頭部企業(yè)似乎沒有將3D模型作為主要方向。為什么騰訊會瞄準(zhǔn)3D模型賽道,這背后有怎樣的戰(zhàn)略考量?是否有來自公司內(nèi)部的場景或需求,在驅(qū)動你們做這個事情?
郭春超:我們主要圍繞兩個大方向進行布局。一個是業(yè)界的技術(shù)發(fā)展趨勢,另一個是我們騰訊的業(yè)務(wù)需求。在技術(shù)發(fā)展趨勢上,過去一年中,業(yè)內(nèi)3D模態(tài)的發(fā)展速度非常快。國外企業(yè)像Meta、Google都在3D模型領(lǐng)域有重點投入,3D模態(tài)對我們理解三維物理世界必不可少。
從自身業(yè)務(wù)布局角度而言,騰訊在游戲、影視、動漫等業(yè)務(wù)都會用到3D建模,為混元3D模型的發(fā)展提供了需求場景。至于國內(nèi)其他的企業(yè),在這方面可能也有布局,但不一定像騰訊投入這么大。
字母榜:有沒有混元3D團隊與上述內(nèi)部業(yè)務(wù)合作的具體案例?哪些團隊和混元3D業(yè)務(wù)的關(guān)聯(lián)是最緊密的?
郭春超:比如在游戲板塊,我們已經(jīng)合作了多個團隊,但由于保密原因不能公開。不過,已經(jīng)有數(shù)十個游戲的項目組在使用混元3D的模型能力。
另一方面,我們和騰訊云是內(nèi)部合作關(guān)系,騰訊云會把混元3D的一些能力賦能到外部。比如說設(shè)計Agent Lovart,以及3D 打印品牌拓竹科技、創(chuàng)想三維等。
字母榜:在迭代模型能力的時候,你們會參考內(nèi)部團隊的意見或需求嗎?
郭春超:這個肯定會的?;旧衔覀儠押芏鄻I(yè)務(wù)共性的需求匯總起來,作為后續(xù)研發(fā)方向的指導(dǎo)。
AI“造”世界的抽卡難題
字母榜:今年1月,3D AI創(chuàng)作引擎2.0上線時,你曾表示:“3D模型生產(chǎn)的視覺合格率,僅用一年時間就從20%提升到60%的水平?!倍煸?D世界模型的生成場景要更復(fù)雜,目前該模型生成質(zhì)量符合你的預(yù)期嗎?
郭春超:世界模型目前還處于早期階段,可能比混元3D 1.0當(dāng)時所處的階段還要再早一點。單個物體生成,模型輸出的就是單個資產(chǎn),像一個人、一張桌子子,可約束的條件相對較多。
但世界模型是一整個開放3D世界的生成,有真實的、有虛擬的;有自然的、也有室內(nèi)的。所以它的生成難度較高,涉及空間穩(wěn)定性、物理規(guī)律等影響因素也更多,因此它的發(fā)展可能需要更長時間。
字母榜:如果要量化混元3D世界模型的合格率,你認(rèn)為能達(dá)到多少?
郭春超:不同的任務(wù)不一樣。如果是簡單的一個展廳,只是進入這個場景瀏覽一下,目前能做到30%-40%的合格率。如果有更高品質(zhì)的要求,比如說在自動駕駛場景,或者高品質(zhì)游戲的搭建,那以目前的模型能力,可能連10%的合格率都做不到。
字母榜:說起合格率的問題,背后其實有一個可控性的因素。相比物體3D模型,3D世界模型的生成任務(wù)更復(fù)雜,對可控性要求是否會更高?
郭春超:關(guān)于可控性問題,本質(zhì)上是模型能力能不能穩(wěn)定激發(fā)出來。很多時候大模型在使用中需要“抽卡”(多次生成),通過強化學(xué)習(xí)等手段,我們希望把“抽卡”的能力穩(wěn)定下來,大幅提高了可控性。
而對于3D世界模型而言,提高生成的穩(wěn)定性是更復(fù)雜的工程,我們需要從數(shù)據(jù)端、模型架構(gòu)、預(yù)訓(xùn)練策略、后訓(xùn)方法(包括SFT、強化訓(xùn)練等環(huán)節(jié)),系統(tǒng)性的都“加固”一遍,最終才能逐步提升。
此外,在產(chǎn)品層面,我們后續(xù)也會逐漸降低用戶使用門檻,比如說幫助用戶去做更多的prompt改寫,亦或者提供更多模態(tài)的輸入,例如“文+圖”或“文+多張圖”,使其可控性能更契合用戶的想法。
字母榜:在今年早些時候,騰訊的游戲制作人王智剛老師曾表示,面數(shù)控制能力對游戲研發(fā)來說是至關(guān)重要的,某些游戲項目需要的3D模型可能只有幾千面,但一些大模型上來就是幾萬面。而相比3D物體生成,3D世界生成的復(fù)雜性會更高,針對這一問題你們是否有進展?
郭春超:針對如何控制3D世界模型的生成文件大小,我們一直在優(yōu)化。最開始使用了3D高斯?jié)姙R技術(shù),但那會導(dǎo)致文件很大,后面我們將其轉(zhuǎn)成了面片的形式,壓縮了幾十倍的大小。
未來,相信隨著業(yè)界基建的發(fā)展,更好的渲染方式、更好的引擎出現(xiàn),以及伴隨著模型層面的迭代,以及伴隨著模型層面的迭代,能把這個問題更好地解決。
字母榜:目前,網(wǎng)頁版的混元3D世界模型包含兩種生成模式,前一種是基于文本/圖像,生成一個全景圖式的Skybox,后一種則是基于全景圖去生成3D世界。不過,目前在網(wǎng)頁端,即使生成了一個3D網(wǎng)格世界,能夠探索的范圍也很小,為什么要做這樣的限制?
郭春超:這是因為在純3D的場景里面,如果想要大范圍探索,會涉及到很多參數(shù)的設(shè)置,比如說哪里該有空氣墻,哪里能進去,還是需要有專業(yè)人士進行進一步的調(diào)整。
目前,無論是創(chuàng)作3D單體還是3D場景,要打包到引擎當(dāng)中去開發(fā)成一款游戲,還是有一定的專業(yè)性。在3D世界模型的1.0階段,我們更多的是幫助創(chuàng)作者,去降低制作這些場景資產(chǎn)的門檻,但是還不能100%替代人工。
下一代3D模型:交互性+真實性
字母榜:行業(yè)也有類似的產(chǎn)品,宣稱可以實時生成游戲世界。這是某個海外團隊的產(chǎn)品demo,和混元3D世界模型對比的話,你認(rèn)為這兩個產(chǎn)品的技術(shù)路線有什么差異?
郭春超:看了一下演示,他們可能采用的是視頻生成的模式,本質(zhì)上是預(yù)測畫面的下一幀。演示中的人物形象是一直往前走的,如果走了一會再回頭,會發(fā)現(xiàn)后面的山或者其他素材會消失。事實上,因為視頻生成數(shù)據(jù)量非常大,目前視頻生成技術(shù)還不能徹底進入游戲的管線。
字母榜:不過實時生成游戲世界的理念,最近在業(yè)內(nèi)熱度還蠻高,混元下一步會有這種想法嗎?
郭春超:下一步,我們探索會結(jié)合3D和2D場景下的幾種模態(tài),推出一個World Play的交互模型,預(yù)計在今年下半年推出。這個版本有望既解決了2D穩(wěn)定性的不足,又解決了3D生成多樣性的不足,把兩者的優(yōu)點結(jié)合起來。
圖注:混元世界模型1.0應(yīng)用概覽圖
字母榜:此前你曾表示,3D生成模型的發(fā)展還面臨一些挑戰(zhàn)。其中之一是數(shù)據(jù)的不足,在3D模型領(lǐng)域只有千萬量級的數(shù)據(jù),并且沒有被充分的利用。目前你們在數(shù)據(jù)利用層面是否有新的進展?
郭春超:是的。我們目前用了大量的圖和視頻的場景,用來緩解了3D素材產(chǎn)能不足。尤其是大量的視頻場景,可以轉(zhuǎn)化為3D信息,進而指導(dǎo)我們?nèi)プ鋈S世界的生成。而且最終生成的3D世界,既可以以3D的形式保存,也可以渲染成視頻,得到一個視頻或某一幀圖像。
當(dāng)然,在純3D文件領(lǐng)域,我們基于很多游戲資產(chǎn)等內(nèi)容,半自動化搭建了很多3D場景。所以,在混元3D場景(世界)訓(xùn)練中,既用到了圖像、視頻,也用到了很多原生3D場景。相比此前的3D物體模型,在數(shù)據(jù)的豐富度有了較大提升。
字母榜:我們也留意到了前段時間發(fā)布的“混元游戲視覺的生成平臺”?;煸?D系列該平臺上也扮演了比較重要的角色,這是混元3D業(yè)務(wù)在應(yīng)用層面規(guī)劃的一部分嗎?
郭春超:那個游戲平臺更多的是我們針對游戲行業(yè)做的第一步的解決方案,它會持續(xù)迭代,后面我們也會有更多的游戲相關(guān)的功能加入到里面,形成一個更完整的游戲Paas(平臺及服務(wù))解決方案。
我們會把游戲管線里面達(dá)標(biāo)的、能夠符合工業(yè)化生產(chǎn)標(biāo)準(zhǔn)的能力,集成到游戲平臺里面去。但如果是還處于前期探索階段的能力,我們會先研發(fā)一段時間,達(dá)到工業(yè)化水準(zhǔn)時再搬進去。
字母榜:按照你之前的評價,混元3D世界模型似乎是你說的后者,離工業(yè)化還有些距離。
郭春超:距離游戲管線是這樣,還需要一段時間。如果只是用在一些VR的觀看場景,可能已經(jīng)部分可用了。
字母榜:混元3D世界模型2.0的一些優(yōu)化方向,能不能透露一下?
郭春超:我們的2.0會在真實世界場景呈現(xiàn)上進行比較大的投入。因為目前的1.0更多聚焦在虛擬世界生成上,但是現(xiàn)實中也有很多應(yīng)用場景是需要真實感的,比如做一個線上的展覽會,想讓人有身臨其境的感覺,那就需要提升模型搭建真實場景的能力。
字母榜:近期WAIC上騰訊也同步了一些具身智能的進展,其中有提到“多模態(tài)感知”這個板塊,這一部分會有混元3D能力的介入嗎。
郭春超:新推出的混元3D世界模型暫時沒有在具身智能里面應(yīng)用,但是我希望后面能提供3D的場景或者是世界生成的能力,包括剛剛提到的世界模型2.0,能夠更多地去賦能具身智能場景。
開源擁抱未來,思考星辰大海
字母榜:回顧過去9個月,混元3D系列陸續(xù)發(fā)布并開源了多款模型,此前還更新了一個面向?qū)I(yè)設(shè)計領(lǐng)域的Hunyuan3D-PolyGen。在規(guī)劃這些細(xì)分模型場景,或者說模型產(chǎn)品矩陣時,你們考慮的因素有哪些?
郭春超:我們就主要考慮的是兩個大的方向。第一個大的方向,是怎么做好當(dāng)下。第二個大的方向,是怎么根據(jù)技術(shù)發(fā)展去拓展未來。
像我們現(xiàn)在做的3D資產(chǎn)的生成,更多的是服務(wù)于當(dāng)下的業(yè)務(wù)需求。而著眼于未來,像近期推出的混元3D世界模型,可能短期內(nèi)無法帶來天翻地覆的變化,但隨著技術(shù)的完善和成熟,未來它一定能“革命”掉很多東西。從創(chuàng)作方式到工業(yè)流程生產(chǎn)的方式,都是可能被“革命”掉的,我們發(fā)布開源就是圍繞這兩個思路來做的。
字母榜:3D世界模型1.0,目前看起來還是有點投石問路的意思。
郭春超:目前還處于比較早期,它會在部分場景,在VR或者是一些大家做原型場景的驗證有用。但是很多事情是需要大家先把這個生態(tài)給做起來,讓開源社區(qū)活躍起來,才會有更多研究者進入到這個領(lǐng)域里面。
字母榜:說到開源,混元3D系列模型的在Hugging Face的下載量突破了230萬。您怎么理解開源社區(qū)中,廣大開發(fā)者給你們的反饋?
郭春超:我們開發(fā)團隊和社區(qū)是一個雙向奔赴、互幫互助的狀態(tài),社區(qū)里的開發(fā)者能夠基于我們發(fā)布的技術(shù)成果進行改進,降低他們的研發(fā)門檻。比如說一個開發(fā)者是研究世界模型領(lǐng)域的,或者是做自動駕駛領(lǐng)域的人,就能比較輕松把這個用起來。
如果沒有開源,沒有去和社區(qū)交流,我們靠閉門造車是空想不出來的。他們也給了我們非常多的信息輸入,因此我覺得開源社區(qū)是一個雙向共贏的事情。
字母榜:所以其實大家都非常渴望擁抱新業(yè)態(tài),哪怕面對的是一個還不夠成熟的產(chǎn)品。
郭春超:是的,如果一個事情已經(jīng)到了商業(yè)化的拐點……
字母榜:那就該閉源了?
郭春超:(笑)這個問題我就不多做評論,但是如果到了100%商業(yè)化拐點,可能業(yè)界研究的人就比較少了。舉個例子,就像手機的人臉識別已經(jīng)非常成熟,可用率也很高,再做這個算法研發(fā)ROI就十分有限。所以整個大模型界研究這個領(lǐng)域的人就比較少了,研究者的熱情更多是探索AGI怎么實現(xiàn),思考一些星辰大海的領(lǐng)域。
字母榜:回顧過去9個月,雖然時間不長,但不管是在模型數(shù)量還是生成質(zhì)量上,混元3D系列迭代得非???,這背后的原因是什么?
郭春超:核心是做大模型三要素:算力、數(shù)據(jù)、人才,我們在這三個方面都相對做的比較好。同時依托混元大模型這個平臺,包括公司層面上也給了混元特別大的支持。把三要素湊齊,是我認(rèn)為能做成的第一個原因。
第二個原因是團隊組織形式,我們團隊非常年輕且國際化,團隊博士比例大約占2/3,基本上都來自于海內(nèi)外名校。此外,我們團隊一直堅持工業(yè)化的打法,在團隊組織和運作上都是保持非常“卷”的狀態(tài)。我認(rèn)為以上兩個方面是能夠讓這個模型技術(shù)快速迭代的最大原因。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.