新智元報(bào)道
編輯:KingHZ
【新智元導(dǎo)讀】Genie 3來(lái)了!這或許是最接近「模擬世界」的AI魔法。只需一句話,它就能生成一個(gè)動(dòng)態(tài)、可互動(dòng)的世界——角色能互動(dòng)、下水會(huì)濺起水花,甚至還能記住一分鐘前的細(xì)節(jié)。DeepMind研究者直言:Genie 3是通向AGI的關(guān)鍵一步。
Genie 3是有史以來(lái)最先進(jìn)的世界模型之一。
僅通過(guò)文本,它能夠?qū)崟r(shí)生成完全互動(dòng)、高度一致的世界。
它不僅是DeepMind積累的結(jié)晶,還是通向AGI和具身智能體的關(guān)鍵一步。
但Genie 3是如何構(gòu)建的?未來(lái)的世界模型又是什么樣?
剛剛,谷歌DeepMind的研究科學(xué)家Jack Parker-Holder和研究總監(jiān)Shlomi Fruchter,在a16z的訪談中,分享了他們的觀點(diǎn)。
這次對(duì)話提供了對(duì)Genie 3的第一手洞察。
主持人Justine Moore發(fā)推表示:「Genie 3在網(wǎng)絡(luò)上引發(fā)熱潮」。
他總結(jié)了深入探討的要點(diǎn):
Genie3是由兩個(gè)DeepMind項(xiàng)目(Veo 2和Genie 2)合作完成的成果。
實(shí)時(shí)、互動(dòng)的世界模型有很多潛在應(yīng)用。
但應(yīng)用并不是推動(dòng)研究的主要?jiǎng)恿Α鼈兪菑挠脩羰褂媚P偷倪^(guò)程中自然涌現(xiàn)出來(lái)的。
Genie 3可以保留最長(zhǎng)達(dá)一分鐘的空間記憶。
物理規(guī)律是模型的「自然產(chǎn)物」,并會(huì)隨著訓(xùn)練數(shù)據(jù)的規(guī)模和深度而不斷提升。
目前還沒(méi)有一個(gè)「終極模型」能夠同時(shí)具備Veo 3和Genie 3的所有能力。
Genie 3:AI新魔法
如果說(shuō)LLM的原生圖像編輯功能,「動(dòng)動(dòng)嘴PS」是「言出法隨」,那Genie 3這次的新特性叫什么?
只需輸入文本提示,Genie 3即可生成動(dòng)態(tài)世界。用戶可以實(shí)時(shí)進(jìn)行探索,每秒高達(dá)24幀,分辨率為720p。
十多年來(lái),谷歌DeepMind一直致力于模擬環(huán)境的研究。
Genie 3是他們最新最強(qiáng)的「世界模型」,是通向通用人工智能(AGI)的關(guān)鍵一步,因?yàn)樗茏孉I智能體在無(wú)限豐富的模擬環(huán)境中進(jìn)行訓(xùn)練。
去年,他們推出了首批基礎(chǔ)世界模型Genie 1和Genie 2,它們能為智能體生成全新的環(huán)境。此外,他們還通過(guò)Veo 2和Veo 3等視頻生成模型,不斷提升對(duì)直觀物理的理解能力。
這些模型在世界模擬的不同能力上都取得了進(jìn)展。Genie 3是谷歌首個(gè)支持實(shí)時(shí)交互的世界模型,同時(shí)提升了一致性和真實(shí)感。
在生成視頻時(shí)長(zhǎng)、世界一致性、內(nèi)容的多樣性、特殊記憶等多個(gè)方面,Genie 3都實(shí)現(xiàn)了突破。
它甚至可以讓個(gè)人創(chuàng)造自己的游戲世界、訓(xùn)練強(qiáng)化學(xué)習(xí)的智能體、機(jī)器人研究等。
所有這些應(yīng)用基本上都源于一個(gè)核心能力:只用幾句話就能生成一個(gè)完整的世界。
最關(guān)鍵的新特性是:特殊記憶。
比如:一個(gè)角色拿著刷子在墻上刷漆,然后他移動(dòng)到墻的另一邊去刷,接著又回到原來(lái)的位置,結(jié)果之前刷的痕跡還在。
特殊記憶(special memory)是DeepMind團(tuán)隊(duì)有意設(shè)計(jì)的目標(biāo),但最終的效果好得出乎意料。
即便是參與Genie 3的內(nèi)部成員,第一次看到上面刷墻的示例時(shí)也不敢相信,需要再三觀看、逐幀檢查,才確定這真的是模型生成的。
Genie 3的一致性非常高:建筑物左側(cè)的樹(shù)木在整個(gè)交互過(guò)程中始終保持一致,即使它們時(shí)而進(jìn)入視野時(shí)而消失
其實(shí),Genie 2就已經(jīng)具備了一些「記憶能力」。但當(dāng)時(shí),整個(gè)AI界太多令人激動(dòng)的模型發(fā)布,比如Veo 2模型幾天后也發(fā)布了。而且,當(dāng)時(shí)谷歌主打的賣點(diǎn)是「可以生成新的世界」,所以記憶能力就沒(méi)被強(qiáng)調(diào)出來(lái)。
到了Genie 3,在「記憶」上,谷歌DeepMind下了更大的決心,明確地把「增強(qiáng)記憶能力」作為核心目標(biāo)之一。
當(dāng)時(shí)設(shè)定的目標(biāo)是:
超過(guò)一分鐘的記憶、
支持「實(shí)時(shí)生成」、
還能提升「分辨率」。
其實(shí),這幾個(gè)目標(biāo)本身是互相矛盾的,但谷歌無(wú)所畏懼。
說(shuō)實(shí)話,直到項(xiàng)目快結(jié)束時(shí),在看到最終樣本的那一刻,他們依然感到震撼。這種成果即使是預(yù)期中的,真的實(shí)現(xiàn)的時(shí)候還是非常令人興奮。畢竟,研究項(xiàng)目永遠(yuǎn)不會(huì)有百分百的確定性。
在設(shè)計(jì)上,他們還有一個(gè)明確的方向,就是不采用「顯式表示法」。市面上已有一些方法,比如用NeRF或Gaussian Splatting等技術(shù),通過(guò)構(gòu)建明確的3D世界結(jié)構(gòu),來(lái)達(dá)到一致性。這些方法很好,在某些應(yīng)用上效果不錯(cuò)。
但他們堅(jiān)持讓模型「逐幀生成」,這種方式對(duì)模型的泛化能力、適應(yīng)多樣世界的能力更有幫助。
智能涌現(xiàn),驚喜不斷
就像其他生成式模型一樣,隨著Scaling,效果確實(shí)會(huì)提升,這已經(jīng)不是什么秘密了。
盡管不如語(yǔ)言模型在推理能力上的涌現(xiàn)表現(xiàn),Genie 3依然涌現(xiàn)出一些令人驚訝的行為。比如說(shuō),如果一個(gè)角色靠近一扇門,模型可能就會(huì)「推測(cè)」角色應(yīng)該打開(kāi)門;這類符合人類直覺(jué)的行為,模型現(xiàn)在能在一定程度上表現(xiàn)出來(lái)了。
還有就是對(duì)語(yǔ)言的理解在不斷變好,生成的內(nèi)容也越來(lái)越真實(shí),視覺(jué)效果更自然。
從Genie 2到Genie 3的提升非常明顯,特別是在「模擬現(xiàn)實(shí)世界能力」上有巨大飛躍。
比如物理效果的表現(xiàn)——像水的模擬、光照的變化,都非常驚艷。
現(xiàn)在已經(jīng)到了一個(gè)地步,哪怕是非專業(yè)人士,看了之后也會(huì)覺(jué)得是真實(shí)拍攝的視頻。
這太驚人了。而在Genie 2時(shí)代,模型雖然大致能表現(xiàn)出物體該有的行為,但你還是一眼能看出「這是AI生成的,不是真的」。
現(xiàn)在的視頻真假難辨,進(jìn)步真的很大了。
在「地形多樣性」問(wèn)題:比如模型需要理解在沙地上行走、在下坡滑雪、在水中游泳,這些動(dòng)作和物理反饋應(yīng)該是不一樣的。
谷歌團(tuán)隊(duì)發(fā)現(xiàn)這些行為很多都是規(guī)模和數(shù)據(jù)廣度所帶來(lái)的「涌現(xiàn)能力」。
換句話說(shuō),他們并沒(méi)有為這些行為做專門的訓(xùn)練或設(shè)計(jì),而是模型自己「學(xué)」出來(lái)的。它通過(guò)足夠豐富的訓(xùn)練數(shù)據(jù),掌握了這個(gè)「世界」的通用常識(shí)。大多數(shù)時(shí)候,它表現(xiàn)非常不錯(cuò)。
比如下面的例子:
在滑雪時(shí),角色在下坡時(shí)速度會(huì)變快,而試圖上坡時(shí)就會(huì)變慢,甚至爬不上去;
下水后,角色一般會(huì)開(kāi)始游泳或?yàn)R起水花;
靠近水坑時(shí),模型通常也會(huì)讓角色穿上雨靴。
這些行為都非常自然,和人類對(duì)真實(shí)世界的理解非常一致,而這些都是模型自己學(xué)會(huì)的,真的讓人覺(jué)得像魔法一樣。
這里還有一個(gè)有趣的權(quán)衡:既能保持世界的「物理一致性」,同時(shí)也能忠實(shí)地執(zhí)行用戶的提示詞。
對(duì)視頻模型來(lái)說(shuō),「低概率事件」本來(lái)很難,但Genie 3依然能有不錯(cuò)的表現(xiàn)。
這正是它的魅力所在:
即便是一些現(xiàn)實(shí)中不太可能發(fā)生的場(chǎng)景,Genie 3也能讓你如臨其境,而不是僅僅生成一個(gè)和你身邊環(huán)境一樣的無(wú)聊視頻。
在「指令跟隨/文本對(duì)齊」,Genie 3也得到了提升,這主要得益于DeepMind內(nèi)部不同項(xiàng)目(特別是Veo項(xiàng)目)的經(jīng)驗(yàn)遷移和知識(shí)共享。這種跨團(tuán)隊(duì)協(xié)作是DeepMind的優(yōu)勢(shì)。
世界模型是讓智能體走向現(xiàn)實(shí)世界最快的路徑。Genie 3朝著這個(gè)目標(biāo)邁出了一大步。
那Genie 4、Genie 5的新特性有哪些設(shè)想?
未來(lái)的關(guān)鍵
真實(shí)感和交互性
但總的來(lái)說(shuō),Genie 3團(tuán)隊(duì)最關(guān)注的始終是一件事:讓模型本身變得盡可能強(qiáng)大,讓它能產(chǎn)生更廣泛的影響,然后把創(chuàng)造應(yīng)用的機(jī)會(huì)交給其他團(tuán)隊(duì)。
他們表示最終會(huì)開(kāi)放Genie 3模型。
未來(lái)確實(shí)讓人特別興奮,但也必須承認(rèn),世界模型距離真正「準(zhǔn)確模擬現(xiàn)實(shí)世界」還有很大差距。
比如,把一個(gè)人放進(jìn)生成的世界里,讓他隨心所欲地做任何事情,我們還遠(yuǎn)遠(yuǎn)做不到。
還有很多工作要做,才能讓虛擬世界的真實(shí)感和自由度接近現(xiàn)實(shí)。
應(yīng)用還有很多,關(guān)鍵在于能否準(zhǔn)確模擬世界,并把人放進(jìn)其中。也許還能從「第三視角」觀察自己,或者與虛擬智能體互動(dòng)。
他們還透露真實(shí)感和交互性是未來(lái)的關(guān)鍵。
現(xiàn)在機(jī)器人領(lǐng)域最大的瓶頸之一就是數(shù)據(jù):能收集到的數(shù)據(jù)非常有限。
而Genie 3能生成幾乎無(wú)限的場(chǎng)景,這樣一來(lái)機(jī)器人就能在虛擬世界里學(xué)習(xí),而不再局限于現(xiàn)實(shí)中能采集到的視頻。這個(gè)想法真的很令人興奮。
最后一個(gè)問(wèn)題:人類是不是生活在某種模擬中?
這個(gè)問(wèn)題被問(wèn)過(guò)很多次,得到了「哲學(xué)化」的回答:如果真是模擬,那它運(yùn)行在完全不同的硬件之上
如果人類真的生活在一個(gè)模擬世界里,那它絕對(duì)不是運(yùn)行在現(xiàn)在的硬件上的。因?yàn)槲覀兊氖澜缡?strong>連續(xù)的,而不是數(shù)字化的。
所有的感知都是連續(xù)的信號(hào)。
也許,在量子層面會(huì)有一些「硬件限制」,但至少和我們現(xiàn)在的計(jì)算機(jī)完全不同。
或許未來(lái)量子計(jì)算機(jī),才是運(yùn)行我們這個(gè)模擬世界的真正平臺(tái)。
參考資料:
https://www.youtube.com/watch?v=tWgjhC7dJRo
https://x.com/Mascobot/status/1956769541759094859
https://supersonic.video/tWgjhC7dJRo
https://x.com/venturetwins/status/1956769043668725919
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.