白交 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
最近3D內(nèi)容生成模型好生熱鬧,像谷歌Genie 3、World Labs、混元、昆侖爭(zhēng)相發(fā)布并開(kāi)測(cè)世界模型。
一片喧囂中,杭州“六小龍”之一群核科技低調(diào)卻重磅地發(fā)布了自己的空間大模型,選擇了一條與眾不同的路徑:
深耕室內(nèi)場(chǎng)景,并直指行業(yè)核心痛點(diǎn)「空間一致性」。
不管怎么移動(dòng)都很絲滑~生成的視角也都是合理的。
從視頻生成到AI短劇,令人出戲的空間穿幫、扭曲視角和斷裂邏輯屢見(jiàn)不鮮,往往需要反復(fù)調(diào)教才能勉強(qiáng)可用。空間一致性,已成為橫亙?cè)谔摂M世界與現(xiàn)實(shí)世界之間的最大技術(shù)壁壘。
當(dāng)前主流技術(shù)路線(xiàn)可以分為兩類(lèi),一類(lèi)是以Genie 3為代表的“視頻生成派”,雖能生成動(dòng)態(tài)交互內(nèi)容,但本質(zhì)仍是二維序列的仿真。雖然視覺(jué)效果很逼真,但難以從根本上保證三維空間的視角與結(jié)構(gòu)一致性。
另一類(lèi)則是以World Labs、混元為代表的“3D場(chǎng)景生成派”,雖能實(shí)現(xiàn)360度漫游,卻受限于高質(zhì)量3D數(shù)據(jù)的匱乏,時(shí)常在視角切換中出現(xiàn)場(chǎng)景崩壞、內(nèi)容穿幫問(wèn)題。
而群核的空間大模型,正是致力于突破當(dāng)前模型遇到的這些挑戰(zhàn)。
它不僅在三維空間的視角一致性上表現(xiàn)得可靠,其漫游自由度和真實(shí)感上也更具優(yōu)勢(shì)。
而要了解這一最新突破,首先需要回答一個(gè)更根本的問(wèn)題:什么是空間大模型?
空間大模型是什么?
作為AI從數(shù)字世界走向物理世界的關(guān)鍵,李飛飛曾將空間智能的理論框架分為四個(gè)維度,分別是空間認(rèn)知理解、空間推理、空間交互行為與空間生成。
當(dāng)前大模型主要局限于文本、圖像等二維交互領(lǐng)域,但在三維空間操作(如家務(wù)協(xié)助)方面仍有距離。像掃地機(jī)器人能感知障礙物,卻無(wú)法理解“花架可移動(dòng)而承重墻不可撞”的空間常識(shí)。
解決這一問(wèn)題的關(guān)鍵在于真正的空間理解和認(rèn)知能力,并且在此基礎(chǔ)上具備交互行為。這既是空間智能的核心價(jià)值,也是空間大模型區(qū)別于其他AI「二維轉(zhuǎn)三維」探索的最大特點(diǎn)。
不過(guò)空間大模型具體能干啥?群核科技的發(fā)布,讓這一概念變得清晰可見(jiàn)。
用群核首席科學(xué)家周子寒的話(huà)說(shuō),群核空間大模型具備三個(gè)特點(diǎn):真實(shí)感全息漫游場(chǎng)景、可交互性以及復(fù)雜空間處理能力。
此次他們開(kāi)源的兩個(gè)子模型——空間語(yǔ)言模型SpatialLM1.5和空間生成模型SpatialGen正是最佳例證。
首先,真實(shí)感全息漫游場(chǎng)景。
在世界模型中,漫游自由度是衡量智能體在虛擬或仿真環(huán)境中空間探索能力的關(guān)鍵指標(biāo),它直接反映了世界模型對(duì)物理空間的建模精度和交互靈活性。背后這不僅依賴(lài)于環(huán)境建模,還有對(duì)物理規(guī)則的理解程度。
不過(guò)因?yàn)殚_(kāi)源3D場(chǎng)景數(shù)據(jù)稀缺,用戶(hù)在創(chuàng)作一個(gè)空間時(shí)很難保證每個(gè)視角都有合理的內(nèi)容,比如離開(kāi)指定環(huán)境就出現(xiàn)崩壞或者內(nèi)容缺失的情況。
此次開(kāi)源的SpatialGen,正是基于擴(kuò)散模型架構(gòu),它可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時(shí)空一致性的多視角圖像。然后采用一種全新3D高斯重建技術(shù)來(lái)還原3D場(chǎng)景。
在這個(gè)場(chǎng)景里,用戶(hù)可以四處走動(dòng),仿佛置身其中。
其次是可交互。
世界模型的一個(gè)很重要愿景在于希望它能模仿真實(shí)場(chǎng)景中的各種交互,機(jī)器人也可以在里面進(jìn)行移動(dòng)。
前面提到掃地機(jī)器人不懂空間常識(shí),那如果將各種物理參數(shù)等詞匯都保存在模型中,機(jī)器人是不是就能在一個(gè)可交互場(chǎng)景中去完成任務(wù)了呢?
此次他們發(fā)布的另一個(gè)模型SpatialLM 1.5,首次定義了空間語(yǔ)言這一概念。
什么是空間語(yǔ)言?
像傳統(tǒng)自然語(yǔ)言模型,你給它一張圖,它會(huì)用自然語(yǔ)言來(lái)描述圖中的內(nèi)容,這就有點(diǎn)像文科生。
但空間語(yǔ)言就更像是理科生,給它一張圖就獲得整個(gè)場(chǎng)景完整的3D信息。它會(huì)用坐標(biāo)軸去描述每個(gè)物體中的空間位置,包括它的形狀、姿態(tài)描述,甚至還包括物體的各種物理屬性等。
這種參數(shù)化的場(chǎng)景描述方式,使模型既能支持精準(zhǔn)的空間生成與編輯,又能為機(jī)器人處理復(fù)雜任務(wù)提供支持,這是傳統(tǒng)模型無(wú)法帶來(lái)的獨(dú)特優(yōu)勢(shì)。
先來(lái)看空間生成,不妨拿GPT-5來(lái)做下對(duì)比測(cè)試。
給GPT-5一張空間圖,并且補(bǔ)充空間語(yǔ)言的描述,讓它基于對(duì)空間的理解擺放常見(jiàn)的家具。
結(jié)果經(jīng)過(guò)可視化后看到,它并沒(méi)有對(duì)圖片有很好的理解,甚至還將原來(lái)的輪廓變成了四方形。
而設(shè)計(jì)更復(fù)雜的Prompt,讓它能充分理解空間信息之后再去創(chuàng)作。
這次房間輪廓沒(méi)有問(wèn)題,不過(guò)家具都擺在了一個(gè)房間角上了。
同樣的圖扔給SpatialLM1.5,僅用自然語(yǔ)言先讓它生成三維空間,然后在空間里放些家具,并且再加上約束:適合老人居住。
可以看到,它將沙發(fā)放到了左邊,對(duì)面有一個(gè)電視機(jī)柜,旁邊還有個(gè)輪椅,應(yīng)該是基于「適合老人居住」的理解。
再來(lái)看復(fù)雜空間任務(wù)處理能力。SpatialLM1.5可以被打造成AI Agent框架,通過(guò)調(diào)用工具來(lái)?yè)碛懈嗟目臻g能力。
比如完成機(jī)器人常見(jiàn)的路徑規(guī)劃任務(wù)。
根據(jù)“從臥室床邊到客廳”的指令,模型能夠基于空間理解能力,調(diào)用路徑規(guī)劃工具生成合理路線(xiàn)。
不過(guò)這只是群核空間大模型的階段性探索。群核坦言,相比于文本、圖像,空間大模型仍處于較早期的階段。如果以GPT系列作類(lèi)比,現(xiàn)在相當(dāng)于處在GPT-2階段。
從這里能夠看到,要想讓模型出現(xiàn)涌現(xiàn)能力,數(shù)據(jù)正是其中的核心突破點(diǎn)。
而從過(guò)去種種進(jìn)展能夠看到,室外場(chǎng)景的探索很多,但聚焦在室內(nèi)場(chǎng)景的很少。而正在探索并且探索得比較好的,可能就只有群核一個(gè)。
空間模型仍處于GPT-2階段
這與業(yè)內(nèi)正在面臨的現(xiàn)實(shí)挑戰(zhàn)緊密相關(guān),關(guān)鍵問(wèn)題有三個(gè)。
首先,數(shù)據(jù)稀缺性與獲取成本高企,尤其是室內(nèi)空間數(shù)據(jù)。
不同于語(yǔ)言模型可利用互聯(lián)網(wǎng)公開(kāi)文本,空間智能?chē)?yán)重依賴(lài)真實(shí)世界的3D掃描與傳感器數(shù)據(jù),采集成本極高。室內(nèi)場(chǎng)景的數(shù)據(jù)獲取更受限于隱私合規(guī)、環(huán)境多樣性、動(dòng)態(tài)物體干擾等多重約束,導(dǎo)致規(guī)?;瘮?shù)據(jù)積累困難。
據(jù)量子位智庫(kù)報(bào)告顯示,以室外為主的自動(dòng)駕駛行業(yè)已經(jīng)出現(xiàn)了空間智能的Scaling Law,但室內(nèi)卻遠(yuǎn)遠(yuǎn)未到。
其次,場(chǎng)景復(fù)雜度高,空間語(yǔ)義理解難度大。
室內(nèi)環(huán)境在空間結(jié)構(gòu)、物體分布與功能邏輯上高度復(fù)雜。相比規(guī)則化的道路場(chǎng)景,家居、辦公等室內(nèi)布局異構(gòu)性強(qiáng),物體間空間關(guān)系與功能語(yǔ)義細(xì)膩多元。例如,理解“將杯子放在桌面上”這類(lèi)簡(jiǎn)單指令,不僅需識(shí)別物體,還需推斷桌面的承重特性、杯子的幾何穩(wěn)定性及人物交互上下文,對(duì)模型的深層認(rèn)知提出極高要求。
最后,交互需求復(fù)雜,任務(wù)泛化能力更具挑戰(zhàn)。
室外自動(dòng)駕駛的交互模式相對(duì)封閉,行為可抽象為有限集合(如路徑規(guī)劃、避障等);而室內(nèi)任務(wù)需響應(yīng)開(kāi)放指令,如“把餐桌旁的椅子推進(jìn)去”或“找到臥室最亮的燈并關(guān)閉”,要求模型兼具動(dòng)態(tài)環(huán)境感知、物理常識(shí)推理與多步任務(wù)分解能力。
現(xiàn)有模型多局限于靜態(tài)環(huán)境建模,缺乏對(duì)動(dòng)作后果預(yù)測(cè)、物理規(guī)律嵌入與人類(lèi)意圖的理解,導(dǎo)致復(fù)雜交互泛化能力顯著不足。
從這里看到,數(shù)據(jù)雖是核心瓶頸,但破局不能僅依賴(lài)數(shù)據(jù)規(guī)模。
放眼行業(yè), 群核提出「三位一體」的技術(shù)戰(zhàn)略,也許就能成為行業(yè)突破口。這里的「三位一體」,指的是空間編輯工具、空間合成數(shù)據(jù)和空間大模型,所構(gòu)成的正向循環(huán)閉環(huán)。
工具側(cè),他們打造了全球最大空間設(shè)計(jì)平臺(tái),此外還有COOHOM、棚拍、群核酷空間等來(lái)構(gòu)建和編輯三維世界。設(shè)計(jì)師和用戶(hù)在平臺(tái)上快速創(chuàng)建可交互場(chǎng)景,尤其是裝修設(shè)計(jì)方案,在真實(shí)世界中會(huì)被實(shí)施,從而極大地保證了其物理正確性。
而在數(shù)據(jù)層,通過(guò)空間編輯工具的持續(xù)使用,群核沉淀了全球最大的室內(nèi)空間深度學(xué)習(xí)數(shù)據(jù)集InteriorNet。截至2024年,公司擁有超過(guò)4.41億個(gè)3D模型和超過(guò)5億個(gè)結(jié)構(gòu)化3D空間場(chǎng)景。此外,還開(kāi)源了首次將3D高斯引入AI空間訓(xùn)練的3D高斯語(yǔ)義數(shù)據(jù)集InteriorGS。
工具帶來(lái)了海量數(shù)據(jù)的沉淀,海量數(shù)據(jù)加速了模型的迭代,模型的升級(jí)進(jìn)而提升了工具的體驗(yàn),工具的優(yōu)化進(jìn)一步帶來(lái)更豐富的場(chǎng)景和數(shù)據(jù),這一閉環(huán)使群核科技在空間智能領(lǐng)域具備了獨(dú)特的優(yōu)勢(shì),并致力于成為全球空間智能基礎(chǔ)設(shè)施。
基于這樣的技術(shù)飛輪,很多行業(yè)關(guān)鍵問(wèn)題得到了探索和解決。
比如像前面提到的空間一致性問(wèn)題、機(jī)器人訓(xùn)練問(wèn)題。
值得一提的是,他們專(zhuān)門(mén)為視頻生成構(gòu)建了個(gè)全新的可控工具,這個(gè)工具是基于SpatialGen空間生成能力、自研渲染引擎KooEngine與DIT架構(gòu)視頻生成模型的深度融合。
高質(zhì)量3D可交互的數(shù)據(jù)庫(kù),顯著降低了真實(shí)3D場(chǎng)景的構(gòu)建門(mén)檻;通過(guò)物理級(jí)光線(xiàn)追蹤渲染,生成了與人類(lèi)視覺(jué)認(rèn)知一致的空間表達(dá);并借助DIT模型強(qiáng)大的時(shí)空建模能力,在保持空間一致性的前提下實(shí)現(xiàn)了動(dòng)態(tài)內(nèi)容的豐富生成。
最終只需用戶(hù)簡(jiǎn)單的輸入,工具就能生成符合真實(shí)物理規(guī)律和用戶(hù)需求的視頻。據(jù)群核透露,這個(gè)產(chǎn)品將在年內(nèi)發(fā)布。
空間智能的第三條路徑
當(dāng)前,空間智能領(lǐng)域正處在一個(gè)充滿(mǎn)探索與機(jī)遇的“前爆發(fā)期”。各路玩家依據(jù)自身技術(shù)積累,已經(jīng)可以劃分成三種不同的路徑。
一種是以世界模型/視頻生成玩家為代表,他們主要通過(guò)海量視頻數(shù)據(jù)訓(xùn)練,追求生成高質(zhì)量、長(zhǎng)時(shí)序的視頻內(nèi)容。然而,大多模型本質(zhì)仍然還是2D像素序列的預(yù)測(cè),在三維空間的結(jié)構(gòu)性理解、視角一致性和物理規(guī)則遵循等方面存在先天不足,難以實(shí)現(xiàn)可控的空間交互。
另一類(lèi)則是以具身智能、自動(dòng)駕駛玩家為代表,他們致力于在復(fù)雜真實(shí)的物理世界中實(shí)現(xiàn)感知、決策與行動(dòng)。這條路徑聚焦在高度規(guī)則性的室外場(chǎng)景,難以直接遷移和泛化到布局異構(gòu)、交互意圖多變的室內(nèi)環(huán)境中。
還有一種,就是以群核為代表的原生空間智能路線(xiàn)。這類(lèi)玩家從一開(kāi)始就深耕三維空間,尤其是被行業(yè)相對(duì)忽視的室內(nèi)場(chǎng)景。它們致力于構(gòu)建具有精確幾何、物理屬性和語(yǔ)義關(guān)系的數(shù)字孿生空間。其核心是對(duì)空間本身的理解、生成與交互,而非簡(jiǎn)單視覺(jué)內(nèi)容生成。
盡管方向各異,但整個(gè)領(lǐng)域仍面臨共通的、嚴(yán)峻的挑戰(zhàn)——
室內(nèi)數(shù)據(jù)的稀缺與高成本、場(chǎng)景語(yǔ)義理解的復(fù)雜性、以及開(kāi)放交互任務(wù)的泛化能力不足。
這些就決定了空間智能發(fā)展仍處于比較早期的階段,尚未出現(xiàn)GPT-4那樣的涌現(xiàn)。這也是群核此次選擇將模型開(kāi)源的主要原因:
通過(guò)降低技術(shù)門(mén)檻,吸引大量的研究者、開(kāi)發(fā)者乃至行業(yè)玩家參與其中,共同應(yīng)對(duì)行業(yè)挑戰(zhàn)。
當(dāng)然這也不是群核第一次開(kāi)源。今年3月,SpatialLM 1.0版本開(kāi)源,迅速登上Hugging Face趨勢(shì)榜前三。目前已有初創(chuàng)企業(yè)基于其代碼和架構(gòu)訓(xùn)練出自有模型。
而此次通過(guò)開(kāi)源,群核能夠帶動(dòng)行業(yè)快速構(gòu)建以“空間語(yǔ)言”為核心的標(biāo)準(zhǔn)和生態(tài)。當(dāng)越來(lái)越多的玩家基于群核的開(kāi)源工具和數(shù)據(jù)集進(jìn)行開(kāi)發(fā)時(shí),整個(gè)領(lǐng)域的數(shù)據(jù)沉淀速度、技術(shù)迭代頻率和應(yīng)用場(chǎng)景創(chuàng)新都將得到快速增長(zhǎng)。
其最終目的,自然是加速空間智能演進(jìn),一起做大產(chǎn)業(yè)蛋糕~
這多少也是“杭州六小龍”的共同特點(diǎn),雖然所處的賽道不同,但每一家?guī)缀醵际羌夹g(shù)驅(qū)動(dòng)的平臺(tái)型公司。
宇樹(shù)打造了一個(gè)機(jī)器人本體平臺(tái),DeepSeek打造了基礎(chǔ)大模型平臺(tái)……群核科技則是站在空間智能方向上,正在打造一個(gè)面向空間智能開(kāi)發(fā)和落地的賽道級(jí)平臺(tái)。
(更多效果可以前往公眾號(hào)查看)
Hugging Face:https://huggingface.co/manycore-research/SpatialGen-1.0
Github:https://github.com/manycore-research/SpatialGen
魔搭社區(qū):https://modelscope.cn/models/manycore-research/SpatialGen-1.0
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.