8月25日,在首屆技術(shù)開放日(TechDay)上,群核科技正式發(fā)布了其空間大模型的最新成果:新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen,并宣布將延續(xù)開源戰(zhàn)略,逐步向全球開發(fā)者開放模型。
作為專注于3D室內(nèi)場景認(rèn)知與生成的模型體系,群核空間大模型主要圍繞真實(shí)感全息漫游、結(jié)構(gòu)化可交互及復(fù)雜室內(nèi)場景處理三個(gè)方向構(gòu)建其技術(shù)優(yōu)勢。
本次發(fā)布的SpatialLM 1.5是一款基于大語言模型訓(xùn)練的空間語言模型 。群核科技首席科學(xué)家周子寒在技術(shù)交流中解釋,SpatialLM并非在視覺語言模型(VLM)上增加新模態(tài),而是讓大語言模型學(xué)會(huì)了一種新的“空間語言”。這種語言能以數(shù)字文本的形式,精確描述場景中物體的空間結(jié)構(gòu)、幾何信息、相互關(guān)系及物理參數(shù)。
通過對話系統(tǒng)SpatialLM-Chat,用戶輸入簡單的文本指令,模型即可自動(dòng)生成包含物理正確信息的結(jié)構(gòu)化3D場景腳本,并智能匹配家具進(jìn)行布局。該模型還能通過自然語言進(jìn)行場景問答與編輯,例如,在現(xiàn)場演示中,當(dāng)輸入“去客廳餐桌拿藥”指令后,模型不僅理解了物體對象,還調(diào)用工具自動(dòng)規(guī)劃出行動(dòng)路徑,展示了其在機(jī)器人場景中的應(yīng)用潛力。
群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌在演講中提到,當(dāng)前空間智能發(fā)展的一大瓶頸在于三維可交互數(shù)據(jù)的稀缺,尤其是在物理世界對應(yīng)的室內(nèi)空間數(shù)據(jù)獲取難度極大。SpatialLM 1.5能夠快速、批量地生成大量符合要求且多樣化的場景,可直接用于機(jī)器人路徑規(guī)劃、避障和任務(wù)執(zhí)行等訓(xùn)練,為解決當(dāng)前機(jī)器人訓(xùn)練數(shù)據(jù)不足的難題提供了有效途徑。
與SpatialLM專注于“理解與交互”不同,SpatialGen模型則聚焦于“生成與呈現(xiàn)”。它是一款基于擴(kuò)散模型架構(gòu)的多視角圖像生成模型,可根據(jù)文字、參考圖和3D空間布局,生成具有時(shí)空一致性的多視角圖像。
群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚芍赋?,?dāng)前主流AI視頻生成工具基于2D圖像序列學(xué)習(xí),缺乏對3D空間和物理規(guī)則的真正理解,因此在視角切換或復(fù)雜運(yùn)動(dòng)時(shí),常出現(xiàn)物體位置偏移、背景混亂、模型穿模等空間邏輯錯(cuò)誤。
SpatialGen通過生成空間屬性和物理關(guān)系在不同鏡頭下保持一致的多視角圖像,并能進(jìn)一步生成3D高斯(3DGS)場景,最終渲染出可供用戶自由漫游的視頻 。這一方案旨在從根本上解決當(dāng)前AIGC視頻生成中的時(shí)空一致性難題 。龍?zhí)鞚赏嘎?,公司正在研發(fā)一款深度融合3D能力的AI視頻生成產(chǎn)品,計(jì)劃于年內(nèi)發(fā)布。
黃曉煌在活動(dòng)現(xiàn)場分享了群核科技的空間智能戰(zhàn)略布局,其核心是“空間編輯工具-空間合成數(shù)據(jù)-空間大模型”構(gòu)成的空間智能飛輪 。通過酷家樂等工具的廣泛應(yīng)用,沉淀海量數(shù)據(jù);利用這些數(shù)據(jù)加速模型訓(xùn)練;再以強(qiáng)大的模型能力反哺和提升工具體驗(yàn),從而形成正向循環(huán) 。截至2025年6月30日,群核科技已擁有超過4.41億個(gè)3D模型及超過5億個(gè)結(jié)構(gòu)化3D空間場景。
黃曉煌表示,開源是群核科技戰(zhàn)略的重要組成部分,公司自2018年起便開始逐步開放數(shù)據(jù)和算法能力。他認(rèn)為,當(dāng)前空間大模型尚處初級(jí)階段,希望通過開源與全球開發(fā)者共同將“蛋糕”做大,推動(dòng)技術(shù)快速前進(jìn)。
據(jù)悉,本次發(fā)布的兩款模型將陸續(xù)在Hugging Face、GitHub和魔搭社區(qū)等平臺(tái)開源 。其中,SpatialGen在技術(shù)開放日當(dāng)天已開放下載,而SpatialLM 1.5未來也將以“SpatialLM-Chat”的形式完成開源。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.