成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

視頻生成告別“瞬移變形”,群核科技Hugging Face登頂背后:空間語(yǔ)言改寫AI物理世界規(guī)則

0
分享至


AIGC技術(shù)正從文本、圖像生成向更復(fù)雜的3D空間與視頻領(lǐng)域延伸,但現(xiàn)有模型普遍面臨兩大核心挑戰(zhàn):一是對(duì)物理世界空間結(jié)構(gòu)的理解不足,導(dǎo)致3D場(chǎng)景生成缺乏邏輯性;二是視頻創(chuàng)作中因視角切換引發(fā)的時(shí)空一致性問(wèn)題。

“何時(shí)人工智能從數(shù)字世界走向物理世界呢?我們認(rèn)為空間智能就是這里面非常關(guān)鍵的橋梁?!比汉丝萍悸?lián)合創(chuàng)始人兼董事長(zhǎng)黃曉煌表示。

而對(duì)于空間智能來(lái)說(shuō),它的核心是讓AI真正理解物理世界的“語(yǔ)言”:要讓AI學(xué)會(huì)用“空間語(yǔ)言”描述世界,這是它走進(jìn)物理世界的第一步。

上周,杭州“六小龍”之一的群核科技正式宣布開源新一代空間語(yǔ)言模型SpatialLM 1.5與空間生成模型SpatialGen。這是中國(guó)企業(yè)首次面向全球開發(fā)者開放專注于3D室內(nèi)場(chǎng)景認(rèn)知與生成的大模型體系。

讓AI“讀懂”空間的幾何密碼

此次發(fā)布的兩款模型分別針對(duì)文章開頭所提的兩大痛點(diǎn)——SpatialLM 1.5通過(guò)“空間語(yǔ)言”實(shí)現(xiàn)3D場(chǎng)景的結(jié)構(gòu)化生成與交互,SpatialGen則依托3D高斯技術(shù)保障多視角圖像的空間連貫性。

前者生成的場(chǎng)景富含物理正確的結(jié)構(gòu)化信息,支持用戶通過(guò)對(duì)話交互系統(tǒng)SpatialLM-Chat進(jìn)行可交互場(chǎng)景的端到端生成,能夠有效解決機(jī)器人訓(xùn)練數(shù)據(jù)難題;后者,專注于“生成與呈現(xiàn)”, 可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時(shí)空一致性的多視角圖像。

據(jù)介紹,傳統(tǒng)多模態(tài)模型(如GPT-4V、通義千問(wèn)VLM)通過(guò)將圖像切割為視覺Token與文本對(duì)齊,實(shí)現(xiàn)跨模態(tài)理解,但本質(zhì)仍是對(duì)2D信息的處理。即VLM能描述“這是一張沙發(fā)”,但無(wú)法理解類似“沙發(fā)長(zhǎng)2米、距墻50厘米”之類的空間信息,更不能基于這些數(shù)據(jù)生成可編輯的3D場(chǎng)景。

SpatialLM 1.5的突破在于,它將空間關(guān)系編碼為“語(yǔ)言”,是非多模態(tài)的“語(yǔ)言模型”,它基于通義千問(wèn)3小模型訓(xùn)練,通過(guò)“空間語(yǔ)言”指令實(shí)現(xiàn)3D場(chǎng)景的端到端生成。例如,用戶輸入“生成100平方米兩居室,主臥含帶扶手的老人床”,模型會(huì)輸出包含墻線坐標(biāo)、家具尺寸、物理參數(shù)的結(jié)構(gòu)化腳本,并自動(dòng)匹配資產(chǎn)庫(kù)中的3D模型完成布局。

一個(gè)比較重要的維度就是空間理解。”周子寒解釋。傳統(tǒng)大模型生成的是自然語(yǔ)言描述,而SpatialLM輸出的是可直接用于渲染、仿真的空間代碼。這一能力也使其成為具身智能機(jī)器人訓(xùn)練的關(guān)鍵工具——群核科技現(xiàn)場(chǎng)演示顯示,基于SpatialLM1.5生成的家庭場(chǎng)景,機(jī)器人可自主規(guī)劃“從臥室取藥到客廳”的路徑,并規(guī)避障礙物。

能達(dá)到這樣的效果,與群核平臺(tái)自有的稀缺數(shù)據(jù)有很大關(guān)系。據(jù)介紹,3D數(shù)據(jù)的稀缺性是空間智能發(fā)展的核心瓶頸,互聯(lián)網(wǎng)上有百億級(jí)圖像文本數(shù)據(jù),但高質(zhì)量3D場(chǎng)景不足千萬(wàn)級(jí),且標(biāo)注成本極高。

“我最早是在NVIDIA做Cuda,出來(lái)之后發(fā)現(xiàn)用GPU來(lái)加速物理世界的渲染一件非常有意思的事情??峒覙反罅糠e累的數(shù)據(jù)是可以用來(lái)訓(xùn)練空間理解模型、空間生成模型等,這些模型又可以進(jìn)一步強(qiáng)化具能力,逐漸形成了一個(gè)工具、數(shù)據(jù)、模型三個(gè)環(huán)節(jié)相互循環(huán)的數(shù)據(jù)飛輪?!秉S曉煌介紹。

基于公司早期創(chuàng)辦的酷家樂這一全球最大的空間設(shè)計(jì)平臺(tái),截至2025年6月30日,群核科技擁有包含超過(guò)4.41億個(gè)3D模型及超過(guò)5億個(gè)結(jié)構(gòu)化3D空間場(chǎng)景。

scaling law在AI視頻模型上并不奏效

AI視頻模型即使有scaling law,我們也不認(rèn)為它能真正的理解現(xiàn)在的物理世界。”群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚杀硎尽?/p>

當(dāng)前AI視頻生成工具(如Sora、即夢(mèng))常因視角切換導(dǎo)致物體“瞬移”“變形”,例如,在生成一條讓高達(dá)跳舞的視頻時(shí),其腿部的反向扭曲、模型的穿透、移動(dòng)時(shí)背景的混亂等,都是很典型的AI視頻工具面臨的真正問(wèn)題。

“本質(zhì)是它們基于2D圖像序列訓(xùn)練,不懂3D空間規(guī)則。它學(xué)會(huì)了如何讓上一幀圖像在視覺上變的更像下一幀圖像,不理解所謂的物理世界運(yùn)行的基本邏輯?!饼?zhí)鞚烧f(shuō)。也正因此,scaling law在AI視頻模型上似乎并不奏效。

群核此次開源的SpatialGen通過(guò)多視角擴(kuò)散模型打破了這一局限。它以3D高斯場(chǎng)景為中間載體,輸入單張參考圖和布局圖,即可生成任意視角的圖像,且保證物體形狀、位置在不同幀中一致。現(xiàn)場(chǎng)演示顯示,基于SpatialGen生成的12秒漫游視頻,第1秒與第12秒的窗戶、擺件位置完全吻合。

讓模型“先造世界,再拍視頻”,“如同虛擬攝像機(jī),在3D世界內(nèi)拍攝,所以天然會(huì)具備空間邏輯。”這種方式使視頻生成效率成倍提升,且支持比如“從廚房直接跳轉(zhuǎn)到臥室”的非連續(xù)視角切換。

“我希望它生成某個(gè)視角的一張圖的時(shí)候,只要將這個(gè)視角指定,就會(huì)按照約束去生成。因?yàn)樗且粋€(gè)任意視角的生成模型,所以避免了視頻模型非常依賴時(shí)空一致性的局限,可以去跳躍著生成任何視角的圖片?!敝茏雍a(bǔ)充。

群核科技也正計(jì)劃基于SpatialGen年內(nèi)推出一款A(yù)I視頻創(chuàng)作工具,或許能夠成為全球首款深度融合3D能力的AI視頻生成Agent?!皬V告從業(yè)者真的有可能不需要太過(guò)于昂貴的團(tuán)隊(duì)和前期的資本投入就可以做出接近頂級(jí)水平的廣告。工業(yè)設(shè)計(jì)師可以在幾分鐘內(nèi)快速地為自己的產(chǎn)品完成一個(gè)demo,并且展示詳細(xì)的功能,”龍?zhí)鞚烧f(shuō)。

現(xiàn)場(chǎng),龍?zhí)鞚梢砸豢顕?guó)產(chǎn)香水為原型,生成“日式風(fēng)格下的落日光影”宣傳視頻,其在保持商品主體高保證還原的情況下,在復(fù)雜的運(yùn)境和商品動(dòng)效之下,依然保持了空間的一致性、畫面的合理性,內(nèi)容元素沒有崩壞。

基于視頻效果,這位香水主理人評(píng)價(jià):“離香奈兒、迪奧有非常大的差距,但考慮到生成的時(shí)間成本和金錢成本,在目前是比較重大的突破了,對(duì)于一些廉價(jià)品牌而言,這些視頻已經(jīng)具備足夠marketing的屬性?!?/p>

開源,中國(guó)AI的“生態(tài)突圍”

不過(guò),群核開源兩款空間智能模型,并非僅限于技術(shù)模型層面的突破。

“目前空間智能肯定還是在一個(gè)發(fā)展的初期階段的,我覺得任何一家公司都不可能獨(dú)享這個(gè)市場(chǎng)?!秉S曉煌強(qiáng)調(diào),“所以我們?cè)诓粩嗟亻_源數(shù)據(jù)、模型,希望跟全世界最聰明的大腦,全世界最有創(chuàng)新能力的人一起將這個(gè)‘蛋糕’做大,這是我們戰(zhàn)略很重要的一部分。”

這在某種程度上也意味著,這家中國(guó)企業(yè)在空間智能領(lǐng)域,嘗試從技術(shù)研發(fā)邁向生態(tài)共建。

2018年,群核認(rèn)為海量數(shù)據(jù)是能夠訓(xùn)練出一些過(guò)去所不掌握的認(rèn)知能力,于是決定學(xué)習(xí)李飛飛的ImageNet,開源全球最大空間認(rèn)知數(shù)據(jù)集InteriorNet;今年3月,群核再次開源的SpatialLM 1.0,迅速登上Hugging Face趨勢(shì)榜前三。

目前,其開源策略已引發(fā)海外關(guān)注,上月群核開源全球首個(gè)3D高斯數(shù)據(jù)集InteriorGS,在Hugging Face數(shù)據(jù)集中排到第一?!八淖饔檬鞘裁??過(guò)去自動(dòng)駕駛領(lǐng)域的爭(zhēng)議在于,做空間認(rèn)知要不要激光雷達(dá)還是純視覺就行了?中國(guó)很多車廠是用激光雷達(dá)的,但二者能否統(tǒng)一?這個(gè)數(shù)據(jù)集開源之后,很多機(jī)構(gòu)跑過(guò)來(lái)跟我們討論3D高斯作為統(tǒng)一輸入好像是可行?!秉S曉煌透露。

這種影響力背后是技術(shù)路線的差異化。與李飛飛團(tuán)隊(duì)World Labs的“3D場(chǎng)景生成”不同,群核聚焦“可交互的功能場(chǎng)景”。周子寒評(píng)價(jià),李飛飛團(tuán)隊(duì)公布的Demo在大范圍漫游上表現(xiàn)不錯(cuò),但與其他業(yè)內(nèi)已推出的世界模型一樣,以3D表征為基礎(chǔ)的世界模型,都會(huì)在空間一致性上有所缺失。此外,在生成的物理屬性上,群核生成的場(chǎng)景不僅能看,還能讓機(jī)器人開門、取物,這是工業(yè)級(jí)應(yīng)用的關(guān)鍵。

“第一是真實(shí)感的全息漫游,第二是結(jié)構(gòu)化可交互,第三是復(fù)雜的室內(nèi)場(chǎng)景?!敝茏雍偨Y(jié)空間智能大模型的特點(diǎn)?;诖?,周子寒也認(rèn)為,基于空間智能大模型體系,工業(yè)軟件領(lǐng)域曾經(jīng)面臨的“卡脖子”問(wèn)題,中國(guó)企業(yè)有望探索出一條新路徑。

“傳統(tǒng)工業(yè)軟件的‘卡脖子’源于底層復(fù)雜的幾何算法,但空間大模型提供了新路徑。通過(guò)找一些增量方式,將原來(lái)在傳統(tǒng)軟件不太能涉及的領(lǐng)域,進(jìn)行補(bǔ)齊,就有能力打造一個(gè)之前缺失的幾何內(nèi)核的部分?!敝茏雍硎?,即SpatialLM通過(guò)自然語(yǔ)言生成場(chǎng)景,在后續(xù)的探索中,有可能繞過(guò)傳統(tǒng)CAD的復(fù)雜操作邏輯,“我們不做達(dá)索、Autodesk的替代品,而是創(chuàng)造‘AI原生’的設(shè)計(jì)工具——這就是彎道超車?!保?strong>本文首發(fā)鈦媒體APP 作者 |秦聰慧)?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
誰(shuí)說(shuō)我是水貨?科爾克茲社媒曬怒吼照:我們是利物浦!再添三分

誰(shuí)說(shuō)我是水貨?科爾克茲社媒曬怒吼照:我們是利物浦!再添三分

直播吧
2025-09-01 04:19:17
2025-09-01 21:00:49
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
123160文章數(shù) 861006關(guān)注度
往期回顧 全部

科技要聞

成都車展眾生相:20個(gè)主播圍著拍華為

頭條要聞

白宮官員:歐洲在暗中破壞和談 勸烏"再等等更好條件"

頭條要聞

白宮官員:歐洲在暗中破壞和談 勸烏"再等等更好條件"

體育要聞

一支穿云箭,紅軍雙喜臨門

娛樂要聞

蘇有朋,禍從口出?

財(cái)經(jīng)要聞

行情剛好點(diǎn),創(chuàng)始人立馬漲估值

汽車要聞

激光雷達(dá)上車/配云輦-C 26款海豹07 DM-i全是硬貨

態(tài)度原創(chuàng)

時(shí)尚
本地
房產(chǎn)
手機(jī)
健康

8款懶人必囤的速食!好吃省事!

本地新聞

換個(gè)城市過(guò)夏天 | 夏末狂歡,浪在阜新黃家溝!

房產(chǎn)要聞

海珠宅地上新!廣州大道南788號(hào)二期8.6億起拍!

手機(jī)要聞

8200mAh藍(lán)廠史上最大!vivo Y500發(fā)布:1399元起

精神科專家解答學(xué)習(xí)困難七大問(wèn)題

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版