成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

3D-R1:讓AI理解3D世界的下一步

0
分享至



在人工智能快速發(fā)展的今天,我們已逐漸習(xí)慣于讓 AI 識(shí)別圖像、理解語(yǔ)言,甚至與之對(duì)話。但當(dāng)我們進(jìn)入真實(shí)三維世界,如何讓 AI 具備「看懂場(chǎng)景」、「理解空間」和「推理復(fù)雜任務(wù)」的能力?這正是 3D 視覺(jué)語(yǔ)言模型(3D VLM)所要解決的問(wèn)題。



本文介紹的一項(xiàng)新研究 ——3D-R1,提出了一種更通用、更具推理能力的三維視覺(jué)語(yǔ)言模型,它在多個(gè) 3D 任務(wù)中表現(xiàn)出了顯著的性能提升,有望成為 3D 人工智能通用系統(tǒng)的新范式。



  • 論文標(biāo)題:3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
  • 論文鏈接:https://arxiv.org/pdf/2507.23478

背景:3D 場(chǎng)景理解為何重要?

讓 AI 理解一個(gè)真實(shí)的三維環(huán)境,遠(yuǎn)比識(shí)別一張圖片復(fù)雜得多。無(wú)論是服務(wù)機(jī)器人、自動(dòng)駕駛,還是 AR/VR 應(yīng)用,都離不開(kāi) AI 對(duì)空間結(jié)構(gòu)、物體布局和多步任務(wù)的精準(zhǔn)理解。但當(dāng)前大多數(shù) 3D VLM 依然存在兩大核心問(wèn)題:

  • 空間理解不足:許多模型依賴固定視角或簡(jiǎn)單全景拼接,導(dǎo)致遮擋物或關(guān)鍵結(jié)構(gòu)難以準(zhǔn)確識(shí)別;
  • 推理能力薄弱:缺乏高質(zhì)量的三維推理數(shù)據(jù)與獎(jiǎng)勵(lì)信號(hào),模型難以進(jìn)行深入的多步邏輯思考。

3D-R1:增強(qiáng)推理能力的 3D 通用模型

為解決上述挑戰(zhàn),研究團(tuán)隊(duì)提出了 3D-R1。它不僅聚焦于對(duì) 3D 場(chǎng)景的精準(zhǔn)感知,還專門設(shè)計(jì)了增強(qiáng)「推理能力」的訓(xùn)練機(jī)制,使模型能像人一樣「思考」和「判斷」。



我們從三個(gè)關(guān)鍵方面對(duì)現(xiàn)有方法進(jìn)行了創(chuàng)新:

(1)構(gòu)建高質(zhì)量推理數(shù)據(jù)集:Scene-30K

大多數(shù) 3D 數(shù)據(jù)集中,只包含簡(jiǎn)單的描述或問(wèn)答,而缺乏真正多步邏輯的訓(xùn)練樣本。為此,我們基于多個(gè) 3D 數(shù)據(jù)集(如 ScanQA、SceneVerse 等)合成了一個(gè)具有邏輯鏈條的高質(zhì)量數(shù)據(jù)集 ——Scene-30K



這個(gè)數(shù)據(jù)集的構(gòu)造流程如下:

1.場(chǎng)景描述生成:利用預(yù)訓(xùn)練 3D 模型對(duì)點(diǎn)云生成簡(jiǎn)潔的場(chǎng)景描述;

2.推理鏈生成:將場(chǎng)景描述輸入 Gemini 2.5 Pro 等大語(yǔ)言模型生成結(jié)構(gòu)化的推理過(guò)程(Chain-of-Thought);

3.規(guī)則過(guò)濾:對(duì)輸出進(jìn)行格式、邏輯一致性、答案正確性等過(guò)濾,確保質(zhì)量。

最終,我們獲得了3 萬(wàn)條結(jié)構(gòu)規(guī)范、邏輯清晰的訓(xùn)練樣本,為模型提供「冷啟動(dòng)」訓(xùn)練支持。

(2)結(jié)合強(qiáng)化學(xué)習(xí):讓模型學(xué)會(huì)「思考」

在冷啟動(dòng)訓(xùn)練之后,我們引入了基于 GRPO(Group Relative Policy Optimization)的強(qiáng)化學(xué)習(xí)機(jī)制,讓模型在生成回答的過(guò)程中不斷自我優(yōu)化。



我們?cè)O(shè)計(jì)了三種獎(jiǎng)勵(lì)信號(hào):

  • 格式獎(jiǎng)勵(lì):確保輸出結(jié)構(gòu)規(guī)范,例如必須包含 < think > 推理和 < answer > 答案格式;
  • 感知獎(jiǎng)勵(lì):通過(guò)預(yù)測(cè)框與真實(shí)框的 IoU 計(jì)算定位準(zhǔn)確性;
  • 語(yǔ)義獎(jiǎng)勵(lì):使用 CLIP 編碼器計(jì)算預(yù)測(cè)答案與真實(shí)答案的語(yǔ)義相似度。

這種方式使得模型不僅回答正確,而且過(guò)程清晰、結(jié)構(gòu)合規(guī)、語(yǔ)義貼合,具備更強(qiáng)的泛化推理能力。

(3) 動(dòng)態(tài)視角選擇:看到更關(guān)鍵的信息

在三維場(chǎng)景中,不同視角包含的信息差異巨大。如果模型只能從固定角度看世界,往往會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。為此,我們提出了一種動(dòng)態(tài)視角選擇策略,幫助模型自動(dòng)選擇 6 張最具代表性的視圖。

這一策略結(jié)合三種評(píng)分指標(biāo):

  • 文本相關(guān)性(Text-to-3D):視角是否與問(wèn)題文本高度相關(guān);
  • 空間覆蓋度(Image-to-3D):該視角是否補(bǔ)充其他視角遺漏的信息;
  • 多模態(tài)對(duì)齊(CLIP 相似度):該視角與語(yǔ)言描述是否匹配。

最終,我們通過(guò)可學(xué)習(xí)的權(quán)重融合機(jī)制自動(dòng)優(yōu)化這些指標(biāo)組合,選擇對(duì)任務(wù)最關(guān)鍵的觀察視角。

多任務(wù)基準(zhǔn)測(cè)試:全面領(lǐng)先

3D-R1 在 7 個(gè) 3D 任務(wù)上進(jìn)行了全面評(píng)估,包括:3D 問(wèn)答(3D-QA)、密集描述(3D Dense Captioning)、物體描述(3D Object Captioning)、多輪對(duì)話(3D Dialogue)、場(chǎng)景推理(3D Reasoning)、動(dòng)作規(guī)劃(3D Planning)、視覺(jué)定位(3D Visual Grounding)。


https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg


https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg


https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg

在 3D 場(chǎng)景密集描述任務(wù)中,3D-R1 在 ScanRefer 和 Nr3D 兩個(gè)數(shù)據(jù)集上均超越了之前的專業(yè)模型。



在最具挑戰(zhàn)性的 3D 問(wèn)答任務(wù)上,3D-R1 在 ScanQA 基準(zhǔn)的驗(yàn)證集和兩個(gè)測(cè)試集上都取得了最優(yōu)成績(jī)。



在更復(fù)雜的 3D 對(duì)話、規(guī)劃和空間推理任務(wù)上,3D-R1 同樣展現(xiàn)了其強(qiáng)大的綜合能力。



這些結(jié)果證明了:無(wú)論是感知還是推理,3D-R1 都展現(xiàn)了更強(qiáng)的泛化能力和任務(wù)表現(xiàn)。

應(yīng)用前景廣闊

3D-R1 不僅在學(xué)術(shù)指標(biāo)上領(lǐng)先,更具備實(shí)際應(yīng)用價(jià)值。未來(lái),它可以應(yīng)用于:

  • 家用機(jī)器人中:理解屋內(nèi)物體位置并作出決策;
  • 元宇宙 / VR:根據(jù)場(chǎng)景進(jìn)行對(duì)話式引導(dǎo)和互動(dòng);
  • 自動(dòng)駕駛:理解復(fù)雜街景并實(shí)時(shí)應(yīng)答;
  • 工業(yè)檢查:根據(jù)場(chǎng)景自動(dòng)識(shí)別潛在風(fēng)險(xiǎn)區(qū)域。

3D-R1 不僅是一項(xiàng)模型技術(shù)創(chuàng)新,更是我們走向更強(qiáng)三維智能體的關(guān)鍵一步。未來(lái),我們計(jì)劃將其拓展至機(jī)器人控制、交互式問(wèn)答、甚至自動(dòng)家居整理等現(xiàn)實(shí)應(yīng)用場(chǎng)景中。

本文作者介紹:

黃庭是上海工程技術(shù)大學(xué)電子電氣工程學(xué)院在讀碩士,研究方向聚焦于三維視覺(jué)語(yǔ)言模型、空間場(chǎng)景理解與多模態(tài)推理。曾參與多項(xiàng)科研項(xiàng)目,致力于構(gòu)建具備認(rèn)知與推理能力的通用 3D-AI 系統(tǒng)。

張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導(dǎo)的本科研究員。他的研究興趣扎根于計(jì)算機(jī)視覺(jué)領(lǐng)域,專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個(gè)研究領(lǐng)域擁有豐富的經(jīng)驗(yàn),積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進(jìn)展。

唐浩現(xiàn)任北京大學(xué)計(jì)算機(jī)學(xué)院助理教授 / 研究員、博士生導(dǎo)師、博雅和未名青年學(xué)者,入選國(guó)家級(jí)海外高水平人才計(jì)劃。曾獲國(guó)家優(yōu)秀自費(fèi)留學(xué)生獎(jiǎng)學(xué)金,連續(xù)兩年入選斯坦福大學(xué)全球前 2% 頂尖科學(xué)家榜單。他曾在美國(guó)卡耐基梅隆大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、英國(guó)牛津大學(xué)和意大利特倫托大學(xué)工作和學(xué)習(xí)。長(zhǎng)期致力于人工智能領(lǐng)域的研究,在國(guó)際頂級(jí)期刊與會(huì)議發(fā)表論文 100 余篇,相關(guān)成果被引用超過(guò) 10000 次。曾獲 ACM Multimedia 最佳論文提名獎(jiǎng),現(xiàn)任 ACL 2025、EMNLP 2025、ACM MM 2025 領(lǐng)域主席及多個(gè)人工智能會(huì)議和期刊審稿人。更多信息參見(jiàn)個(gè)人主頁(yè): https://ha0tang.github.io/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
二胎后李小萌火了!“大號(hào)水蜜桃” 身材驚艷出圈,王雷眼光真絕!

二胎后李小萌火了!“大號(hào)水蜜桃” 身材驚艷出圈,王雷眼光真絕!

東方不敗然多多
2025-08-29 13:54:55
深扒之下,終于知道,于謙的錢到底是從哪里來(lái)的了

深扒之下,終于知道,于謙的錢到底是從哪里來(lái)的了

東方不敗然多多
2025-08-13 20:55:26
劉強(qiáng)東活得太通透!蹲路邊吃烤串,用碗喝酒,來(lái)者不拒,毫無(wú)架子

劉強(qiáng)東活得太通透!蹲路邊吃烤串,用碗喝酒,來(lái)者不拒,毫無(wú)架子

泠泠說(shuō)史
2025-08-30 17:49:54
太牛了!2元一塊的“硫磺皂”這么用,用出了上千元的效果

太牛了!2元一塊的“硫磺皂”這么用,用出了上千元的效果

Home范
2025-08-25 20:50:03
男子怒斥妻子啥家務(wù)都不干,00后妻子依然擺爛:你不就圖我漂亮嗎

男子怒斥妻子啥家務(wù)都不干,00后妻子依然擺爛:你不就圖我漂亮嗎

唐小糖說(shuō)情感
2025-08-27 10:27:54
一張AI假照片,差點(diǎn)騙走5萬(wàn)塊。

一張AI假照片,差點(diǎn)騙走5萬(wàn)塊。

差評(píng)XPIN
2025-08-30 00:12:47
外媒曾宣稱:B21能自由進(jìn)出中國(guó)隨意展開(kāi)轟炸,而且中國(guó)攔不??!

外媒曾宣稱:B21能自由進(jìn)出中國(guó)隨意展開(kāi)轟炸,而且中國(guó)攔不??!

boss外傳
2025-08-29 16:55:03
俄導(dǎo)彈命中歐盟駐烏辦事處,烏總統(tǒng)找中國(guó)要說(shuō)法,中方重磅回應(yīng)

俄導(dǎo)彈命中歐盟駐烏辦事處,烏總統(tǒng)找中國(guó)要說(shuō)法,中方重磅回應(yīng)

史智文道
2025-08-30 19:38:32
擬退學(xué)!211大學(xué)發(fā)公告!

擬退學(xué)!211大學(xué)發(fā)公告!

雙一流高校
2025-08-30 00:13:18
廣東男籃三消息:崔永熙報(bào)到時(shí)間確定,王少杰沒(méi)走,徐昕還回來(lái)!

廣東男籃三消息:崔永熙報(bào)到時(shí)間確定,王少杰沒(méi)走,徐昕還回來(lái)!

硯底沉香
2025-08-30 19:40:07
90年代,朝鮮1個(gè)軍團(tuán)共5萬(wàn)人叛變,韓國(guó)主動(dòng)派兵接應(yīng),結(jié)局怎樣?

90年代,朝鮮1個(gè)軍團(tuán)共5萬(wàn)人叛變,韓國(guó)主動(dòng)派兵接應(yīng),結(jié)局怎樣?

南書(shū)房
2025-08-23 20:35:04
澤連斯基:俄軍集結(jié)10萬(wàn)人,正在準(zhǔn)備進(jìn)攻行動(dòng)

澤連斯基:俄軍集結(jié)10萬(wàn)人,正在準(zhǔn)備進(jìn)攻行動(dòng)

新京報(bào)
2025-08-29 22:34:02
上海多區(qū)擬斥資約1.4億元采購(gòu)學(xué)生運(yùn)動(dòng)手環(huán),背后有何考量?

上海多區(qū)擬斥資約1.4億元采購(gòu)學(xué)生運(yùn)動(dòng)手環(huán),背后有何考量?

上游新聞
2025-08-29 16:05:42
他是犧牲在對(duì)越自衛(wèi)反擊戰(zhàn)中最高將領(lǐng)

他是犧牲在對(duì)越自衛(wèi)反擊戰(zhàn)中最高將領(lǐng)

曉史
2025-08-29 15:00:19
中國(guó)多艘艦船抵仁愛(ài)礁,拖船也就位了,決定性轉(zhuǎn)折點(diǎn)要來(lái)了

中國(guó)多艘艦船抵仁愛(ài)礁,拖船也就位了,決定性轉(zhuǎn)折點(diǎn)要來(lái)了

劉振起觀點(diǎn)
2025-08-30 18:55:09
940球!40歲C羅連續(xù)24年破門=歷史第一人,78場(chǎng)狂造91球

940球!40歲C羅連續(xù)24年破門=歷史第一人,78場(chǎng)狂造91球

念洲
2025-08-30 06:46:30
比亞迪集中火力

比亞迪集中火力

電動(dòng)汽車觀察家
2025-08-30 14:43:37
臺(tái)風(fēng)馬上到!暴雨大暴雨!深圳天氣接下來(lái)……

臺(tái)風(fēng)馬上到!暴雨大暴雨!深圳天氣接下來(lái)……

深圳晚報(bào)
2025-08-30 00:03:38
羅馬諾:貝蒂斯突然看到和安東尼達(dá)成協(xié)議的新聞,他們很憤怒

羅馬諾:貝蒂斯突然看到和安東尼達(dá)成協(xié)議的新聞,他們很憤怒

懂球帝
2025-08-30 13:35:58
罵爆!美國(guó)大叔發(fā)飆抵制中國(guó)貨:廉價(jià)垃圾遠(yuǎn)離我!小包免稅終結(jié)

罵爆!美國(guó)大叔發(fā)飆抵制中國(guó)貨:廉價(jià)垃圾遠(yuǎn)離我!小包免稅終結(jié)

每日一見(jiàn)
2025-08-30 08:32:11
2025-08-30 20:59:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11187文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

李斌內(nèi)部講話:蔚來(lái)四季度必須盈利

頭條要聞

沙利文麻了:4年白干 當(dāng)初拉的盟友現(xiàn)在罵美國(guó)是"馬桶"

頭條要聞

沙利文麻了:4年白干 當(dāng)初拉的盟友現(xiàn)在罵美國(guó)是"馬桶"

體育要聞

淘汰曼聯(lián)的英乙隊(duì),仍然沒(méi)有忘記張恩華

娛樂(lè)要聞

吳京風(fēng)波拉出多位明星

財(cái)經(jīng)要聞

美上訴法院裁定特朗普關(guān)稅非法!

汽車要聞

輔助駕駛新賽道 理想VLA司機(jī)大模型即將全量推送

態(tài)度原創(chuàng)

教育
藝術(shù)
親子
家居
公開(kāi)課

教育要聞

2025上海海事大學(xué) 生源前5都來(lái)自哪些高中?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

爸爸的食堂營(yíng)業(yè)了,看看都給孩子們做了什么好吃的

家居要聞

提升功能 靈活居住環(huán)境

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版