網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

3D-R1：讓AI理解3D世界的下一步

2025-08-04 17:43:50　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在人工智能快速發(fā)展的今天，我們已逐漸習(xí)慣于讓 AI 識(shí)別圖像、理解語(yǔ)言，甚至與之對(duì)話。但當(dāng)我們進(jìn)入真實(shí)三維世界，如何讓 AI 具備「看懂場(chǎng)景」、「理解空間」和「推理復(fù)雜任務(wù)」的能力？這正是 3D 視覺(jué)語(yǔ)言模型（3D VLM）所要解決的問(wèn)題。

本文介紹的一項(xiàng)新研究 ——3D-R1，提出了一種更通用、更具推理能力的三維視覺(jué)語(yǔ)言模型，它在多個(gè) 3D 任務(wù)中表現(xiàn)出了顯著的性能提升，有望成為 3D 人工智能通用系統(tǒng)的新范式。

論文標(biāo)題：3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
論文鏈接：https://arxiv.org/pdf/2507.23478

背景：3D 場(chǎng)景理解為何重要？

讓 AI 理解一個(gè)真實(shí)的三維環(huán)境，遠(yuǎn)比識(shí)別一張圖片復(fù)雜得多。無(wú)論是服務(wù)機(jī)器人、自動(dòng)駕駛，還是 AR/VR 應(yīng)用，都離不開(kāi) AI 對(duì)空間結(jié)構(gòu)、物體布局和多步任務(wù)的精準(zhǔn)理解。但當(dāng)前大多數(shù) 3D VLM 依然存在兩大核心問(wèn)題：

空間理解不足：許多模型依賴固定視角或簡(jiǎn)單全景拼接，導(dǎo)致遮擋物或關(guān)鍵結(jié)構(gòu)難以準(zhǔn)確識(shí)別；
推理能力薄弱：缺乏高質(zhì)量的三維推理數(shù)據(jù)與獎(jiǎng)勵(lì)信號(hào)，模型難以進(jìn)行深入的多步邏輯思考。

3D-R1：增強(qiáng)推理能力的 3D 通用模型

為解決上述挑戰(zhàn)，研究團(tuán)隊(duì)提出了 3D-R1。它不僅聚焦于對(duì) 3D 場(chǎng)景的精準(zhǔn)感知，還專門設(shè)計(jì)了增強(qiáng)「推理能力」的訓(xùn)練機(jī)制，使模型能像人一樣「思考」和「判斷」。

我們從三個(gè)關(guān)鍵方面對(duì)現(xiàn)有方法進(jìn)行了創(chuàng)新：

（1）構(gòu)建高質(zhì)量推理數(shù)據(jù)集：Scene-30K

大多數(shù) 3D 數(shù)據(jù)集中，只包含簡(jiǎn)單的描述或問(wèn)答，而缺乏真正多步邏輯的訓(xùn)練樣本。為此，我們基于多個(gè) 3D 數(shù)據(jù)集（如 ScanQA、SceneVerse 等）合成了一個(gè)具有邏輯鏈條的高質(zhì)量數(shù)據(jù)集 ——Scene-30K

這個(gè)數(shù)據(jù)集的構(gòu)造流程如下：

1.場(chǎng)景描述生成：利用預(yù)訓(xùn)練 3D 模型對(duì)點(diǎn)云生成簡(jiǎn)潔的場(chǎng)景描述；

2.推理鏈生成：將場(chǎng)景描述輸入 Gemini 2.5 Pro 等大語(yǔ)言模型生成結(jié)構(gòu)化的推理過(guò)程（Chain-of-Thought）；

3.規(guī)則過(guò)濾：對(duì)輸出進(jìn)行格式、邏輯一致性、答案正確性等過(guò)濾，確保質(zhì)量。

最終，我們獲得了3 萬(wàn)條結(jié)構(gòu)規(guī)范、邏輯清晰的訓(xùn)練樣本，為模型提供「冷啟動(dòng)」訓(xùn)練支持。

（2）結(jié)合強(qiáng)化學(xué)習(xí)：讓模型學(xué)會(huì)「思考」

在冷啟動(dòng)訓(xùn)練之后，我們引入了基于 GRPO（Group Relative Policy Optimization）的強(qiáng)化學(xué)習(xí)機(jī)制，讓模型在生成回答的過(guò)程中不斷自我優(yōu)化。

我們?cè)O(shè)計(jì)了三種獎(jiǎng)勵(lì)信號(hào)：

格式獎(jiǎng)勵(lì)：確保輸出結(jié)構(gòu)規(guī)范，例如必須包含 < think > 推理和 < answer > 答案格式；
感知獎(jiǎng)勵(lì)：通過(guò)預(yù)測(cè)框與真實(shí)框的 IoU 計(jì)算定位準(zhǔn)確性；
語(yǔ)義獎(jiǎng)勵(lì)：使用 CLIP 編碼器計(jì)算預(yù)測(cè)答案與真實(shí)答案的語(yǔ)義相似度。

這種方式使得模型不僅回答正確，而且過(guò)程清晰、結(jié)構(gòu)合規(guī)、語(yǔ)義貼合，具備更強(qiáng)的泛化推理能力。

（3）動(dòng)態(tài)視角選擇：看到更關(guān)鍵的信息

在三維場(chǎng)景中，不同視角包含的信息差異巨大。如果模型只能從固定角度看世界，往往會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。為此，我們提出了一種動(dòng)態(tài)視角選擇策略，幫助模型自動(dòng)選擇 6 張最具代表性的視圖。

這一策略結(jié)合三種評(píng)分指標(biāo)：

文本相關(guān)性（Text-to-3D）：視角是否與問(wèn)題文本高度相關(guān)；
空間覆蓋度（Image-to-3D）：該視角是否補(bǔ)充其他視角遺漏的信息；
多模態(tài)對(duì)齊（CLIP 相似度）：該視角與語(yǔ)言描述是否匹配。

最終，我們通過(guò)可學(xué)習(xí)的權(quán)重融合機(jī)制自動(dòng)優(yōu)化這些指標(biāo)組合，選擇對(duì)任務(wù)最關(guān)鍵的觀察視角。

多任務(wù)基準(zhǔn)測(cè)試：全面領(lǐng)先

3D-R1 在 7 個(gè) 3D 任務(wù)上進(jìn)行了全面評(píng)估，包括：3D 問(wèn)答（3D-QA）、密集描述（3D Dense Captioning）、物體描述（3D Object Captioning）、多輪對(duì)話（3D Dialogue）、場(chǎng)景推理（3D Reasoning）、動(dòng)作規(guī)劃（3D Planning）、視覺(jué)定位（3D Visual Grounding）。

https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg

在 3D 場(chǎng)景密集描述任務(wù)中，3D-R1 在 ScanRefer 和 Nr3D 兩個(gè)數(shù)據(jù)集上均超越了之前的專業(yè)模型。

在最具挑戰(zhàn)性的 3D 問(wèn)答任務(wù)上，3D-R1 在 ScanQA 基準(zhǔn)的驗(yàn)證集和兩個(gè)測(cè)試集上都取得了最優(yōu)成績(jī)。

在更復(fù)雜的 3D 對(duì)話、規(guī)劃和空間推理任務(wù)上，3D-R1 同樣展現(xiàn)了其強(qiáng)大的綜合能力。

這些結(jié)果證明了：無(wú)論是感知還是推理，3D-R1 都展現(xiàn)了更強(qiáng)的泛化能力和任務(wù)表現(xiàn)。

應(yīng)用前景廣闊

3D-R1 不僅在學(xué)術(shù)指標(biāo)上領(lǐng)先，更具備實(shí)際應(yīng)用價(jià)值。未來(lái)，它可以應(yīng)用于：

家用機(jī)器人中：理解屋內(nèi)物體位置并作出決策；
元宇宙 / VR：根據(jù)場(chǎng)景進(jìn)行對(duì)話式引導(dǎo)和互動(dòng)；
自動(dòng)駕駛：理解復(fù)雜街景并實(shí)時(shí)應(yīng)答；
工業(yè)檢查：根據(jù)場(chǎng)景自動(dòng)識(shí)別潛在風(fēng)險(xiǎn)區(qū)域。

3D-R1 不僅是一項(xiàng)模型技術(shù)創(chuàng)新，更是我們走向更強(qiáng)三維智能體的關(guān)鍵一步。未來(lái)，我們計(jì)劃將其拓展至機(jī)器人控制、交互式問(wèn)答、甚至自動(dòng)家居整理等現(xiàn)實(shí)應(yīng)用場(chǎng)景中。

本文作者介紹：

黃庭是上海工程技術(shù)大學(xué)電子電氣工程學(xué)院在讀碩士，研究方向聚焦于三維視覺(jué)語(yǔ)言模型、空間場(chǎng)景理解與多模態(tài)推理。曾參與多項(xiàng)科研項(xiàng)目，致力于構(gòu)建具備認(rèn)知與推理能力的通用 3D-AI 系統(tǒng)。

張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導(dǎo)的本科研究員。他的研究興趣扎根于計(jì)算機(jī)視覺(jué)領(lǐng)域，專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個(gè)研究領(lǐng)域擁有豐富的經(jīng)驗(yàn)，積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進(jìn)展。

唐浩現(xiàn)任北京大學(xué)計(jì)算機(jī)學(xué)院助理教授 / 研究員、博士生導(dǎo)師、博雅和未名青年學(xué)者，入選國(guó)家級(jí)海外高水平人才計(jì)劃。曾獲國(guó)家優(yōu)秀自費(fèi)留學(xué)生獎(jiǎng)學(xué)金，連續(xù)兩年入選斯坦福大學(xué)全球前 2% 頂尖科學(xué)家榜單。他曾在美國(guó)卡耐基梅隆大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、英國(guó)牛津大學(xué)和意大利特倫托大學(xué)工作和學(xué)習(xí)。長(zhǎng)期致力于人工智能領(lǐng)域的研究，在國(guó)際頂級(jí)期刊與會(huì)議發(fā)表論文 100 余篇，相關(guān)成果被引用超過(guò) 10000 次。曾獲 ACM Multimedia 最佳論文提名獎(jiǎng)，現(xiàn)任 ACL 2025、EMNLP 2025、ACM MM 2025 領(lǐng)域主席及多個(gè)人工智能會(huì)議和期刊審稿人。更多信息參見(jiàn)個(gè)人主頁(yè)： https://ha0tang.github.io/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.