在人工智能快速發(fā)展的今天,我們已逐漸習(xí)慣于讓 AI 識(shí)別圖像、理解語(yǔ)言,甚至與之對(duì)話。但當(dāng)我們進(jìn)入真實(shí)三維世界,如何讓 AI 具備「看懂場(chǎng)景」、「理解空間」和「推理復(fù)雜任務(wù)」的能力?這正是 3D 視覺(jué)語(yǔ)言模型(3D VLM)所要解決的問(wèn)題。
本文介紹的一項(xiàng)新研究 ——3D-R1,提出了一種更通用、更具推理能力的三維視覺(jué)語(yǔ)言模型,它在多個(gè) 3D 任務(wù)中表現(xiàn)出了顯著的性能提升,有望成為 3D 人工智能通用系統(tǒng)的新范式。
- 論文標(biāo)題:3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
- 論文鏈接:https://arxiv.org/pdf/2507.23478
背景:3D 場(chǎng)景理解為何重要?
讓 AI 理解一個(gè)真實(shí)的三維環(huán)境,遠(yuǎn)比識(shí)別一張圖片復(fù)雜得多。無(wú)論是服務(wù)機(jī)器人、自動(dòng)駕駛,還是 AR/VR 應(yīng)用,都離不開(kāi) AI 對(duì)空間結(jié)構(gòu)、物體布局和多步任務(wù)的精準(zhǔn)理解。但當(dāng)前大多數(shù) 3D VLM 依然存在兩大核心問(wèn)題:
- 空間理解不足:許多模型依賴固定視角或簡(jiǎn)單全景拼接,導(dǎo)致遮擋物或關(guān)鍵結(jié)構(gòu)難以準(zhǔn)確識(shí)別;
- 推理能力薄弱:缺乏高質(zhì)量的三維推理數(shù)據(jù)與獎(jiǎng)勵(lì)信號(hào),模型難以進(jìn)行深入的多步邏輯思考。
3D-R1:增強(qiáng)推理能力的 3D 通用模型
為解決上述挑戰(zhàn),研究團(tuán)隊(duì)提出了 3D-R1。它不僅聚焦于對(duì) 3D 場(chǎng)景的精準(zhǔn)感知,還專門設(shè)計(jì)了增強(qiáng)「推理能力」的訓(xùn)練機(jī)制,使模型能像人一樣「思考」和「判斷」。
我們從三個(gè)關(guān)鍵方面對(duì)現(xiàn)有方法進(jìn)行了創(chuàng)新:
(1)構(gòu)建高質(zhì)量推理數(shù)據(jù)集:Scene-30K
大多數(shù) 3D 數(shù)據(jù)集中,只包含簡(jiǎn)單的描述或問(wèn)答,而缺乏真正多步邏輯的訓(xùn)練樣本。為此,我們基于多個(gè) 3D 數(shù)據(jù)集(如 ScanQA、SceneVerse 等)合成了一個(gè)具有邏輯鏈條的高質(zhì)量數(shù)據(jù)集 ——Scene-30K
這個(gè)數(shù)據(jù)集的構(gòu)造流程如下:
1.場(chǎng)景描述生成:利用預(yù)訓(xùn)練 3D 模型對(duì)點(diǎn)云生成簡(jiǎn)潔的場(chǎng)景描述;
2.推理鏈生成:將場(chǎng)景描述輸入 Gemini 2.5 Pro 等大語(yǔ)言模型生成結(jié)構(gòu)化的推理過(guò)程(Chain-of-Thought);
3.規(guī)則過(guò)濾:對(duì)輸出進(jìn)行格式、邏輯一致性、答案正確性等過(guò)濾,確保質(zhì)量。
最終,我們獲得了3 萬(wàn)條結(jié)構(gòu)規(guī)范、邏輯清晰的訓(xùn)練樣本,為模型提供「冷啟動(dòng)」訓(xùn)練支持。
(2)結(jié)合強(qiáng)化學(xué)習(xí):讓模型學(xué)會(huì)「思考」
在冷啟動(dòng)訓(xùn)練之后,我們引入了基于 GRPO(Group Relative Policy Optimization)的強(qiáng)化學(xué)習(xí)機(jī)制,讓模型在生成回答的過(guò)程中不斷自我優(yōu)化。
我們?cè)O(shè)計(jì)了三種獎(jiǎng)勵(lì)信號(hào):
- 格式獎(jiǎng)勵(lì):確保輸出結(jié)構(gòu)規(guī)范,例如必須包含 < think > 推理和 < answer > 答案格式;
- 感知獎(jiǎng)勵(lì):通過(guò)預(yù)測(cè)框與真實(shí)框的 IoU 計(jì)算定位準(zhǔn)確性;
- 語(yǔ)義獎(jiǎng)勵(lì):使用 CLIP 編碼器計(jì)算預(yù)測(cè)答案與真實(shí)答案的語(yǔ)義相似度。
這種方式使得模型不僅回答正確,而且過(guò)程清晰、結(jié)構(gòu)合規(guī)、語(yǔ)義貼合,具備更強(qiáng)的泛化推理能力。
(3) 動(dòng)態(tài)視角選擇:看到更關(guān)鍵的信息
在三維場(chǎng)景中,不同視角包含的信息差異巨大。如果模型只能從固定角度看世界,往往會(huì)錯(cuò)過(guò)關(guān)鍵細(xì)節(jié)。為此,我們提出了一種動(dòng)態(tài)視角選擇策略,幫助模型自動(dòng)選擇 6 張最具代表性的視圖。
這一策略結(jié)合三種評(píng)分指標(biāo):
- 文本相關(guān)性(Text-to-3D):視角是否與問(wèn)題文本高度相關(guān);
- 空間覆蓋度(Image-to-3D):該視角是否補(bǔ)充其他視角遺漏的信息;
- 多模態(tài)對(duì)齊(CLIP 相似度):該視角與語(yǔ)言描述是否匹配。
最終,我們通過(guò)可學(xué)習(xí)的權(quán)重融合機(jī)制自動(dòng)優(yōu)化這些指標(biāo)組合,選擇對(duì)任務(wù)最關(guān)鍵的觀察視角。
多任務(wù)基準(zhǔn)測(cè)試:全面領(lǐng)先
3D-R1 在 7 個(gè) 3D 任務(wù)上進(jìn)行了全面評(píng)估,包括:3D 問(wèn)答(3D-QA)、密集描述(3D Dense Captioning)、物體描述(3D Object Captioning)、多輪對(duì)話(3D Dialogue)、場(chǎng)景推理(3D Reasoning)、動(dòng)作規(guī)劃(3D Planning)、視覺(jué)定位(3D Visual Grounding)。
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
https://mp.weixin.qq.com/s/TgFY_hZcA7tKX163kztHXg
在 3D 場(chǎng)景密集描述任務(wù)中,3D-R1 在 ScanRefer 和 Nr3D 兩個(gè)數(shù)據(jù)集上均超越了之前的專業(yè)模型。
在最具挑戰(zhàn)性的 3D 問(wèn)答任務(wù)上,3D-R1 在 ScanQA 基準(zhǔn)的驗(yàn)證集和兩個(gè)測(cè)試集上都取得了最優(yōu)成績(jī)。
在更復(fù)雜的 3D 對(duì)話、規(guī)劃和空間推理任務(wù)上,3D-R1 同樣展現(xiàn)了其強(qiáng)大的綜合能力。
這些結(jié)果證明了:無(wú)論是感知還是推理,3D-R1 都展現(xiàn)了更強(qiáng)的泛化能力和任務(wù)表現(xiàn)。
應(yīng)用前景廣闊
3D-R1 不僅在學(xué)術(shù)指標(biāo)上領(lǐng)先,更具備實(shí)際應(yīng)用價(jià)值。未來(lái),它可以應(yīng)用于:
- 家用機(jī)器人中:理解屋內(nèi)物體位置并作出決策;
- 元宇宙 / VR:根據(jù)場(chǎng)景進(jìn)行對(duì)話式引導(dǎo)和互動(dòng);
- 自動(dòng)駕駛:理解復(fù)雜街景并實(shí)時(shí)應(yīng)答;
- 工業(yè)檢查:根據(jù)場(chǎng)景自動(dòng)識(shí)別潛在風(fēng)險(xiǎn)區(qū)域。
3D-R1 不僅是一項(xiàng)模型技術(shù)創(chuàng)新,更是我們走向更強(qiáng)三維智能體的關(guān)鍵一步。未來(lái),我們計(jì)劃將其拓展至機(jī)器人控制、交互式問(wèn)答、甚至自動(dòng)家居整理等現(xiàn)實(shí)應(yīng)用場(chǎng)景中。
本文作者介紹:
黃庭是上海工程技術(shù)大學(xué)電子電氣工程學(xué)院在讀碩士,研究方向聚焦于三維視覺(jué)語(yǔ)言模型、空間場(chǎng)景理解與多模態(tài)推理。曾參與多項(xiàng)科研項(xiàng)目,致力于構(gòu)建具備認(rèn)知與推理能力的通用 3D-AI 系統(tǒng)。
張澤宇是 Richard Hartley 教授和 Ian Reid 教授指導(dǎo)的本科研究員。他的研究興趣扎根于計(jì)算機(jī)視覺(jué)領(lǐng)域,專注于探索幾何生成建模與前沿基礎(chǔ)模型之間的潛在聯(lián)系。張澤宇在多個(gè)研究領(lǐng)域擁有豐富的經(jīng)驗(yàn),積極探索人工智能基礎(chǔ)和應(yīng)用領(lǐng)域的前沿進(jìn)展。
唐浩現(xiàn)任北京大學(xué)計(jì)算機(jī)學(xué)院助理教授 / 研究員、博士生導(dǎo)師、博雅和未名青年學(xué)者,入選國(guó)家級(jí)海外高水平人才計(jì)劃。曾獲國(guó)家優(yōu)秀自費(fèi)留學(xué)生獎(jiǎng)學(xué)金,連續(xù)兩年入選斯坦福大學(xué)全球前 2% 頂尖科學(xué)家榜單。他曾在美國(guó)卡耐基梅隆大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、英國(guó)牛津大學(xué)和意大利特倫托大學(xué)工作和學(xué)習(xí)。長(zhǎng)期致力于人工智能領(lǐng)域的研究,在國(guó)際頂級(jí)期刊與會(huì)議發(fā)表論文 100 余篇,相關(guān)成果被引用超過(guò) 10000 次。曾獲 ACM Multimedia 最佳論文提名獎(jiǎng),現(xiàn)任 ACL 2025、EMNLP 2025、ACM MM 2025 領(lǐng)域主席及多個(gè)人工智能會(huì)議和期刊審稿人。更多信息參見(jiàn)個(gè)人主頁(yè): https://ha0tang.github.io/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.