該論文的第一作者和通訊作者均來自北京大學(xué)王選計(jì)算機(jī)研究所的 VDIG (Visual Data Interpreting and Generation) 實(shí)驗(yàn)室,第一作者為北京大學(xué)博士生周嘯宇,通訊作者為博士生導(dǎo)師王勇濤副研究員。VDIG 實(shí)驗(yàn)室近年來在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV等頂會(huì)上有多項(xiàng)重量級成果發(fā)表,多次榮獲國內(nèi)外 CV 領(lǐng)域重量級競賽的冠亞軍獎(jiǎng)項(xiàng),和國內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開展合作。
本文介紹了來自北京大學(xué)王選計(jì)算機(jī)研究所王勇濤團(tuán)隊(duì)及合作者的最新研究成果AutoOcc。針對開放自動(dòng)駕駛場景,該篇工作提出了一個(gè)高效、高質(zhì)量的 Open-ended 三維語義占據(jù)柵格真值標(biāo)注框架,無需任何人類標(biāo)注即可超越現(xiàn)有語義占據(jù)柵格自動(dòng)化標(biāo)注和預(yù)測管線,并展現(xiàn)優(yōu)秀的通用性和泛化能力,論文已被ICCV 2025 錄用為 Highlight。
- 論文標(biāo)題:AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
- 論文鏈接:
- https://arxiv.org/abs/2502.04981
論文概述
三維語義占據(jù)柵格近年來在自動(dòng)駕駛與具身智能領(lǐng)域受到了廣泛關(guān)注。然而,如何從原始傳感器數(shù)據(jù)中低成本地自動(dòng)生成精確且完整的語義占據(jù)標(biāo)注,仍是一個(gè)極具挑戰(zhàn)性的問題。
本文提出了 AutoOcc,一個(gè)無需人工標(biāo)注、不依賴預(yù)設(shè)類別的全自動(dòng)開放式 3D 語義占據(jù)標(biāo)注框架。AutoOcc 利用視覺-語言模型(VLM)生成的語義注意力圖對場景進(jìn)行描述并動(dòng)態(tài)擴(kuò)展語義列表,并通過自估計(jì)光流模塊在時(shí)序渲染中識別并處理動(dòng)態(tài)物體。
我們還提出了具有開放語義感知的 3D 高斯表示(VL-GS),能夠?qū)崿F(xiàn)自動(dòng)駕駛場景的完整三維幾何和語義建模,在表征效率、準(zhǔn)確性和感知能力上表現(xiàn)突出。
充分的實(shí)驗(yàn)表明,AutoOcc 優(yōu)于現(xiàn)有的三維語義占據(jù)柵格自動(dòng)化標(biāo)注和預(yù)測方法,并在跨數(shù)據(jù)集評估中展現(xiàn)出卓越的零樣本泛化能力。
3D 真值標(biāo)注困境:從人工成本到閉集感知
語義 3D 占據(jù)柵格(Occupancy)作為一種融合幾何與語義信息的建模方法,逐漸成為復(fù)雜場景理解的重要技術(shù)。然而,傳統(tǒng)的人工標(biāo)注管線需要高昂的人力和時(shí)間成本,并且在極端環(huán)境下存在誤標(biāo)注等問題。當(dāng)前有監(jiān)督的占據(jù)柵格預(yù)測方法高度依賴大規(guī)模人工標(biāo)注的數(shù)據(jù)集與有監(jiān)督訓(xùn)練機(jī)制,不僅成本高昂,且泛化能力有限,嚴(yán)重制約了其在實(shí)際場景中的推廣與應(yīng)用。
現(xiàn)有自動(dòng)化與半自動(dòng)化語義占據(jù)柵格真值標(biāo)注方法普遍依賴LiDAR點(diǎn)云及人工預(yù)標(biāo)注的 2D 或 3D 真值。同時(shí),這些方法依賴多階段后處理,耗時(shí)冗長。部分基于自監(jiān)督的估計(jì)方法雖在一定程度上降低了標(biāo)注依賴,但是難以生成完整且一致的場景語義占據(jù)表示,三維一致性難以保障,且缺乏良好的跨場景、跨數(shù)據(jù)集泛化能力。
圖1現(xiàn)有三維語義占據(jù)柵格真值標(biāo)注管線與 AutoOcc 的對比
AutoOcc:視覺中心的 Open-Ended 3D 真值標(biāo)注管線
為了解決這些關(guān)鍵問題,本文提出了 AutoOcc,一個(gè)高效、高質(zhì)量的 Open-ended 三維語義占據(jù)柵格真值生成框架。AutoOcc 基于視覺語言模型和視覺基礎(chǔ)模型,從多視圖場景重建的視角出發(fā),無需任何人類標(biāo)注即可超越現(xiàn)有 Occupancy 標(biāo)注和預(yù)測管線,并展現(xiàn)良好的通用性和泛化能力。AutoOcc 的整體架構(gòu)如下圖所示:
圖2AutoOcc 三維語義占據(jù)柵格真值標(biāo)注管線
AutoOcc 以環(huán)視駕駛場景的圖像序列為輸入,通過設(shè)定的固定文本提示,檢索場景中可能存在的所有語義類型的物體。AutoOcc 還支持 LiDAR 點(diǎn)云作為可選輸入,用于提供更強(qiáng)的幾何先驗(yàn)約束。
表1AutoOcc 與現(xiàn)有占據(jù)柵格真值標(biāo)注管線比較
a、 視覺-語言引導(dǎo)的語義先驗(yàn)
人工標(biāo)注需要高昂的人力成本和時(shí)間開銷。相比之下,視覺語言模型(VLMs)提供了高效且低成本的開放語義感知能力。然而,當(dāng)前的 VLMs 與視覺基礎(chǔ)模型(VFMs)仍主要適用于單幀 2D 圖像任務(wù),難以有效處理多模態(tài)交互與多視圖一致性問題,從而導(dǎo)致三維語義歧義,且缺乏對整體三維空間的全局理解。
為此,我們提出一種以語義注意力圖為核心的引導(dǎo)框架,并通過場景重建消解語義與幾何歧義,從而實(shí)現(xiàn)三維語義與幾何信息的協(xié)同一致表達(dá)。具體地,我們采用統(tǒng)一的提示詞「找出場景中的所有物體」,并通過 VLM 生成語義注意力圖。
我們將這些語義類別對應(yīng)的注意力柵格化為動(dòng)態(tài)更新的特征圖,并構(gòu)建了一個(gè)可動(dòng)態(tài)更新的查詢列表,用于整合 VLMs 生成的語義信息。我們接著將語義注意力特征輸入預(yù)訓(xùn)練分割模型,在感興趣區(qū)域生成多個(gè)候選掩碼,并進(jìn)一步融合為實(shí)例級候選掩碼,選取與語義注意力查詢嵌入相似度最高的掩碼作為輸出結(jié)果。
b、 具有語義-幾何感知的 VL-GS
盡管視覺-語言模型引導(dǎo)提供了語義先驗(yàn)信息,直接用這些信息生成三維占據(jù)真值標(biāo)注仍面臨三大核心挑戰(zhàn):1)多視角間的 2D 語義沖突導(dǎo)致簡單的 2D-to-3D 投影出現(xiàn)對齊誤差與語義歧義;2)深度估計(jì)誤差可能導(dǎo)致三維的幾何扭曲;3)駕駛場景的高速動(dòng)態(tài)物體干擾語義與幾何的時(shí)空一致性。
為了克服這些挑戰(zhàn),我們首次從三維重建的視角出發(fā)構(gòu)建語義占據(jù)柵格真值標(biāo)注管線。具體地,我們提出了 VL-GS,這是一種具有語義-幾何感知的 3D 表征方法,通過融合基于注意力的先驗(yàn)與可微渲染,實(shí)現(xiàn)高效場景重建,并保持語義與幾何在三維空間中的一致性。
VL-GS 的核心在于具備語義感知能力的可擴(kuò)展高斯,通過視覺語言模型生成的語義注意力圖提供先驗(yàn)引導(dǎo),并在多視圖重建過程中平滑語義歧義,優(yōu)化實(shí)例的幾何細(xì)節(jié)。我們引入自估計(jì)光流模塊,結(jié)合時(shí)間感知的動(dòng)態(tài)高斯,有效捕捉并重建場景中的動(dòng)態(tài)物體。AutoOcc 可以將 VL-GS 按任意體素尺度 splatting 到體素網(wǎng)格中,并依據(jù)高斯的占據(jù)范圍與不透明度進(jìn)行加權(quán),確定每個(gè)體素的語義標(biāo)簽。
圖3具有語義-幾何感知的 VL-GS
實(shí)驗(yàn)結(jié)果
我們使用 2 個(gè)基準(zhǔn)自動(dòng)駕駛數(shù)據(jù)集來評估模型的性能。其中,Occ3D-nuScenes 用于與現(xiàn)有占據(jù)柵格真值標(biāo)注方法在特定語義類別上進(jìn)行性能對比,SemanticKITTI用于驗(yàn)證方法在跨數(shù)據(jù)集與未知類別上的零樣本泛化能力。AutoOcc 在環(huán)視駕駛數(shù)據(jù)集 Occ3D-nuScenes 上與現(xiàn)有最先進(jìn)的方法比較結(jié)果如下表所示:
表2語義占據(jù)柵格真值標(biāo)注性能比較
實(shí)驗(yàn)結(jié)果表明 AutoOcc 超越了現(xiàn)有單模態(tài)和多模態(tài)的語義占據(jù)柵格預(yù)測和真值生成模型。相比于基于點(diǎn)云體素化和語義投影的離線語義占據(jù)標(biāo)注流程,我們的方法展現(xiàn)出更強(qiáng)的魯棒性和開放式語義標(biāo)注能力。
在跨數(shù)據(jù)集與未知類別上的零樣本泛化能力評估中,AutoOcc 也取得了顯著的泛化性優(yōu)勢,能夠?qū)崿F(xiàn) Open-Ended 開放詞匯三維語義感知。
表3跨數(shù)據(jù)集零樣本泛化性能比較
如下圖定性實(shí)驗(yàn)結(jié)果所示,AutoOcc 能夠在時(shí)間序列上保持語義和幾何的三維一致性,準(zhǔn)確捕捉動(dòng)態(tài)物體的運(yùn)動(dòng)狀態(tài),并在極端天氣條件下(如雨天、霧天、黑夜)實(shí)現(xiàn)完整的語義占據(jù)標(biāo)注。AutoOcc 的標(biāo)注結(jié)果可以達(dá)到甚至超越人工標(biāo)注真值水平。例如,在因雨水導(dǎo)致反光的路面區(qū)域,AutoOcc 可以成功重建并生成正確的語義-幾何占據(jù)。
圖4AutoOcc 定性實(shí)驗(yàn)結(jié)果比較
圖5AutoOcc 與人工標(biāo)注在極端天氣下的比較
我們還進(jìn)一步評估了 AutoOcc 與現(xiàn)有標(biāo)注框架的模型效率。結(jié)果表明,我們的方法在計(jì)算開銷上具備顯著優(yōu)勢,在提升標(biāo)注性能的同時(shí)降低內(nèi)存和時(shí)間開銷。相比之下,基于稠密體素和點(diǎn)云的場景表示存在冗余的計(jì)算成本。AutoOcc 實(shí)現(xiàn)了效率與靈活性的良好平衡,支持開放式語義占據(jù)標(biāo)注與場景感知重建,且無需依賴人工標(biāo)注。
表4模型效率評估
結(jié)論
本文提出了 AutoOcc,一個(gè)以視覺為核心的自動(dòng)化開放語義三維占據(jù)柵格標(biāo)注管線,融合了視覺語言模型引導(dǎo)的可微 3D 高斯技術(shù)。我們的方法提供了多視圖重建視角下的數(shù)據(jù)標(biāo)注思路。在無需任何人工標(biāo)注的前提下,AutoOcc 在開放 3D 語義占據(jù)柵格真值標(biāo)注任務(wù)中達(dá)到當(dāng)前最先進(jìn)水平。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.