3D真值生成新范式，開放駕駛場景的語義Occupancy自動(dòng)化標(biāo)注!

2025-08-29 14:18:28　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

該論文的第一作者和通訊作者均來自北京大學(xué)王選計(jì)算機(jī)研究所的 VDIG (Visual Data Interpreting and Generation) 實(shí)驗(yàn)室，第一作者為北京大學(xué)博士生周嘯宇，通訊作者為博士生導(dǎo)師王勇濤副研究員。VDIG 實(shí)驗(yàn)室近年來在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV等頂會(huì)上有多項(xiàng)重量級成果發(fā)表，多次榮獲國內(nèi)外 CV 領(lǐng)域重量級競賽的冠亞軍獎(jiǎng)項(xiàng)，和國內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開展合作。

本文介紹了來自北京大學(xué)王選計(jì)算機(jī)研究所王勇濤團(tuán)隊(duì)及合作者的最新研究成果AutoOcc。針對開放自動(dòng)駕駛場景，該篇工作提出了一個(gè)高效、高質(zhì)量的 Open-ended 三維語義占據(jù)柵格真值標(biāo)注框架，無需任何人類標(biāo)注即可超越現(xiàn)有語義占據(jù)柵格自動(dòng)化標(biāo)注和預(yù)測管線，并展現(xiàn)優(yōu)秀的通用性和泛化能力，論文已被ICCV 2025 錄用為 Highlight。

論文標(biāo)題：AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting
論文鏈接：
https://arxiv.org/abs/2502.04981

論文概述

三維語義占據(jù)柵格近年來在自動(dòng)駕駛與具身智能領(lǐng)域受到了廣泛關(guān)注。然而，如何從原始傳感器數(shù)據(jù)中低成本地自動(dòng)生成精確且完整的語義占據(jù)標(biāo)注，仍是一個(gè)極具挑戰(zhàn)性的問題。

本文提出了 AutoOcc，一個(gè)無需人工標(biāo)注、不依賴預(yù)設(shè)類別的全自動(dòng)開放式 3D 語義占據(jù)標(biāo)注框架。AutoOcc 利用視覺-語言模型（VLM）生成的語義注意力圖對場景進(jìn)行描述并動(dòng)態(tài)擴(kuò)展語義列表，并通過自估計(jì)光流模塊在時(shí)序渲染中識別并處理動(dòng)態(tài)物體。

我們還提出了具有開放語義感知的 3D 高斯表示（VL-GS），能夠?qū)崿F(xiàn)自動(dòng)駕駛場景的完整三維幾何和語義建模，在表征效率、準(zhǔn)確性和感知能力上表現(xiàn)突出。

充分的實(shí)驗(yàn)表明，AutoOcc 優(yōu)于現(xiàn)有的三維語義占據(jù)柵格自動(dòng)化標(biāo)注和預(yù)測方法，并在跨數(shù)據(jù)集評估中展現(xiàn)出卓越的零樣本泛化能力。

3D 真值標(biāo)注困境：從人工成本到閉集感知

語義 3D 占據(jù)柵格（Occupancy）作為一種融合幾何與語義信息的建模方法，逐漸成為復(fù)雜場景理解的重要技術(shù)。然而，傳統(tǒng)的人工標(biāo)注管線需要高昂的人力和時(shí)間成本，并且在極端環(huán)境下存在誤標(biāo)注等問題。當(dāng)前有監(jiān)督的占據(jù)柵格預(yù)測方法高度依賴大規(guī)模人工標(biāo)注的數(shù)據(jù)集與有監(jiān)督訓(xùn)練機(jī)制，不僅成本高昂，且泛化能力有限，嚴(yán)重制約了其在實(shí)際場景中的推廣與應(yīng)用。

現(xiàn)有自動(dòng)化與半自動(dòng)化語義占據(jù)柵格真值標(biāo)注方法普遍依賴LiDAR點(diǎn)云及人工預(yù)標(biāo)注的 2D 或 3D 真值。同時(shí)，這些方法依賴多階段后處理，耗時(shí)冗長。部分基于自監(jiān)督的估計(jì)方法雖在一定程度上降低了標(biāo)注依賴，但是難以生成完整且一致的場景語義占據(jù)表示，三維一致性難以保障，且缺乏良好的跨場景、跨數(shù)據(jù)集泛化能力。

圖1現(xiàn)有三維語義占據(jù)柵格真值標(biāo)注管線與 AutoOcc 的對比

AutoOcc：視覺中心的 Open-Ended 3D 真值標(biāo)注管線

為了解決這些關(guān)鍵問題，本文提出了 AutoOcc，一個(gè)高效、高質(zhì)量的 Open-ended 三維語義占據(jù)柵格真值生成框架。AutoOcc 基于視覺語言模型和視覺基礎(chǔ)模型，從多視圖場景重建的視角出發(fā)，無需任何人類標(biāo)注即可超越現(xiàn)有 Occupancy 標(biāo)注和預(yù)測管線，并展現(xiàn)良好的通用性和泛化能力。AutoOcc 的整體架構(gòu)如下圖所示：

圖2AutoOcc 三維語義占據(jù)柵格真值標(biāo)注管線

AutoOcc 以環(huán)視駕駛場景的圖像序列為輸入，通過設(shè)定的固定文本提示，檢索場景中可能存在的所有語義類型的物體。AutoOcc 還支持 LiDAR 點(diǎn)云作為可選輸入，用于提供更強(qiáng)的幾何先驗(yàn)約束。

表1AutoOcc 與現(xiàn)有占據(jù)柵格真值標(biāo)注管線比較

a、視覺-語言引導(dǎo)的語義先驗(yàn)

人工標(biāo)注需要高昂的人力成本和時(shí)間開銷。相比之下，視覺語言模型（VLMs）提供了高效且低成本的開放語義感知能力。然而，當(dāng)前的 VLMs 與視覺基礎(chǔ)模型（VFMs）仍主要適用于單幀 2D 圖像任務(wù)，難以有效處理多模態(tài)交互與多視圖一致性問題，從而導(dǎo)致三維語義歧義，且缺乏對整體三維空間的全局理解。

為此，我們提出一種以語義注意力圖為核心的引導(dǎo)框架，并通過場景重建消解語義與幾何歧義，從而實(shí)現(xiàn)三維語義與幾何信息的協(xié)同一致表達(dá)。具體地，我們采用統(tǒng)一的提示詞「找出場景中的所有物體」，并通過 VLM 生成語義注意力圖。

我們將這些語義類別對應(yīng)的注意力柵格化為動(dòng)態(tài)更新的特征圖，并構(gòu)建了一個(gè)可動(dòng)態(tài)更新的查詢列表，用于整合 VLMs 生成的語義信息。我們接著將語義注意力特征輸入預(yù)訓(xùn)練分割模型，在感興趣區(qū)域生成多個(gè)候選掩碼，并進(jìn)一步融合為實(shí)例級候選掩碼，選取與語義注意力查詢嵌入相似度最高的掩碼作為輸出結(jié)果。

b、具有語義-幾何感知的 VL-GS

盡管視覺-語言模型引導(dǎo)提供了語義先驗(yàn)信息，直接用這些信息生成三維占據(jù)真值標(biāo)注仍面臨三大核心挑戰(zhàn)：1）多視角間的 2D 語義沖突導(dǎo)致簡單的 2D-to-3D 投影出現(xiàn)對齊誤差與語義歧義；2）深度估計(jì)誤差可能導(dǎo)致三維的幾何扭曲；3）駕駛場景的高速動(dòng)態(tài)物體干擾語義與幾何的時(shí)空一致性。

為了克服這些挑戰(zhàn)，我們首次從三維重建的視角出發(fā)構(gòu)建語義占據(jù)柵格真值標(biāo)注管線。具體地，我們提出了 VL-GS，這是一種具有語義-幾何感知的 3D 表征方法，通過融合基于注意力的先驗(yàn)與可微渲染，實(shí)現(xiàn)高效場景重建，并保持語義與幾何在三維空間中的一致性。

VL-GS 的核心在于具備語義感知能力的可擴(kuò)展高斯，通過視覺語言模型生成的語義注意力圖提供先驗(yàn)引導(dǎo)，并在多視圖重建過程中平滑語義歧義，優(yōu)化實(shí)例的幾何細(xì)節(jié)。我們引入自估計(jì)光流模塊，結(jié)合時(shí)間感知的動(dòng)態(tài)高斯，有效捕捉并重建場景中的動(dòng)態(tài)物體。AutoOcc 可以將 VL-GS 按任意體素尺度 splatting 到體素網(wǎng)格中，并依據(jù)高斯的占據(jù)范圍與不透明度進(jìn)行加權(quán)，確定每個(gè)體素的語義標(biāo)簽。

圖3具有語義-幾何感知的 VL-GS

實(shí)驗(yàn)結(jié)果

我們使用 2 個(gè)基準(zhǔn)自動(dòng)駕駛數(shù)據(jù)集來評估模型的性能。其中，Occ3D-nuScenes 用于與現(xiàn)有占據(jù)柵格真值標(biāo)注方法在特定語義類別上進(jìn)行性能對比，SemanticKITTI用于驗(yàn)證方法在跨數(shù)據(jù)集與未知類別上的零樣本泛化能力。AutoOcc 在環(huán)視駕駛數(shù)據(jù)集 Occ3D-nuScenes 上與現(xiàn)有最先進(jìn)的方法比較結(jié)果如下表所示：

表2語義占據(jù)柵格真值標(biāo)注性能比較

實(shí)驗(yàn)結(jié)果表明 AutoOcc 超越了現(xiàn)有單模態(tài)和多模態(tài)的語義占據(jù)柵格預(yù)測和真值生成模型。相比于基于點(diǎn)云體素化和語義投影的離線語義占據(jù)標(biāo)注流程，我們的方法展現(xiàn)出更強(qiáng)的魯棒性和開放式語義標(biāo)注能力。

在跨數(shù)據(jù)集與未知類別上的零樣本泛化能力評估中，AutoOcc 也取得了顯著的泛化性優(yōu)勢，能夠?qū)崿F(xiàn) Open-Ended 開放詞匯三維語義感知。

表3跨數(shù)據(jù)集零樣本泛化性能比較

如下圖定性實(shí)驗(yàn)結(jié)果所示，AutoOcc 能夠在時(shí)間序列上保持語義和幾何的三維一致性，準(zhǔn)確捕捉動(dòng)態(tài)物體的運(yùn)動(dòng)狀態(tài)，并在極端天氣條件下（如雨天、霧天、黑夜）實(shí)現(xiàn)完整的語義占據(jù)標(biāo)注。AutoOcc 的標(biāo)注結(jié)果可以達(dá)到甚至超越人工標(biāo)注真值水平。例如，在因雨水導(dǎo)致反光的路面區(qū)域，AutoOcc 可以成功重建并生成正確的語義-幾何占據(jù)。

圖4AutoOcc 定性實(shí)驗(yàn)結(jié)果比較

圖5AutoOcc 與人工標(biāo)注在極端天氣下的比較

我們還進(jìn)一步評估了 AutoOcc 與現(xiàn)有標(biāo)注框架的模型效率。結(jié)果表明，我們的方法在計(jì)算開銷上具備顯著優(yōu)勢，在提升標(biāo)注性能的同時(shí)降低內(nèi)存和時(shí)間開銷。相比之下，基于稠密體素和點(diǎn)云的場景表示存在冗余的計(jì)算成本。AutoOcc 實(shí)現(xiàn)了效率與靈活性的良好平衡，支持開放式語義占據(jù)標(biāo)注與場景感知重建，且無需依賴人工標(biāo)注。

表4模型效率評估

結(jié)論

本文提出了 AutoOcc，一個(gè)以視覺為核心的自動(dòng)化開放語義三維占據(jù)柵格標(biāo)注管線，融合了視覺語言模型引導(dǎo)的可微 3D 高斯技術(shù)。我們的方法提供了多視圖重建視角下的數(shù)據(jù)標(biāo)注思路。在無需任何人工標(biāo)注的前提下，AutoOcc 在開放 3D 語義占據(jù)柵格真值標(biāo)注任務(wù)中達(dá)到當(dāng)前最先進(jìn)水平。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.