成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

零訓練實現(xiàn)3D場景生成SOTA:英偉達&康奈爾提出文本驅(qū)動新流程

0
分享至



本文第一作者顧澤琪是康奈爾大學計算機科學四年級博士生,導師為 Abe Davis 教授和 Noah Snavely 教授,研究方向?qū)W⒂谏墒?AI 與多模態(tài)大模型。本項目為作者在英偉達實習期間完成的工作。

想象一下,你是一位游戲設計師,正在為一個奇幻 RPG 游戲搭建場景。你需要創(chuàng)建一個 "精靈族樹屋村落"—— 參天古木和樹屋、發(fā)光的蘑菇路燈、半透明的紗幔帳篷... 傳統(tǒng)工作流程中,這可能需要數(shù)周時間:先手工建模每個 3D 資產(chǎn),再逐個調(diào)整位置和材質(zhì),最后反復測試光照效果…… 總之就是一個字,難。

這種困境正是當前 3D 內(nèi)容創(chuàng)作領域的縮影。傳統(tǒng) 3D 設計軟件如 Blender、Maya 雖然功能強大,但學習曲線陡峭。近年來興起的文本生成 3D 技術(shù)讓用戶可以通過文字描述生成 3D 內(nèi)容,但這些方法要么依賴有限的 3D 訓練數(shù)據(jù),遇到新場景類型或風格就容易翻車,要么在預測完場景中的物體信息后,要從特定的 3D 模型池中尋找并調(diào)用出與預測特征最相近的,因此最后的場景質(zhì)量非常依賴于模型池中到底有什么,很容易導致風格不統(tǒng)一。

與此同時,文本生成 2D 圖像技術(shù)(如 GPT-4o、Flux)卻突飛猛進。這些模型通過海量互聯(lián)網(wǎng)圖像訓練,已經(jīng)能生成布局合理、風格統(tǒng)一的復雜場景圖。這引發(fā)了一個關鍵思考:能否讓 2D 圖像充當 "中間商",先把用戶輸入文字轉(zhuǎn)化為高質(zhì)量場景圖,再從中提取 3D 信息?NVIDIA 與康奈爾大學聯(lián)合團隊的最新研究 ArtiScene,正是基于這一 insight 提出的全新解決方案。



  • 文章鏈接:https://arxiv.org/abs/2506.00742
  • 文章網(wǎng)站:https://artiscene-cvpr.github.io/(代碼即將開源)
  • 英偉達網(wǎng)站:https://research.nvidia.com/labs/dir/artiscene/



圖一:ArtiScene 生成的 3D 結(jié)果。從左到右的文字輸入分別是,第一行:(1) a Barbie-styled clinic room, (2) a space-styled bedroom, (3) a teenager-styled bathroom。第二行:(1) a cute living room, (2) a garage, (3) a operating room.

核心貢獻:無需訓練的智能 3D 場景工廠

ArtiScene 的核心創(chuàng)新在于構(gòu)建了一個完全無需額外訓練的自動化流水線,將文本生成圖像的前沿能力與 3D 重建技術(shù)巧妙結(jié)合。它一共包含五步:

1. 2D 圖像作為 "設計藍圖"

系統(tǒng)首先用擴散模型生成等軸測視角的場景圖。這種視角常用于建筑設計示意圖,因為它能同時呈現(xiàn)物體的長、寬、高信息,且不受場景位置影響。相比直接生成 3D,這種方法能利用更成熟的 2D 生成技術(shù)確保布局合理性和視覺美感。



圖二:和其他任意的相機視角(左二、三)比,讓文生圖模型輸出等軸測圖(左一)更可靠,因為等軸測圖默認相機參數(shù)是固定的,且沒有透視形變。

2. 物體檢測與修復

采用兩階段檢測策略:先用 GroundedDINO 識別場景中的家具和裝飾品,對遮擋部分用補全修復(Remove Anything 模型),再次檢測確保完整性,最后得到每個物品的分割掩碼。

3. 3D 空間定位

通過 Depth-Anything-2 模型估計深度信息,配合自定義投影公式將 2D 坐標轉(zhuǎn)換為 3D 位置。團隊發(fā)現(xiàn)傳統(tǒng)相機投影公式需要調(diào)整,于是采用去除深度縮放影響后的公式。

4. 模塊化 3D 資產(chǎn)生成

傳統(tǒng)方法通常從現(xiàn)有數(shù)據(jù)庫檢索 3D 模型,導致美觀度受限。ArtiScene 則對場景圖中的每個物體分別生成定制化 3D 模型:在得到分割物體圖像后,讓 ChatGPT 描述其幾何特征,再輸入單視圖 3D 生成模型,為每件家具、裝飾品單獨建模。

5. 場景組裝

通過單目深度估計,系統(tǒng)將 2D 邊界框轉(zhuǎn)換為 3D 空間坐標。并使用 "渲染 - 比對" 的姿勢估測機制,生成 8 個旋轉(zhuǎn)角度的物體渲染圖,用 Stable Diffusion+DINO-v2 融合模型提取特征,選擇與原始場景圖最匹配的姿勢。后處理階段還會自動修正物體重疊,確保物理上足夠合理,比如椅子不會嵌進餐桌里,花瓶能穩(wěn)穩(wěn)立在柜子上。



圖三:系統(tǒng)流程圖

這種設計帶來三個顯著優(yōu)勢:

零訓練成本:完全利用現(xiàn)成模型,無需針對新場景類型微調(diào)

風格無限:每個物體都按需生成,不受預制模型庫限制

可編輯性強:單獨修改某個物體不會影響整體場景

實驗結(jié)果:全面超越現(xiàn)有方案

團隊在三個維度進行了系統(tǒng)評估:

1. 布局合理性測試

對比當時最強的 LayoutGPT,在臥室和客廳場景中:

  • 物體重疊率降低 6-10 倍(臥室 6.48% vs 37.26%)
  • 用戶調(diào)研顯示,72.58% 的參與者更青睞 ArtiScene 的布局
  • 生成家具數(shù)量更多(臥室平均 6.97 件 vs 4.30 件),且分布更自然

2. 風格一致性測試

相比當時效果最好的文生 3D 場景方法 Holodeck,在包含 29 種場景種類和風格的測試集中:

  • CLIP 分數(shù)提高 10%(29.45 vs 26.73)
  • GPT-4 評估中,95.46% 案例認為 ArtiScene 更符合描述
  • 用戶調(diào)研顯示,82.96% 認為風格還原更準確



圖四:和之前的 SOTA Holodeck 的比較。

3. 應用靈活性展示

系統(tǒng)支持多種實用功能:

  • 物體編輯:單獨修改某個模型(如把普通汽車變成黃色保時捷)
  • 多場景適配:通過調(diào)整參數(shù)支持戶外場景生成
  • 人工引導:允許直接輸入手繪設計圖替代 AI 生成場景圖



圖五:左:物體編輯;右:跳過最開始的文生圖環(huán)節(jié),直接用人工畫的圖生成場景。

展望

對于更復雜的多房間場景(如整個博物館、醫(yī)院),或者要求特定家具間的位置關系和個數(shù)等用戶輸入,由于文生圖模型在訓練時就缺乏相關數(shù)據(jù),ArtiScene 在最開始就會受限于不夠優(yōu)質(zhì)的二維圖像。然而,這一模塊是可更換的,ArtiScene 不依賴于某一特定模型,未來如果有性能更好的同功能模型,我們也可以很容易把它們替換進來。

本項目創(chuàng)新地采用二維圖像來引導三維場景生成,并用 LLM、VLM 等大模型構(gòu)成了一個魯棒的系統(tǒng),在生成結(jié)果的美觀度、多樣性和物理合理性上都遠超之前的同類型方法。作者希望他們的工作可以啟發(fā)未來更多關于具身智能、AR/VR、室內(nèi) / 室外設計的思考。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
閱兵式民兵方隊領隊李依潼走紅,她是河北人,長得漂亮,本職工作也不一般

閱兵式民兵方隊領隊李依潼走紅,她是河北人,長得漂亮,本職工作也不一般

文雅筆墨
2025-09-04 18:16:35
以大國擔當提出全球治理倡議,用盛大閱兵彰顯捍衛(wèi)和平?jīng)Q心,中國勝利日活動回響不斷

以大國擔當提出全球治理倡議,用盛大閱兵彰顯捍衛(wèi)和平?jīng)Q心,中國勝利日活動回響不斷

環(huán)球網(wǎng)資訊
2025-09-05 08:00:09
弘一法師:永遠不去責怪你生命里的任何人,好人給你快樂,壞人..

弘一法師:永遠不去責怪你生命里的任何人,好人給你快樂,壞人..

詩詞中國
2025-09-03 17:22:56
江蘇女子在家發(fā)現(xiàn)10萬現(xiàn)金以為是老公的私房錢,氣憤存進銀行,柜員把錢放進驗鈔機后報警了…

江蘇女子在家發(fā)現(xiàn)10萬現(xiàn)金以為是老公的私房錢,氣憤存進銀行,柜員把錢放進驗鈔機后報警了…

黎兜兜
2025-09-04 22:03:28
33歲老板娘,與18歲“永動機”的瓜

33歲老板娘,與18歲“永動機”的瓜

吃瓜體
2025-09-05 00:06:51
九三閱兵,暴露張凱麗的“真實身份”,不一般,難怪她能受邀觀禮

九三閱兵,暴露張凱麗的“真實身份”,不一般,難怪她能受邀觀禮

查爾菲的筆記
2025-09-04 17:14:35
真沒想到!鏡頭里那個眼神超堅定的,竟然是個孩子!

真沒想到!鏡頭里那個眼神超堅定的,竟然是個孩子!

小光侃娛樂
2025-09-04 21:30:58
九三大閱兵的新裝備,竟讓西方破防到“拒絕接受現(xiàn)實”?

九三大閱兵的新裝備,竟讓西方破防到“拒絕接受現(xiàn)實”?

樞密院十號
2025-09-04 23:08:27
特朗普看完九三閱兵后大受刺激,以三軍統(tǒng)帥身份,向全體美軍下令

特朗普看完九三閱兵后大受刺激,以三軍統(tǒng)帥身份,向全體美軍下令

梁訊
2025-09-05 02:22:40
一句“滾出湖北”,揭開了武大的遮羞布!是誰制造了這起事件

一句“滾出湖北”,揭開了武大的遮羞布!是誰制造了這起事件

平老師666
2025-09-02 21:10:40
2億成本,《戲臺》小虧,陳佩斯父子賺了工資,歡喜傳媒遭遇2連撲

2億成本,《戲臺》小虧,陳佩斯父子賺了工資,歡喜傳媒遭遇2連撲

電影票房預告片
2025-09-04 23:36:21
湖北襄陽網(wǎng)警:一男子發(fā)布詆毀九三閱兵言論被行政拘留

湖北襄陽網(wǎng)警:一男子發(fā)布詆毀九三閱兵言論被行政拘留

界面新聞
2025-09-05 07:13:25
成都地鐵被誣告偷拍男子稱二審將開庭,要求道歉!曾六度調(diào)解

成都地鐵被誣告偷拍男子稱二審將開庭,要求道歉!曾六度調(diào)解

南方都市報
2025-09-04 22:07:24
奢侈品牌阿瑪尼創(chuàng)始人離世!享年91歲,身家800億元

奢侈品牌阿瑪尼創(chuàng)始人離世!享年91歲,身家800億元

每日經(jīng)濟新聞
2025-09-04 22:48:07
SpaceX創(chuàng)造驚人曲線:載荷暴增五倍、成本腰斬十倍

SpaceX創(chuàng)造驚人曲線:載荷暴增五倍、成本腰斬十倍

三體引力波
2025-09-04 22:39:45
唐山菜刀幫有多猖狂?看到女人就拖走,圍攻鄧小平車隊收路費!

唐山菜刀幫有多猖狂?看到女人就拖走,圍攻鄧小平車隊收路費!

吳學華看天下
2023-11-08 17:39:14
進口醫(yī)療器械的消失,比進口藥的消失更令人擔憂

進口醫(yī)療器械的消失,比進口藥的消失更令人擔憂

霹靂炮
2025-09-03 22:46:13
女民兵拉著五顏六色拉桿箱返程,閱兵靴子沒來得及換,穿衣很時尚

女民兵拉著五顏六色拉桿箱返程,閱兵靴子沒來得及換,穿衣很時尚

花心電影
2025-09-05 08:00:40
被窩睡不出兩種人!張水華丈夫發(fā)聲,排班表曝光 假期讓人羨慕

被窩睡不出兩種人!張水華丈夫發(fā)聲,排班表曝光 假期讓人羨慕

削桐作琴
2025-09-04 07:50:03
前男友因病去世留下5萬元和一封遺書 助絕癥女孩籌建“病友小家”

前男友因病去世留下5萬元和一封遺書 助絕癥女孩籌建“病友小家”

封面新聞
2025-09-04 18:27:23
2025-09-05 10:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11235文章數(shù) 142442關注度
往期回顧 全部

科技要聞

華為新三折疊起售價降2000元 門店排起長龍

頭條要聞

媒體:特朗普不顧半天時差興奮看中國閱兵 還酸不溜秋

頭條要聞

媒體:特朗普不顧半天時差興奮看中國閱兵 還酸不溜秋

體育要聞

這個中國人,和楊瀚森一起進了《NBA2K26》

娛樂要聞

墻倒眾人推!胡歌張譯的仇終于有人報

財經(jīng)要聞

中介收50%分成?揭秘信用卡退費產(chǎn)業(yè)鏈

汽車要聞

對話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

房產(chǎn)
家居
教育
公開課
軍事航空

房產(chǎn)要聞

實景驚艷+名校護航!這個項目,正在重新定義白云改善新高度!

家居要聞

高級黑白 體現(xiàn)簡單生活

教育要聞

開學了,班主任要避免十種“假努力”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

全網(wǎng)獨家!九三閱兵全圖鑒

無障礙瀏覽 進入關懷版