成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

人機(jī)交互新篇章:北大團(tuán)隊(duì)提出INP-CC模型重塑開放詞匯HOI檢測(cè)

0
分享至



本文的第一作者為北京大學(xué)王選計(jì)算機(jī)研究所博士生雷廷,通訊作者為博士生導(dǎo)師劉洋。團(tuán)隊(duì)近年來在 TPAMI、CVPR、ICCV、ICML 等頂會(huì)上有多項(xiàng)代表性成果發(fā)表,多次榮獲多模態(tài)感知和生成競(jìng)賽冠軍,和國內(nèi)外知名高校、科研機(jī)構(gòu)廣泛開展合作。

目前的 HOI 檢測(cè)方法普遍依賴視覺語言模型(VLM),但受限于圖像編碼器的表現(xiàn),難以有效捕捉細(xì)粒度的區(qū)域級(jí)交互信息。本文介紹了一種全新的開集人類-物體交互(HOI)檢測(cè)方法——交互感知提示與概念校準(zhǔn)(INP-CC)。

為了解決這些問題,INP-CC 提出了一種動(dòng)態(tài)生成交互感知提示的策略,并通過優(yōu)化語言模型引導(dǎo)的概念校準(zhǔn),提升了模型對(duì)開放世界中的交互關(guān)系理解,本方法在 HICO-DET 和 SWIG-HOI 等主流數(shù)據(jù)集上取得了當(dāng)前最佳性能。



  • 論文標(biāo)題:Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration
  • 論文鏈接:
  • https://arxiv.org/pdf/2508.03207
  • 代碼鏈接:
  • https://github.com/ltttpku/INP-CC
  • 項(xiàng)目主頁:
  • https://sites.google.com/view/inp-cc/%E9%A6%96%E9%A1%B5

目前該研究已被 ICCV 2025 正式接收,相關(guān)代碼與模型已全部開源。

HOI 檢測(cè)進(jìn)入「開放詞匯」時(shí)代

在我們的日常生活中,人與物體之間的互動(dòng)無處不在。然而,目前大多數(shù)研究主要集中在封閉環(huán)境下的人物交互檢測(cè),這些方法通常無法識(shí)別新的交互類型,因此在實(shí)際應(yīng)用中受到限制。

近年來,多模態(tài)大模型得到了快速發(fā)展,并在開放環(huán)境中展現(xiàn)出巨大的應(yīng)用潛力。如何將這些模型應(yīng)用于開放場(chǎng)景中的人物交互檢測(cè),已經(jīng)成為一個(gè)備受關(guān)注的研究方向。

傳統(tǒng)的 HOI(人體-物體交互)檢測(cè)方法通常依賴于固定類別的訓(xùn)練數(shù)據(jù),難以應(yīng)對(duì)現(xiàn)實(shí)中不斷變化的交互組合。盡管像 CLIP 這樣的視覺語言模型(VLM)為開放詞匯的建模提供了新機(jī)會(huì),但由于這些模型通常是基于圖像級(jí)別的預(yù)訓(xùn)練,它們?cè)诓蹲饺宋锱c物體之間細(xì)微的局部交互語義時(shí)存在困難。另外,如何更有效地編碼交互的文本描述,也限制了模型對(duì)復(fù)雜 HOI 關(guān)系的理解。

為了解決這些問題,研究團(tuán)隊(duì)提出了 INP-CC 模型,并在其中提出了兩項(xiàng)核心創(chuàng)新:交互感知式提示生成(Interaction-aware Prompting)和概念校準(zhǔn)(Concept Calibration)。

下圖 1 中,展示了交互感知提示詞融合機(jī)制。該機(jī)制使得模型可以在具有相似語義或功能模式的交互之間,選擇性地共享提示。例如,「騎摩托車」和「騎馬」這兩種交互在人體和物體接觸動(dòng)態(tài)上非常相似,因此共享提示有助于更高效地學(xué)習(xí)這些交互的表示。

圖 2 則展示了現(xiàn)有基于 CLIP 的方法在處理細(xì)粒度、多樣化的交互類型時(shí)的局限性。例如,圖中展示了「hurling」(猛擲)對(duì)應(yīng)的視覺編碼(用三角形表示)和「pitching」(拋投)的文本編碼(用橙色圓圈表示)??梢钥闯?,如左圖所示,CLIP 模型的視覺編碼和文本編碼在這兩者之間過于接近,導(dǎo)致模型難以區(qū)分它們。而與此對(duì)比,如右圖所示,我們的方法通過調(diào)整語義編碼空間,幫助模型有效區(qū)分視覺上相似的概念,從而更加高效地建模模態(tài)內(nèi)和模態(tài)間的關(guān)系。



圖 1交互感知提示詞融合



圖 2在 CLIP 原始空間(左側(cè))和我們修正后的空間(右側(cè))中模態(tài)內(nèi)和模態(tài)間相似度。

模型架構(gòu):從「看圖說話」到「聚焦交互」



圖 3INP-CC 方法框架

INP-CC 模型首先通過一個(gè)交互適應(yīng)式提示生成器(圖 3 灰色區(qū)域),結(jié)合輸入圖片特性,動(dòng)態(tài)構(gòu)造與場(chǎng)景相關(guān)的提示集合。這些提示被分為通用提示和可共享的交互提示,使得像「抱貓」和「撫摸貓」這樣的相似動(dòng)作可以共享同一個(gè)提示,從而提升模型對(duì)局部區(qū)域的感知能力。

在語言建模方面(圖 3 淺藍(lán)色區(qū)域),INP-CC 利用 GPT 生成各種交互的詳細(xì)視覺描述,同時(shí)結(jié)合 T5 構(gòu)建的 Instructor Embedding(指導(dǎo)嵌入)對(duì)交互語義進(jìn)行嵌入和聚類,從而形成一個(gè)更細(xì)粒度的概念結(jié)構(gòu)空間。這種方式幫助模型更好地理解復(fù)雜的交互語義,并將其映射到合適的語義空間中。

此外,INP-CC 在訓(xùn)練過程中引入了「困難負(fù)樣本采樣」策略,這一策略使得模型能夠?qū)W會(huì)區(qū)分那些視覺上相似但語義不同的動(dòng)作,例如「猛擲」和「拋投」。這一方法有效提升了模型在細(xì)粒度交互類型上的識(shí)別能力,幫助其更準(zhǔn)確地理解和處理復(fù)雜的人物交互場(chǎng)景。

交互感知提示生成(Interaction-aware Prompt Generation)

為了彌合圖像級(jí)預(yù)訓(xùn)練和細(xì)粒度區(qū)域交互檢測(cè)之間的差距,INP-CC 提出了交互感知提示生成機(jī)制,通過動(dòng)態(tài)生成適應(yīng)不同交互模式的提示,指導(dǎo)視覺編碼器更好地聚焦于關(guān)鍵的交互區(qū)域。具體來說,模型通過以下兩個(gè)核心組成部分來實(shí)現(xiàn)這一目標(biāo):

  • 通用提示:該提示捕獲所有交互類別共享的基本知識(shí),適用于所有交互類型。

  • 交互特定提示:這些提示專門針對(duì)某些交互類型,采用低秩分解技術(shù)高效編碼交互特征,從而在不增加計(jì)算負(fù)擔(dān)的前提下增強(qiáng)模型的泛化能力。

通過將這些交互提示與通用提示結(jié)合,INP-CC 能夠有效捕捉多種交互的共同特征,并通過自適應(yīng)選擇機(jī)制動(dòng)態(tài)調(diào)整每張輸入圖像所需的提示,優(yōu)化交互區(qū)域的聚焦能力。

交互概念校準(zhǔn)(HOI Concept Calibration)

面對(duì)現(xiàn)有視覺-語言模型(VLM)在處理多樣交互概念時(shí)的局限性,INP-CC 進(jìn)一步引入了交互概念校準(zhǔn)機(jī)制。該機(jī)制通過結(jié)合大規(guī)模語言模型對(duì)視覺描述進(jìn)行生成與校準(zhǔn),提升了模型對(duì)語義細(xì)節(jié)的捕捉能力。

  • 內(nèi)模關(guān)系建模(Intra-modal Relation Modeling):INP-CC 首先為每種交互類型生成細(xì)粒度的視覺描述,并利用 T5 語言模型將這些描述轉(zhuǎn)化為嵌入向量。通過這一過程,模型能夠精確區(qū)分視覺上相似但語義不同的動(dòng)作類別。

  • 負(fù)類別采樣(Negative Category Sampling):為了解決視覺上相似但概念上不同的動(dòng)作難以區(qū)分的問題,INP-CC 引入了基于語義相似度的負(fù)樣本采樣策略,在訓(xùn)練過程中從視覺描述相似的類別中采樣負(fù)樣本,幫助模型更好地分辨細(xì)粒度的動(dòng)作差異。

實(shí)驗(yàn)表現(xiàn):全面超越 SOTA

在 HICO-DET 和 SWIG-HOI 兩大開放詞匯 HOI 數(shù)據(jù)集上,INP-CC 在所有指標(biāo)上均優(yōu)于現(xiàn)有主流方法。其中,在 SWIG-HOI 全量測(cè)試集上取得了 16.74% 的 mAP,相較前一方法 CMD-SE 相對(duì)提升了近 10%,在「閱讀」、「瀏覽」等細(xì)粒度交互中亦展現(xiàn)出較強(qiáng)的識(shí)別能力。



圖 4HICO-DET 實(shí)驗(yàn)結(jié)果



圖 5SWIG-HOI 實(shí)驗(yàn)結(jié)果

此外,可視化分析結(jié)果表明我們的模型表現(xiàn)出了強(qiáng)大的注意力集中能力,能夠聚焦于關(guān)鍵的交互區(qū)域,以下是幾個(gè)例子。例如,在圖 6(a) 中,它準(zhǔn)確地突出了閱讀時(shí)的眼部區(qū)域。同樣,在圖 6(b) 中,模型強(qiáng)調(diào)了沖浪時(shí)人伸展的雙臂。此外,我們的模型還能夠檢測(cè)到與相對(duì)較小物體的交互,比如在圖 6(d) 中的相機(jī)和在圖 6(a) 中部分遮擋的書籍。



圖 6可視化結(jié)果

總結(jié):VLM + LLM 的深度融合路徑

INP-CC 不僅打破了預(yù)訓(xùn)練視覺語言模型(VLM)在區(qū)域感知與概念理解上的瓶頸,還展現(xiàn)出將語言模型(LLM)知識(shí)引入計(jì)算機(jī)視覺任務(wù)的巨大潛力。通過構(gòu)建「交互感知」與「語義修正」的雙重引導(dǎo)機(jī)制,INP-CC 精準(zhǔn)引導(dǎo)了 CLIP 的感知能力,為開放詞匯場(chǎng)景下的 HOI 檢測(cè)開辟了新路徑。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
史上最愚蠢營(yíng)救行動(dòng),造成大量人員傷亡,事后拒不道歉……

史上最愚蠢營(yíng)救行動(dòng),造成大量人員傷亡,事后拒不道歉……

極品小牛肉
2024-08-24 19:35:51
出門訪華前,金正恩去了一個(gè)特殊地方,有重要疑問等著中方解決

出門訪華前,金正恩去了一個(gè)特殊地方,有重要疑問等著中方解決

王裕慶
2025-09-04 19:04:57
薛凱琪開了幾場(chǎng)演唱會(huì),給女孩們提了醒:下次再去看好自己男朋友

薛凱琪開了幾場(chǎng)演唱會(huì),給女孩們提了醒:下次再去看好自己男朋友

銀河史記
2025-09-03 23:48:28
窮人突然有錢后能揮霍到什么程度?網(wǎng)友:暴富后的膨脹太可怕了!

窮人突然有錢后能揮霍到什么程度?網(wǎng)友:暴富后的膨脹太可怕了!

特約前排觀眾
2025-07-11 00:05:10
日本專家對(duì)比中日軍事實(shí)力:若發(fā)生空戰(zhàn)和海戰(zhàn),還是日本更強(qiáng)?

日本專家對(duì)比中日軍事實(shí)力:若發(fā)生空戰(zhàn)和海戰(zhàn),還是日本更強(qiáng)?

云上烏托邦
2025-09-04 11:45:33
一張執(zhí)行令,扯下52歲董卿消失遮羞布,十年央視主持生涯功虧一簣

一張執(zhí)行令,扯下52歲董卿消失遮羞布,十年央視主持生涯功虧一簣

簡(jiǎn)讀視覺
2025-04-24 15:10:03
恕我直言!能阻擋日本女排世錦賽奪冠的,僅剩下這2支球隊(duì)!

恕我直言!能阻擋日本女排世錦賽奪冠的,僅剩下這2支球隊(duì)!

田先生籃球
2025-09-03 21:47:49
心理學(xué)上有個(gè)詞叫:踢貓效應(yīng)(一個(gè)人對(duì)親人暴躁,對(duì)外人和氣,意味著什么?“踢貓效應(yīng)”告訴你答案)

心理學(xué)上有個(gè)詞叫:踢貓效應(yīng)(一個(gè)人對(duì)親人暴躁,對(duì)外人和氣,意味著什么?“踢貓效應(yīng)”告訴你答案)

德魯克博雅管理
2025-09-04 17:16:00
NBA提交全明星賽最新模式:兩支美國隊(duì)與一支世界隊(duì) 采用循環(huán)賽制

NBA提交全明星賽最新模式:兩支美國隊(duì)與一支世界隊(duì) 采用循環(huán)賽制

羅說NBA
2025-09-04 06:36:17
“都是一家人”大爺再婚后,兒女6口人一周蹭飯兩次,老伴:拜拜

“都是一家人”大爺再婚后,兒女6口人一周蹭飯兩次,老伴:拜拜

莎莉說情感
2025-08-27 14:10:03
西方專家:中國不可怕,可怕的是這3000噸的大國重器,將改寫規(guī)則

西方專家:中國不可怕,可怕的是這3000噸的大國重器,將改寫規(guī)則

博覽歷史
2025-07-27 20:24:07
洪秀柱在閱兵現(xiàn)場(chǎng)與國民黨抗戰(zhàn)老兵握手合影,力倡銘記歷史

洪秀柱在閱兵現(xiàn)場(chǎng)與國民黨抗戰(zhàn)老兵握手合影,力倡銘記歷史

京彩臺(tái)灣
2025-09-04 16:16:04
西安大獎(jiǎng)賽簽表出爐!丁俊暉和趙心童陷死亡半?yún)^(qū),奧沙利文簽運(yùn)佳

西安大獎(jiǎng)賽簽表出爐!丁俊暉和趙心童陷死亡半?yún)^(qū),奧沙利文簽運(yùn)佳

世界體壇觀察家
2025-09-04 15:43:22
中央巡視組進(jìn)駐上海后,晉升副廳級(jí)不到一年的他任上落馬

中央巡視組進(jìn)駐上海后,晉升副廳級(jí)不到一年的他任上落馬

魯中晨報(bào)
2025-09-04 18:35:11
九三閱兵暴露運(yùn)動(dòng)員體壇地位,這6人能得到國家認(rèn)可,個(gè)個(gè)不一般

九三閱兵暴露運(yùn)動(dòng)員體壇地位,這6人能得到國家認(rèn)可,個(gè)個(gè)不一般

以茶帶書
2025-09-04 15:07:58
破案了!九三閱兵解說員揭曉,原來是他們兩位,都是央視知名主持

破案了!九三閱兵解說員揭曉,原來是他們兩位,都是央視知名主持

小娛樂悠悠
2025-09-04 09:03:04
麒麟芯片強(qiáng)勢(shì)回歸華為發(fā)布會(huì)!余承東官宣麒麟9020

麒麟芯片強(qiáng)勢(shì)回歸華為發(fā)布會(huì)!余承東官宣麒麟9020

手機(jī)中國
2025-09-04 15:04:28
韓勝延擔(dān)任九三閱兵總指揮

韓勝延擔(dān)任九三閱兵總指揮

政知新媒體
2025-09-03 10:02:22
金昊殺妻案:瑤瑤曾是“滄州錦鯉”,免費(fèi)在滄州吃喝玩樂一年

金昊殺妻案:瑤瑤曾是“滄州錦鯉”,免費(fèi)在滄州吃喝玩樂一年

漢史趣聞
2025-09-04 19:03:14
曝馮紹峰景甜閃婚官宣,喬杉轉(zhuǎn)發(fā)爆料帖后秒刪,景甜緊急回應(yīng)

曝馮紹峰景甜閃婚官宣,喬杉轉(zhuǎn)發(fā)爆料帖后秒刪,景甜緊急回應(yīng)

鑫鑫說說
2025-09-04 13:26:04
2025-09-04 21:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11234文章數(shù) 142442關(guān)注度
往期回顧 全部

科技要聞

17999元起!華為發(fā)布三折疊屏手機(jī)新品

頭條要聞

金燦榮:九三閱兵"鋼多人少" 美國沒有的我們也都有了

頭條要聞

金燦榮:九三閱兵"鋼多人少" 美國沒有的我們也都有了

體育要聞

“他就像是身高2米的梅西”

娛樂要聞

墻倒眾人推!胡歌張譯的仇終于有人報(bào)

財(cái)經(jīng)要聞

A股久違的深跌出現(xiàn)了 下一步思路是什么

汽車要聞

對(duì)話仇雨菁:七年磨一劍,芯馳科技的破局之路

態(tài)度原創(chuàng)

旅游
房產(chǎn)
親子
藝術(shù)
家居

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產(chǎn)要聞

臨春、桶井、南丁…三亞開啟新一輪大征收!

親子要聞

開學(xué)一周,娃吃飯不再磨蹭!我的方法簡(jiǎn)單卻有效

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

高級(jí)黑白 體現(xiàn)簡(jiǎn)單生活

無障礙瀏覽 進(jìn)入關(guān)懷版