這項由成均館大學(xué)(Sungkyunkwan University)計算機視覺實驗室的文元?。╓onJun Moon)、成賢錫(Hyun Seok Seong)和許在弼(Jae-Pil Heo)教授團隊完成的研究發(fā)表于2025年8月,論文題為"Selective Contrastive Learning for Weakly Supervised Affordance Grounding"。感興趣的讀者可以通過arXiv:2508.07877v1訪問完整論文,研究代碼已在GitHub上公開(github.com/hynnsk/SelectiveCL)。
當我們看到一把椅子時,大腦會自動告訴我們"這是用來坐的";看到一個杯子時,我們知道"這是用來喝水的"。這種理解物體功能的能力叫做"可供性",就像物體在向我們悄悄說話,告訴我們它們能做什么?,F(xiàn)在,成均館大學(xué)的研究團隊正在教會機器這種看似簡單卻非常復(fù)雜的能力。
在現(xiàn)實生活中,我們從小就通過觀察別人使用物品來學(xué)習(xí)這些知識。比如看到媽媽用刀切菜,我們就知道刀的"切"這個功能;看到爸爸坐在椅子上,我們就明白椅子是用來坐的。研究團隊希望機器也能像人類一樣,通過觀看第三人稱視角的互動場景(比如看別人使用物品的視頻),然后在面對新物品時,能夠準確識別出物品的哪個部分可以用來執(zhí)行特定動作。
這個看似簡單的任務(wù)實際上充滿挑戰(zhàn)。就像教一個從未見過自行車的孩子認識自行車一樣,你不能只告訴他"這是自行車",還要讓他知道哪里是坐的地方、哪里是握的地方、哪里是踩的地方。更困難的是,我們不能像老師一樣指著每個部位詳細解釋,而是要讓機器通過觀察別人騎自行車的場景,自己推斷出這些功能區(qū)域。
以往的方法就像一個過分專注于細節(jié)的學(xué)生,總是盯著物體最顯眼的特征,比如看到自行車時只注意到輪子或車架這些明顯的部分,卻忽略了真正重要的功能部位如座椅或把手。這就像一個人學(xué)開車時只注意車的外形好不好看,卻不知道方向盤和剎車在哪里一樣。
為了解決這個問題,研究團隊開發(fā)了一套名為"選擇性對比學(xué)習(xí)"的新方法。這種方法就像培養(yǎng)一個善于觀察的偵探,不僅能發(fā)現(xiàn)重要線索,還能區(qū)分哪些是有用信息,哪些是干擾信息。具體來說,這個方法包含兩個互補的學(xué)習(xí)策略:原型對比學(xué)習(xí)和像素對比學(xué)習(xí)。
一、教會機器識別物體的核心功能區(qū)域
原型對比學(xué)習(xí)的工作原理就像教孩子通過對比來學(xué)習(xí)。當孩子看到媽媽用刀切菜的場景時,我們不僅要讓他知道刀是用來切的,還要讓他明白刀和勺子、筷子等其他廚具的區(qū)別,以及切菜和其他動作(如攪拌、盛湯)的區(qū)別。
在技術(shù)實現(xiàn)上,研究團隊首先讓機器觀察第三人稱視角的互動場景,比如有人正在使用某個物品的視頻。機器需要從這些場景中識別出與動作相關(guān)的物品部位。然后,當機器面對一個單獨的物品圖像時,需要準確定位出可以執(zhí)行該動作的部位。
這個過程的巧妙之處在于"選擇性"策略。就像一個經(jīng)驗豐富的老師知道什么時候該詳細解釋、什么時候該概括說明一樣,這個方法會根據(jù)當前能獲得的信息質(zhì)量來調(diào)整學(xué)習(xí)策略。當機器能夠清晰識別出物品的功能部位時,就專注學(xué)習(xí)這些精確的部位特征;當識別不夠清晰時,就退而求其次,先學(xué)會整體地識別相關(guān)物品,避免被背景信息干擾。
這種靈活的策略設(shè)計解決了以往方法的一個關(guān)鍵問題:傳統(tǒng)方法往往因為過分追求精確性而錯失學(xué)習(xí)機會。就像一個學(xué)生因為聽不懂某個難點就完全放棄學(xué)習(xí),而這種新方法更像一個聰明的學(xué)生,會根據(jù)自己當前的理解水平調(diào)整學(xué)習(xí)內(nèi)容,確保始終在進步。
二、精細化像素級別的功能理解
如果說原型對比學(xué)習(xí)是在教機器理解"大概位置",那么像素對比學(xué)習(xí)就是在訓(xùn)練"精確定位"的能力。這就像教一個人使用筷子,不僅要讓他知道大概握哪個位置,還要精確到每個手指應(yīng)該放在什么地方。
像素對比學(xué)習(xí)的創(chuàng)新在于它能夠處理第一人稱視角的圖像。當我們拿著一個物品時(比如舉著相機準備拍照),這個視角下的物品往往更清晰、更突出,但同時也缺少了使用場景的上下文信息。研究團隊巧妙地利用了這個特點:他們讓機器通過對比第一人稱視角(物品清晰可見)和第三人稱視角(有使用場景但物品可能較小或被遮擋)的圖像來學(xué)習(xí)。
這種對比學(xué)習(xí)的原理基于一個重要觀察:在第一人稱視角中,物品通常更大、更清晰,相應(yīng)的功能部位也更容易被機器的視覺系統(tǒng)捕捉到。通過分析這種差異,機器可以學(xué)會在第一人稱圖像中識別出哪些像素點屬于功能相關(guān)的區(qū)域。
整個像素級學(xué)習(xí)過程就像訓(xùn)練一個藝術(shù)家的眼睛。藝術(shù)家不僅要看到整體構(gòu)圖,還要注意到每一個細微的筆觸和色彩變化。機器通過這種訓(xùn)練,能夠?qū)ξ矬w功能的理解精確到像素級別,大大提高了最終定位的準確性。
三、利用視覺-語言模型增強物體識別
研究團隊還巧妙地借助了CLIP這樣的視覺-語言模型。CLIP就像一個博學(xué)的翻譯官,能夠理解圖像內(nèi)容和文字描述之間的對應(yīng)關(guān)系。當你給它一張圖片和幾個文字描述時,它能告訴你哪個描述最符合圖片內(nèi)容。
在這項研究中,CLIP被用來生成"物體親和度圖"。簡單來說,就是讓機器標記出圖像中哪些區(qū)域最可能包含與特定動作相關(guān)的物品。比如,當輸入動作"握"時,CLIP會在圖像中高亮顯示可能用來握的物品區(qū)域。
這個過程就像給機器配備了一副"功能眼鏡"。通過這副眼鏡,機器看到的不再是普通的圖像,而是帶有功能標注的智能圖像。這些標注幫助機器更好地理解哪些區(qū)域值得重點關(guān)注,哪些區(qū)域可能是無關(guān)的背景信息。
研究團隊還對CLIP的使用方式進行了優(yōu)化。他們采用了ClearCLIP的改進版本,這個版本在處理局部區(qū)域時表現(xiàn)更佳。同時,他們設(shè)計了不同的文字提示策略來處理不同視角的圖像:對于第一人稱視角的圖像,使用"用來[動作]的物品"這樣的描述;對于第三人稱視角的圖像,還額外加入了"人在使用物品"的描述,然后將兩種描述的結(jié)果結(jié)合起來,獲得更準確的物品定位。
四、智能化的部件發(fā)現(xiàn)算法
發(fā)現(xiàn)物品的功能部件是整個系統(tǒng)的關(guān)鍵環(huán)節(jié),就像福爾摩斯破案時需要從眾多線索中找出關(guān)鍵證據(jù)一樣。研究團隊為此開發(fā)了兩套互補的部件發(fā)現(xiàn)策略,分別針對第三人稱和第一人稱視角的圖像。
對于第三人稱視角的圖像,機器面臨的挑戰(zhàn)就像在觀看一部電影時試圖理解劇情細節(jié):畫面中的物品可能較小、角度不佳,甚至部分被人體遮擋。研究團隊改進了現(xiàn)有的聚類算法,就像給偵探提供了更好的放大鏡。他們首先利用機器學(xué)習(xí)模型找出圖像中與互動相關(guān)的區(qū)域,然后運用K-means聚類算法將這些區(qū)域分成三類:背景、功能相關(guān)部位和其他部位。
這個分類過程的巧妙之處在于引入了"可靠性評估"機制。就像經(jīng)驗豐富的偵探會評估每條線索的可信度一樣,系統(tǒng)會通過對比不同視角的信息來判斷發(fā)現(xiàn)的部件是否真的對應(yīng)于物品的功能區(qū)域。只有通過可靠性測試的部件才會被用于后續(xù)的學(xué)習(xí)過程。
對于第一人稱視角的圖像,機器面臨的是另一種挑戰(zhàn):雖然物品清晰可見,但缺少使用場景的上下文信息。研究團隊的解決方案頗具創(chuàng)意:他們利用了基礎(chǔ)模型的一個特性——這些模型在處理清晰、突出的物品時響應(yīng)更強烈。通過比較第一人稱和第三人稱視角中機器對同一物品的響應(yīng)差異,系統(tǒng)可以推斷出第一人稱圖像中哪些區(qū)域最可能對應(yīng)功能部位。
這種方法就像通過對比照片的清晰度來判斷拍攝距離一樣直觀。當某個物品在第一人稱視角中引起強烈響應(yīng),而在第三人稱視角中響應(yīng)較弱時,這種差異本身就提供了有價值的信息,幫助系統(tǒng)定位功能相關(guān)的像素區(qū)域。
五、實驗結(jié)果展現(xiàn)顯著性能提升
研究團隊在兩個主要數(shù)據(jù)集上測試了他們的方法:AGD20K和HICO-IIF。這就像在兩個不同的考場測試學(xué)生的能力,確保方法的普適性和可靠性。
在AGD20K數(shù)據(jù)集上,該方法在已見場景中將KLD指標(數(shù)值越低越好)從之前最佳的1.176降低到1.124,在未見場景中從1.335降低到1.243。這些數(shù)字背后的意義就像考試成績的提升:系統(tǒng)在理解物品功能方面變得更加準確和可靠。
更令人印象深刻的是在處理未見過的物品類別時的表現(xiàn)。這就像學(xué)生面對從未見過的題型仍能保持優(yōu)秀成績一樣,展現(xiàn)了真正的理解能力而不是單純的記憶。在這種挑戰(zhàn)性測試中,新方法顯示出了顯著的優(yōu)勢,這對于實際應(yīng)用具有重要意義——畢竟在現(xiàn)實世界中,我們經(jīng)常會遇到新的物品和使用場景。
研究團隊還通過詳細的消融實驗(就像拆解機器檢查每個零件的作用一樣)驗證了各個組件的貢獻。結(jié)果顯示,原型對比學(xué)習(xí)、像素對比學(xué)習(xí)和校準過程都對最終性能有積極貢獻,證明了設(shè)計的合理性。
從定性結(jié)果來看,新方法在定位功能部位時顯示出了更高的精確度。比如在識別自行車的"騎"這個功能時,以往的方法可能會錯誤地突出顯示車輪或車架等顯眼但非功能性的部位,而新方法能夠更準確地定位到座椅和把手等真正與騎行動作相關(guān)的區(qū)域。
六、方法的創(chuàng)新價值和技術(shù)突破
這項研究的核心創(chuàng)新在于"選擇性"策略的設(shè)計。就像一個善于變通的老師會根據(jù)學(xué)生的理解程度調(diào)整教學(xué)方法一樣,這個系統(tǒng)能夠根據(jù)當前可獲得信息的質(zhì)量來動態(tài)調(diào)整學(xué)習(xí)策略。
傳統(tǒng)方法往往采用"一刀切"的策略:要么追求高精度的部件識別,要么完全依賴粗粒度的分類信息。這就像一個嚴格的老師要求所有學(xué)生都必須達到相同的標準,結(jié)果可能導(dǎo)致一些學(xué)生跟不上而放棄學(xué)習(xí)。新方法的靈活性確保了系統(tǒng)能夠始終從可用信息中學(xué)到有價值的內(nèi)容。
另一個重要創(chuàng)新是將原型級和像素級的對比學(xué)習(xí)有機結(jié)合。這種多尺度的學(xué)習(xí)策略就像培養(yǎng)一個藝術(shù)家既要有宏觀的構(gòu)圖能力,又要有細致的描繪技巧。原型級學(xué)習(xí)幫助系統(tǒng)理解整體的功能區(qū)域分布,像素級學(xué)習(xí)則確保了精確的邊界定位。
技術(shù)架構(gòu)的設(shè)計也體現(xiàn)了研究團隊的深度思考。他們巧妙地利用了現(xiàn)有基礎(chǔ)模型(如DINO和CLIP)的優(yōu)勢,而不是從零開始構(gòu)建全新的系統(tǒng)。這種"站在巨人肩膀上"的方法不僅提高了效率,還確保了方法的實用性和可復(fù)現(xiàn)性。
研究還引入了一種新的校準機制,通過結(jié)合物體親和度圖來優(yōu)化最終的功能區(qū)域定位。這就像給照片加上了一個智能濾鏡,能夠自動移除噪聲并增強關(guān)鍵信息的顯示效果。
七、實際應(yīng)用前景和社會意義
這項研究的應(yīng)用前景極其廣闊,幾乎可以說將改變我們與智能系統(tǒng)交互的方式。在機器人領(lǐng)域,具備可供性理解能力的機器人將能夠更自然地融入人類環(huán)境。比如家庭服務(wù)機器人看到餐桌上的杯子時,不僅知道這是一個杯子,還知道應(yīng)該握住把手部分來移動它,應(yīng)該從杯口倒水進去。
在自動駕駛領(lǐng)域,這種技術(shù)可以幫助車輛更好地理解道路環(huán)境中各種物體的功能屬性。比如識別出路邊的長椅是供人休息的(不是障礙物),垃圾桶是固定放置的(可能需要避讓),交通標志是提供信息的(需要識別內(nèi)容)等等。
對于增強現(xiàn)實和虛擬現(xiàn)實應(yīng)用,可供性理解能夠讓數(shù)字系統(tǒng)提供更智能的交互提示。當用戶戴著AR眼鏡看到一個復(fù)雜的機器設(shè)備時,系統(tǒng)可以自動標識出各個操作部位,提供直觀的使用指導(dǎo)。
在輔助技術(shù)領(lǐng)域,這項研究對視覺障礙人群具有特殊意義。智能導(dǎo)航設(shè)備可以通過語音描述告訴用戶"前方三步有一把可以坐的椅子"、"右手邊有一個可以推的門"等具體的功能信息,而不是簡單的物體名稱。
電商和在線購物平臺也可以從中受益。通過分析商品圖片,系統(tǒng)可以自動提取功能相關(guān)的特征,為用戶提供更精準的搜索和推薦服務(wù)。比如用戶搜索"適合辦公的椅子"時,系統(tǒng)不僅會匹配"椅子"這個類別,還會重點關(guān)注座椅、靠背、扶手等功能部位的特征。
八、技術(shù)實現(xiàn)的深層原理
從技術(shù)實現(xiàn)的角度來看,這項研究展現(xiàn)了多個深層的機器學(xué)習(xí)原理。對比學(xué)習(xí)的核心思想是讓機器通過比較來學(xué)習(xí)差異和相似性,就像人類通過對比不同事物來理解概念一樣。研究團隊將這個原理擴展到了可供性學(xué)習(xí)領(lǐng)域,設(shè)計了新穎的正負樣本構(gòu)造策略。
在原型對比學(xué)習(xí)中,系統(tǒng)會構(gòu)造多種類型的原型:正面原型代表功能相關(guān)的區(qū)域,負面原型包括背景區(qū)域和其他動作類別的功能區(qū)域。這種設(shè)計確保了機器不僅能識別目標功能,還能將其與其他功能區(qū)分開來。就像教孩子認識蘋果時,不僅要告訴他蘋果長什么樣,還要讓他知道蘋果和橘子、梨的區(qū)別。
像素級對比學(xué)習(xí)則更加精細化,它在圖像的每個像素點上進行判斷:這個像素屬于功能區(qū)域嗎?通過讓功能相關(guān)的像素彼此"吸引",功能無關(guān)的像素相互"排斥",系統(tǒng)逐漸學(xué)會了精確的功能區(qū)域邊界。
損失函數(shù)的設(shè)計體現(xiàn)了研究團隊的精心考慮。他們使用了分層的學(xué)習(xí)目標:分類損失確保系統(tǒng)理解基本的動作類別,原型對比損失促進區(qū)域級的功能理解,像素對比損失實現(xiàn)精確的邊界定位。這種多目標優(yōu)化就像培養(yǎng)一個全才學(xué)生,既要有扎實的基礎(chǔ)知識,又要有專業(yè)技能,還要有精細的執(zhí)行能力。
溫度參數(shù)和閾值的調(diào)節(jié)機制也很巧妙。溫度參數(shù)控制著對比學(xué)習(xí)的"嚴格程度":溫度高時學(xué)習(xí)較為寬松,溫度低時要求更精確的匹配。各種閾值參數(shù)則像是系統(tǒng)的"判斷標準",決定什么時候使用部件級信息,什么時候退回到物體級信息。
九、與現(xiàn)有方法的深度對比
相比于現(xiàn)有的弱監(jiān)督可供性定位方法,這項研究在多個維度上實現(xiàn)了突破。傳統(tǒng)的知識蒸餾方法就像一個嚴格的老師,只在學(xué)生完全理解時才進行教學(xué),而新方法更像一個耐心的導(dǎo)師,總能找到合適的教學(xué)內(nèi)容。
以LOCATE方法為例,它只在能夠可靠識別功能部件時才進行學(xué)習(xí),這導(dǎo)致學(xué)習(xí)機會的大量浪費。就像一個學(xué)生因為某道難題不會做就放棄整個章節(jié)的學(xué)習(xí)一樣。新方法通過引入對象級學(xué)習(xí)作為備選方案,確保系統(tǒng)始終在學(xué)習(xí)有用的信息。
相對于那些依賴大型語言模型的最新方法,這項研究展現(xiàn)了"少而精"的優(yōu)勢。雖然沒有使用GPT-4或其他大規(guī)模模型,但通過精心設(shè)計的學(xué)習(xí)策略和巧妙的信息融合,實現(xiàn)了更好的性能。這就像一個技巧嫻熟的廚師用簡單的食材做出美味佳肴,證明了方法設(shè)計的重要性超過了模型規(guī)模。
在處理未見物體類別時的優(yōu)勢特別明顯。這種泛化能力的提升歸功于對比學(xué)習(xí)的本質(zhì):它學(xué)習(xí)的是功能區(qū)域與非功能區(qū)域之間的關(guān)系,而不是特定物體的外觀特征。就像學(xué)會了游泳的人可以在不同的水域游泳一樣,掌握了功能理解原理的系統(tǒng)可以處理各種新的物體。
實驗結(jié)果也證實了這種設(shè)計理念的正確性。在定性比較中可以看到,其他方法經(jīng)常被物體的顯眼特征"誤導(dǎo)"——比如在識別自行車的"騎"功能時錯誤地關(guān)注車輪,在識別杯子的"喝"功能時關(guān)注杯身的圖案。新方法則能夠更準確地定位到真正的功能區(qū)域。
十、研究的局限性和未來發(fā)展方向
盡管這項研究取得了顯著成果,但研究團隊也誠實地承認了一些局限性。當前方法主要處理的是相對簡單的人-物交互場景,對于復(fù)雜的多步驟操作或多人協(xié)作場景還有改進空間。就像學(xué)會了基礎(chǔ)數(shù)學(xué)的學(xué)生需要進一步學(xué)習(xí)高等數(shù)學(xué)一樣,這個系統(tǒng)也需要在更復(fù)雜的場景中得到進一步訓(xùn)練和優(yōu)化。
數(shù)據(jù)集的規(guī)模和多樣性也是一個考慮因素。雖然AGD20K和HICO-IIF已經(jīng)是該領(lǐng)域的標準數(shù)據(jù)集,但相比于其他計算機視覺任務(wù)的大規(guī)模數(shù)據(jù)集,可供性理解的訓(xùn)練數(shù)據(jù)仍然相對有限。這就像讓學(xué)生只看少量例題就要掌握整個學(xué)科一樣具有挑戰(zhàn)性。
計算效率方面也有優(yōu)化空間。當前方法需要處理多種類型的對比學(xué)習(xí)和復(fù)雜的特征融合,這在實際部署時可能帶來計算負擔。未來的研究可能需要在保持性能的同時提高計算效率,就像工程師需要讓汽車既快又省油一樣。
跨模態(tài)信息的融合還可以進一步深化。雖然現(xiàn)在已經(jīng)結(jié)合了視覺和文本信息,但聲音、觸覺等其他模態(tài)的信息也可能對可供性理解有所幫助。比如刀具切割時的聲音、材料的質(zhì)地等都可能提供額外的功能線索。
實時性能也是實際應(yīng)用中的重要考慮因素。當前方法主要在離線環(huán)境中測試,但在機器人或自動駕駛等實時應(yīng)用中,系統(tǒng)需要在毫秒級別內(nèi)做出判斷。這就像要求學(xué)生不僅要會做題,還要做得足夠快一樣。
說到底,這項由成均館大學(xué)團隊完成的研究代表了機器智能向人類智能邁進的重要一步。通過讓機器學(xué)會理解物體的功能屬性,我們正在構(gòu)建更智能、更自然的人機交互方式。這不僅僅是技術(shù)的進步,更是對人類認知過程深度理解的體現(xiàn)。
歸根結(jié)底,這項研究最令人興奮的地方在于它的實用性和普適性。不像那些只存在于實驗室中的研究,可供性理解技術(shù)有著明確的應(yīng)用前景和社會價值。從幫助機器人更好地服務(wù)人類,到讓AI系統(tǒng)更好地理解我們的世界,這種技術(shù)將在未來的智能社會中發(fā)揮重要作用。
研究團隊通過巧妙的技術(shù)設(shè)計和嚴謹?shù)膶嶒烌炞C,證明了選擇性對比學(xué)習(xí)方法的有效性。更重要的是,他們?yōu)檫@個領(lǐng)域提供了新的思路:不是簡單地追求更大的模型或更多的數(shù)據(jù),而是通過深入理解問題本質(zhì)來設(shè)計更智能的解決方案。這種研究理念值得整個人工智能領(lǐng)域?qū)W習(xí)和借鑒。
有興趣深入了解技術(shù)細節(jié)的讀者可以訪問論文的完整版本,研究團隊也慷慨地公開了實現(xiàn)代碼,為后續(xù)研究提供了堅實的基礎(chǔ)。這種開放的研究態(tài)度體現(xiàn)了科學(xué)精神,也為推動整個領(lǐng)域的發(fā)展做出了貢獻。
Q&A
Q1:選擇性對比學(xué)習(xí)是什么?它是如何工作的?
A:選擇性對比學(xué)習(xí)是成均館大學(xué)團隊開發(fā)的一種新方法,讓機器像人類一樣通過觀察學(xué)習(xí)物體功能。它包含兩個核心策略:原型對比學(xué)習(xí)和像素對比學(xué)習(xí)。就像培養(yǎng)一個善于觀察的偵探,這個方法能根據(jù)信息質(zhì)量動態(tài)調(diào)整學(xué)習(xí)策略——當能清晰識別功能部位時就精確學(xué)習(xí),識別不清時就先學(xué)習(xí)整體物體,避免被背景干擾。
Q2:這項技術(shù)在實際生活中有什么用處?
A:應(yīng)用前景非常廣泛。家庭服務(wù)機器人可以學(xué)會正確抓取物品的功能部位,自動駕駛汽車能更好理解路邊物體的用途,AR眼鏡可以智能標識設(shè)備的操作部位,輔助技術(shù)能為視覺障礙人群提供更詳細的環(huán)境描述。簡單說,這讓機器真正"懂得"物品該怎么用,而不只是識別物品名稱。
Q3:為什么說這種方法比以往技術(shù)更先進?
A:傳統(tǒng)方法就像嚴格的老師,只在完全理解時才學(xué)習(xí),經(jīng)常錯失學(xué)習(xí)機會。而新方法像耐心的導(dǎo)師,總能找到合適的教學(xué)內(nèi)容。它不僅能識別功能部位,還能區(qū)分不同動作和背景信息。更重要的是,在面對從未見過的物品時仍能保持優(yōu)秀表現(xiàn),這說明它學(xué)到的是真正的功能理解原理,而不是簡單記憶。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.