成人深夜视频网站|日韩高清无码久久|中文a√在线天堂|亚洲黄网站在线看|欧美视频 第二页|日本 久草 天堂|高潮无遮挡黄视频|久久一级内射精品|国产操逼一级视频|五月天婷婷色AV

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型時(shí)代,通用視覺模型將何去何從?

0
分享至



過去幾年,通用視覺模型(Vision Generalist Model,簡稱 VGM)曾是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。它們試圖構(gòu)建統(tǒng)一的架構(gòu),能夠處理圖像、點(diǎn)云、視頻等多種視覺模態(tài)輸入,以及分類、檢測、分割等多樣的下游任務(wù),向著「視覺模型大一統(tǒng)」的目標(biāo)邁進(jìn)。

然而,隨著大語言模型 LLM 的迅猛發(fā)展,研究熱點(diǎn)已經(jīng)悄然發(fā)生轉(zhuǎn)移。如今,多模態(tài)大模型興起,視覺被看作是語言模型眾多輸入模態(tài)中的一種,視覺模態(tài)數(shù)據(jù)被離散化為 Token,與文本一起被統(tǒng)一建模,視覺的「獨(dú)立性」正在被重新定義。

在這種趨勢下,傳統(tǒng)意義上以視覺任務(wù)為核心、以視覺范式為驅(qū)動的通用視覺模型研究,似乎正在逐漸被邊緣化。然而,我們認(rèn)為視覺領(lǐng)域仍應(yīng)保有自己的特色和研究重點(diǎn)。與語言數(shù)據(jù)相比,視覺數(shù)據(jù)具有結(jié)構(gòu)化強(qiáng)、空間信息豐富等天然優(yōu)勢,但也存在視覺模態(tài)間差異大、難替代的挑戰(zhàn)。例如:如何統(tǒng)一處理 2D 圖像、3D 點(diǎn)云和視頻流等異質(zhì)輸入?如何設(shè)計(jì)統(tǒng)一的輸出表示來同時(shí)支持像素級分割和目標(biāo)檢測等不同任務(wù)?這些問題在當(dāng)前的多模態(tài)范式中并未被充分解決。

正因如此,在這個多模態(tài)模型席卷科研與工業(yè)的新時(shí)代,回顧并總結(jié)純視覺范式下的通用視覺模型研究仍然是一件十分有意義的事情。清華大學(xué)自動化系魯繼文團(tuán)隊(duì)最近發(fā)表于 IJCV 的綜述論文系統(tǒng)梳理了該方向的研究進(jìn)展,涵蓋輸入統(tǒng)一方法、任務(wù)通用策略、模型框架設(shè)計(jì)、模型評測應(yīng)用等內(nèi)容,希望能為未來視覺模型的發(fā)展提供參考與啟發(fā)。



  • 論文標(biāo)題:Vision Generalist Model: A Survey
  • 論文鏈接:
  • https://arxiv.org/abs/2506.09954



VGM 到底解決了什么問題?

通用視覺模型是一種能夠處理多種視覺任務(wù)和模態(tài)輸入的模型框架。類似于大語言模型在自然語言處理中的成功,VGM 旨在通過構(gòu)建一個統(tǒng)一的架構(gòu)來解決各種計(jì)算機(jī)視覺任務(wù)。傳統(tǒng)的視覺模型通常針對特定任務(wù)(如圖像分類、目標(biāo)檢測、語義分割等)設(shè)計(jì),而 VGM 通過廣泛的預(yù)訓(xùn)練和共享表示,能夠在不同的視覺任務(wù)之間實(shí)現(xiàn)零樣本(Zero-shot)遷移,從而無需為每個任務(wù)進(jìn)行專門的調(diào)整。

VGM 的關(guān)鍵能力之一是其多模態(tài)輸入的統(tǒng)一處理能力。不同于傳統(tǒng)模型只處理單一類型的視覺數(shù)據(jù),VGM 能夠同時(shí)處理來自多個模態(tài)的數(shù)據(jù),如圖像、點(diǎn)云、視頻等,并通過統(tǒng)一的表示方法將它們映射到共享的特征空間。

此外,VGM 還具備強(qiáng)大的多任務(wù)學(xué)習(xí)能力,能夠在同一個模型中處理多個視覺任務(wù),從圖像識別到視頻分析,所有任務(wù)都可以在一個通用框架下并行處理。

綜述涵蓋了哪些核心內(nèi)容?

數(shù)據(jù) + 任務(wù) + 評測:為通用建模打基礎(chǔ)

VGM 通常使用大規(guī)模、多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練和評估。為了支持多模態(tài)學(xué)習(xí),VGM 使用的訓(xùn)練數(shù)據(jù)集涵蓋了圖像、視頻、點(diǎn)云等多種類型,本綜述列舉并介紹了一些常見的多模態(tài)數(shù)據(jù)集。

任務(wù)方面,本綜述將視覺任務(wù)分為四類:圖像任務(wù)、幾何任務(wù)、時(shí)間序列任務(wù)以及其他視覺相關(guān)任務(wù)。評測方面,主要通過多個綜合基準(zhǔn)來衡量其在多種任務(wù)和數(shù)據(jù)集上的表現(xiàn)。與傳統(tǒng)的單一任務(wù)評測不同,現(xiàn)代評測方法更注重模型的跨任務(wù)泛化和多模態(tài)處理能力。本綜述也對現(xiàn)有通用視覺模型的評測基準(zhǔn)做了充分的調(diào)研與總結(jié)。

模型設(shè)計(jì)范式與技術(shù)補(bǔ)充



現(xiàn)有通用視覺模型的設(shè)計(jì)范式主要集中在如何統(tǒng)一處理不同視覺模態(tài)輸入和多樣化任務(wù)輸出,大致可以分為兩種類型:編碼式框架和序列到序列框架。

編碼式框架(Encoding-based Framework)旨在通過構(gòu)建一個共享的特征空間來統(tǒng)一不同的輸入模態(tài),并使用 Transformer 等模型進(jìn)行編碼。這類框架通常包括領(lǐng)域特定的編碼器來處理不同類型的數(shù)據(jù),如圖像、文本和音頻,然后通過共享的 Transformer 結(jié)構(gòu)進(jìn)行進(jìn)一步處理,最終生成統(tǒng)一的輸出。

而序列到序列框架(Sequence-to-Sequence Framework)則借鑒了自然語言處理中的序列建模方法,將輸入數(shù)據(jù)轉(zhuǎn)換為固定長度的表示,然后通過解碼器生成相應(yīng)的輸出。這些框架特別適合處理具有可變長度輸入輸出的任務(wù),如圖像生成和視頻分析。

盡管有一些工作并不能被定義為通用視覺模型,但它們在聯(lián)合多模態(tài)數(shù)據(jù)輸入、模型架構(gòu)設(shè)計(jì)、協(xié)同處理多任務(wù)輸出等方面做出了卓越的技術(shù)貢獻(xiàn)。本綜述也對這些技術(shù)進(jìn)行了詳盡的討論分析。一些相關(guān)領(lǐng)域的內(nèi)容,如多任務(wù)學(xué)習(xí)、視覺-語言學(xué)習(xí)、開放詞匯,也被用來擴(kuò)充通用視覺模型領(lǐng)域的知識邊界。

此外,作為一個 case study,本綜述對比了收錄了多個主流 VGM 模型在 22 個基準(zhǔn)數(shù)據(jù)集上的評測結(jié)果:



VGM 的未來在哪里?

最后,本綜述總結(jié)了 VGM 的當(dāng)前研究進(jìn)展和面臨的挑戰(zhàn),還強(qiáng)調(diào)了其在實(shí)際應(yīng)用中的潛力和未來發(fā)展方向。

現(xiàn)有 VGM 在多個任務(wù)和多模態(tài)輸入的統(tǒng)一處理方面已經(jīng)取得了顯著的進(jìn)展,但仍面臨著如何優(yōu)化統(tǒng)一框架設(shè)計(jì)、提高訓(xùn)練效率和應(yīng)對大規(guī)模數(shù)據(jù)等挑戰(zhàn)。數(shù)據(jù)獲取和標(biāo)注仍然是 VGM 發(fā)展的瓶頸。

為了解決這一問題,自動化標(biāo)注技術(shù)以及大規(guī)模無監(jiān)督學(xué)習(xí)方法的研究將成為未來的研究重點(diǎn)。然而,隨著模型規(guī)模的擴(kuò)大,VGM 也面臨著倫理問題和偏見的挑戰(zhàn)。大量未標(biāo)注的數(shù)據(jù)中可能包含潛在的偏見,如何確保模型的公平性、透明性和安全性,仍是未來研究中的重要課題。

盡管如此,現(xiàn)有的 VGM 在實(shí)際應(yīng)用中展示了廣泛的潛力。它不僅可以用于傳統(tǒng)的視覺任務(wù),如圖像分類、目標(biāo)檢測和語義分割,還能擴(kuò)展到更復(fù)雜的多模態(tài)任務(wù),如視覺問答、圖像-文本檢索、視頻理解等。這些應(yīng)用涵蓋了智能監(jiān)控、自動駕駛、機(jī)器人等多個領(lǐng)域,推動了 VGM 在實(shí)際場景中的廣泛部署。

希望這篇文章能給研究中的你一些啟發(fā)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
醫(yī)生提醒,肛門一旦出現(xiàn)幾種異樣,腸癌或已悄然臨近

醫(yī)生提醒,肛門一旦出現(xiàn)幾種異樣,腸癌或已悄然臨近

普陀動物世界
2025-09-01 03:57:57
女子入住上海一家酒店維修工突然闖入 當(dāng)事人:報(bào)警后酒店才同意免房費(fèi),考慮起訴

女子入住上海一家酒店維修工突然闖入 當(dāng)事人:報(bào)警后酒店才同意免房費(fèi),考慮起訴

封面新聞
2025-08-31 20:11:57
誰殺死了公交客流?一年虧損四千萬,艱難求生的公交車用三招破困局

誰殺死了公交客流?一年虧損四千萬,艱難求生的公交車用三招破困局

荷蘭豆愛健康
2025-08-20 05:39:53
外媒爆料:美國國際開發(fā)署被關(guān)閉后,數(shù)百萬美元的設(shè)備和物資正在“清倉大甩賣”

外媒爆料:美國國際開發(fā)署被關(guān)閉后,數(shù)百萬美元的設(shè)備和物資正在“清倉大甩賣”

環(huán)球網(wǎng)資訊
2025-08-31 14:37:09
滾出去!中國不是“撿破爛”的:日本混不下去,就想回中方撈金?

滾出去!中國不是“撿破爛”的:日本混不下去,就想回中方撈金?

以絕望揮劍
2025-07-17 21:09:31
司機(jī)給洪學(xué)智開車,發(fā)牢騷說月工資才70多元,洪學(xué)智聽后怎么做

司機(jī)給洪學(xué)智開車,發(fā)牢騷說月工資才70多元,洪學(xué)智聽后怎么做

談古論今歷史有道
2025-08-23 14:00:03
戶外跑步別這么穿了!隱私全暴露了…

戶外跑步別這么穿了!隱私全暴露了…

馬拉松跑步健身
2025-08-01 06:30:07
藏區(qū)三兄弟娶一個老婆,晚上怎么過?女人直言:沒有幸??裳?>
    </a>
        <h3>
      <a href=北緯的咖啡豆
2025-08-13 19:29:09
海南島解放三十周年,鄧華看過文稿后:光寫韓先楚,第四十三軍呢

海南島解放三十周年,鄧華看過文稿后:光寫韓先楚,第四十三軍呢

大運(yùn)河時(shí)空
2025-08-30 13:08:18
LV龍蝦造型手袋售價(jià)55500元!網(wǎng)友:實(shí)在欣賞不來……官方回應(yīng):背起來不奇怪,武漢門店暫無庫存

LV龍蝦造型手袋售價(jià)55500元!網(wǎng)友:實(shí)在欣賞不來……官方回應(yīng):背起來不奇怪,武漢門店暫無庫存

極目新聞
2025-08-29 15:08:56
德國當(dāng)局希望對失業(yè)者實(shí)施嚴(yán)厲制裁

德國當(dāng)局希望對失業(yè)者實(shí)施嚴(yán)厲制裁

墜入二次元的海洋
2025-09-01 04:47:21
1.2 萬億美元買走俄遠(yuǎn)東和西伯利亞,中美成鄰居后世界將如何演變

1.2 萬億美元買走俄遠(yuǎn)東和西伯利亞,中美成鄰居后世界將如何演變

筆墨V
2025-08-31 03:27:03
43歲范冰冰國外被偶遇,白色休閑裝灑脫大氣,又白又瘦毫無年齡感

43歲范冰冰國外被偶遇,白色休閑裝灑脫大氣,又白又瘦毫無年齡感

小喬古裝漢服
2025-08-31 10:20:03
被噴到刪文!格拉利什INS曬照內(nèi)涵被瓜帥棄用:連續(xù)3場首發(fā)真棒!

被噴到刪文!格拉利什INS曬照內(nèi)涵被瓜帥棄用:連續(xù)3場首發(fā)真棒!

直播吧
2025-09-01 04:51:19
上海男子懵了:繳了停車費(fèi)還吃罰單?官方提醒

上海男子懵了:繳了停車費(fèi)還吃罰單?官方提醒

看看新聞Knews
2025-08-30 23:19:33
佛緣變孽緣?王菲被曝與釋永信特殊關(guān)系,天價(jià)捐贈記錄曝光引嘩然

佛緣變孽緣?王菲被曝與釋永信特殊關(guān)系,天價(jià)捐贈記錄曝光引嘩然

勺哥鄉(xiāng)村味道
2025-08-29 17:19:56
只有老師不文明?中學(xué)老師與學(xué)生不文明聊天被辭退,露骨內(nèi)容流出

只有老師不文明?中學(xué)老師與學(xué)生不文明聊天被辭退,露骨內(nèi)容流出

Likepres
2025-08-30 14:57:02
西方軍事專家:“在匈牙利眼中,中國早就是世界最強(qiáng)超級大國了”

西方軍事專家:“在匈牙利眼中,中國早就是世界最強(qiáng)超級大國了”

通文知史
2025-08-29 16:00:03
斯盧茨基:輸球讓我們非常痛心,球隊(duì)陣地進(jìn)攻時(shí)無法創(chuàng)造機(jī)會

斯盧茨基:輸球讓我們非常痛心,球隊(duì)陣地進(jìn)攻時(shí)無法創(chuàng)造機(jī)會

懂球帝
2025-08-31 22:06:49
女子在蒙古發(fā)現(xiàn)異形蝗蟲?手掌般長,屁股有彎刺,網(wǎng)友:山草驢!

女子在蒙古發(fā)現(xiàn)異形蝗蟲?手掌般長,屁股有彎刺,網(wǎng)友:山草驢!

貍貓之一的動物圈
2025-08-31 10:13:27
2025-09-01 06:11:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11188文章數(shù) 142429關(guān)注度
往期回顧 全部

科技要聞

入手iPhone 16還是等17?兩款手機(jī)全面對比

頭條要聞

車輛占道違停小車逆行超車撞車 險(xiǎn)企欲讓占道車擔(dān)責(zé)

頭條要聞

車輛占道違停小車逆行超車撞車 險(xiǎn)企欲讓占道車擔(dān)責(zé)

體育要聞

破2億身家!莎拉波娃的"勝負(fù)腦"

娛樂要聞

胡歌是永遠(yuǎn)都不會離婚的,原因很簡單

財(cái)經(jīng)要聞

罕見熱鬧的8月之后,A股將迎怎樣的9月

汽車要聞

家庭泛越野 大狗PLUS預(yù)售煥新11.28萬起

態(tài)度原創(chuàng)

親子
本地
房產(chǎn)
教育
公開課

親子要聞

孩子不是讀書機(jī)器不是我們家長盲目炫耀學(xué)習(xí)的“利器”分?jǐn)?shù)不值錢

本地新聞

換個城市過夏天 | 夏末狂歡,浪在阜新黃家溝!

房產(chǎn)要聞

顛覆認(rèn)知!海口真正的豪宅作品,終于出現(xiàn)了!

教育要聞

南陽市一中2025級軍訓(xùn)紀(jì)實(shí)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版