新智元報道
編輯:KingHZ
【新智元導讀】無需人工標注,吞下17億張圖片,Meta用自監(jiān)督學習煉出「視覺全能王」!NASA已將它送上火星,醫(yī)療、衛(wèi)星、自動駕駛領域集體沸騰。
17億張圖片,Meta訓出70億參數(shù)「視覺巨獸」DINOv3,完全開源了!
通過自監(jiān)督學習(SSL)訓練,DINOv3可生成強大且高分辨率的圖像特征。
在多個密集預測任務中,這是單一固定的視覺主干網絡第一次超越專用解決方案。
DINOv3重新定義計算機視覺性能天花板,在多個基準測試中刷新或逼近最佳成績!
美國的NASA甚至已在火星探索上用上了DINOv3。這是真上天了!
就在大家以為Meta在AI競賽上被淘汰之時,Meta這次總算揚眉吐氣。
而且,這次Meta是真開源:DINOv3不僅可商用,還開源了完整的預訓練主干網絡、適配器、訓練與評估代碼等「全流程」。
項目地址:https://github.com/facebookresearch/dinov3
全部checkpoint:https://huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009
DINOv3亮點如下:
SSL支持在無需標簽的情況下對含17億張圖像、70億參數(shù)的模型進行訓練,適用于標注資源稀缺的場景,包括衛(wèi)星圖像。
生成出色的高分辨率特征,并在密集預測任務上實現(xiàn)最先進的性能。
多樣化的視覺任務和領域應用,全部采用凍結主干(無需微調)。
包含蒸餾后更小的模型(ViT-B、ViT-L和ConvNeXt 變體,以實現(xiàn)靈活部署。
自監(jiān)督學習的新勝利
自監(jiān)督學習無需人工標注數(shù)據(jù)即可獨立學習,已成為現(xiàn)代機器學習領域的主導范式。
大語言模型崛起全在于此:通過在海量文本語料庫上進行預訓練來獲取通用表征。然而,計算機視覺領域的進展卻相對滯后,因為目前最強大的圖像編碼模型在訓練時仍嚴重依賴人工生成的元數(shù)據(jù),例如網絡圖片標題。
DINOv3改變了這一切:
DINOv3提出了新的無監(jiān)督學習技術,極大地減少了訓練所需的時間和資源。
這種免標注的方法尤其適用于標注稀缺、成本高昂或根本無法獲取標注的場景。例如,使用衛(wèi)星影像預訓練的 DINOv3骨干網絡,在樹冠高度估計等下游任務中表現(xiàn)卓越。
不僅能加速現(xiàn)有應用的發(fā)展,DINOv3還有可能解鎖全新的應用場景,推動醫(yī)療保健、環(huán)境監(jiān)測、自動駕駛、零售、制造等行業(yè)的進步,實現(xiàn)更精準、高效的大規(guī)模視覺理解。
史無前例:自監(jiān)督學習超越弱監(jiān)督
DINOv3再次刷新了里程碑——首次證明自監(jiān)督學習(SSL)模型能夠在廣泛任務中超越弱監(jiān)督模型的表現(xiàn)。
DINOv3延續(xù)了DINO算法,不需要任何元數(shù)據(jù)輸入,但這次所需訓練算力僅為以往方法的一小部分,卻依然能產出極其強大的視覺基礎模型。
借助這些全新改進,在競爭激烈的下游任務(如在凍結權重條件下的目標檢測)中,DINOv3也能取得當前最優(yōu)表現(xiàn)。
這意味著研究者和開發(fā)者無需為特定任務進行微調,即可將其直接應用于更廣泛、更高效的場景。
此外,DINO方法并未針對特定圖像模態(tài)進行優(yōu)化,它不僅適用于網絡圖像,還能推廣到那些標注極其困難或成本高昂的領域。
DINOv2已經利用海量無標注數(shù)據(jù),支持了組織病理學、內窺鏡及醫(yī)學影像等方向的診斷與科研工作。而在衛(wèi)星與航空影像領域,數(shù)據(jù)量龐大且復雜,使人工標注幾乎不可行。
DINOv3能夠將這些豐富的數(shù)據(jù)集用于訓練一個通用骨干網絡(single backbone),并跨不同類型的衛(wèi)星圖像,實現(xiàn)環(huán)境監(jiān)測、城市規(guī)劃、災害應對等多種應用。
DINOv3已在現(xiàn)實世界產生了影響。
世界資源研究所(WRI)正在使用新模型監(jiān)測森林砍伐并支持生態(tài)修復,幫助當?shù)貓F體保護脆弱的生態(tài)系統(tǒng)。依托DINOv3,WRI分析衛(wèi)星影像,檢測受影響生態(tài)區(qū)域的樹木損失和土地利用變化。
DINOv3帶來的精度提升,使其能夠自動化氣候金融撥款流程,通過驗證修復成果來降低交易成本,加速資金流向本地小型組織。
例如,與DINOv2相比,在對肯尼亞某地區(qū)的樹冠高度進行測量時,使用衛(wèi)星與航空影像訓練的DINOv3將平均誤差從4.1 米降至1.2 米。
無需微調也能實現(xiàn)高效Scaling
相較前一代DINOv2,DINOv3在規(guī)模上有了大幅提升:
模型參數(shù)擴大了7倍,訓練數(shù)據(jù)量也提升了12倍。
為了驗證它的多樣性,在15項不同的視覺任務和超過60個基準測試上,Meta團隊全面評估了DINOv3。
在各種密集預測(dense prediction)任務中,DINOv3的骨干網絡表現(xiàn)出色,展現(xiàn)出對場景結構和物理屬性的深刻理解。
左右滑動查看
DINOv3 能提取出豐富的密集特征(dense features),為圖像中每個像素生成包含可測量屬性的浮點向量。這些特征不僅能幫助識別物體的細節(jié)結構,還能在不同實例和類別之間實現(xiàn)泛化。
憑借這種強大的表示能力,即便只使用少量標注數(shù)據(jù)和一個簡單的線性模型,再加上一些輕量適配器,也能在 DINOv3上實現(xiàn)穩(wěn)健的密集預測效果。如果再結合更復雜的解碼器,甚至可以在無需對骨干模型進行微調的前提下,在目標檢測、語義分割和相對深度估計等經典計算機視覺任務中達到當前最先進的水平。
由于無需微調,在一次前向計算中,DINOv3 就能同時服務于多個視覺任務,從而多個任務可以共享計算開銷。
這對于那些在邊緣設備上需要并行執(zhí)行多項視覺處理的場景尤為關鍵。
DINOv3出色的通用性和高效率,使它成為此類應用的理想選擇。
NASA的噴氣推進實驗室(JPL)已經在使用 DINOv2 構建火星探測機器人,實現(xiàn)了在極低計算資源下完成多項視覺任務的目標。
適合實際部署
多個模型全開源
DINOv3擴展到了70億參數(shù)規(guī)模,充分展示了自監(jiān)督學習(SSL)的潛力,但這樣的大模型對于很多實際應用來說并不現(xiàn)實。
因此,Meta構建了一個模型家族,覆蓋從輕量級到高性能的不同計算需求,以滿足各類研究和開發(fā)場景。
通過將ViT-7B蒸餾成更小但性能優(yōu)越的版本(如ViT-B和ViT-L),DINOv3在多個評估任務中均超越了同類的CLIP模型。
此外,他們還推出了一系列基于ViT-7B蒸餾的ConvNeXt架構(T、S、B、L),適用于不同計算資源限制下的部署需求。
同時,他們也開放了完整的蒸餾流程,便于社區(qū)在此基礎上繼續(xù)拓展。
參考資料:
https://ai.meta.com/blog/dinov3-self-supervised-vision-model/
https://ai.meta.com/dinov3/
https://ai.meta.com/blog/nasa-jpl-dino-robot-explorers/
https://ai.meta.com/research/publications/dinov3/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.