在人工智能領域,Meta 公司最近推出了 WebSSL 系列模型,這一系列模型的參數規模從3億到70億不等,基於純圖像數據進行訓練,旨在探索無語言監督的視覺自監督學習(SSL)的巨大潛力。這一新研究爲未來的多模態任務帶來了新的可能性,也爲我們理解視覺表徵的學習方式提供了新的視角。
過去,OpenAI 的 CLIP 模型因其在視覺問答(VQA)和文檔理解等多模態任務中的優異表現而備受關注。然而,由於數據集的獲取複雜性及其規模限制,基於語言的學習方法面臨諸多挑戰。爲了應對這一問題,Meta 決定利用自身的 MetaCLIP 數據集(MC-2B)中的20億張圖像進行訓練,完全排除了語言監督的影響。這一策略讓研究者們能夠深入評估純視覺自監督學習的表現,而不被數據和模型規模所限制。
WebSSL 模型採用了兩種主要的視覺自監督學習範式:聯合嵌入學習(DINOv2)和掩碼建模(MAE)。所有模型均使用224×224分辨率的圖像進行訓練,同時凍結視覺編碼器,從而確保結果的差異僅源於預訓練策略。這一系列模型在五個容量層級(ViT-1B 至 ViT-7B)上進行訓練,並通過 Cambrian-1基準測試進行評估,覆蓋了通用視覺理解、知識推理、OCR(光學字符識別)和圖表解讀等16個 VQA 任務。
實驗結果顯示,隨着模型參數規模的增加,WebSSL 在 VQA 任務中的表現有顯著提升,尤其是在 OCR 和圖表任務中,其表現甚至超越了 CLIP。此外,通過高分辨率(518px)微調,WebSSL 在文檔任務中的表現也大幅提升,縮小了與一些高分辨率模型的差距。
值得一提的是,WebSSL 在無語言監督的情況下,依然展現出與一些預訓練語言模型(如 LLaMA-3)良好的對齊性,這意味着大規模視覺模型能夠隱式地學習與文本語義相關的特徵。這爲視覺與語言之間的關係提供了新的思考。
Meta 的 WebSSL 模型不僅在傳統的基準測試中表現出色,也爲未來無語言學習的研究開闢了新的方向。