蘋果和瑞士洛桑聯邦理工學院的研究人員聯合開源了一款名爲4M-21的大規模多模態視覺模型。與其他專門針對特定任務或數據類型進行優化的模型不同,4M-21具有廣泛的通用性和靈活性。儘管只有30億參數,但它可以提供圖像分類、目標檢測、語義分割、實例分割、深度估計、表面法線估計等數十種功能。
該模型的關鍵核心技術是 “離散 tokens” 轉換技術,它可以將各種模態的數據轉換爲統一格式的 tokens 序列數據。無論是圖像類數據、神經網絡特徵圖、向量、結構化數據還是以文本形式表示的數據,都可以轉換成模型可以理解的同一數據格式。這種轉換不僅簡化了模型的訓練,還爲多模態學習和處理奠定了基礎。
產品入口:https://github.com/apple/ml-4m/
在訓練階段,4M-21通過掩碼建模的方法來完成多模態學習。它會隨機遮蓋輸入序列中的部分 tokens,然後基於剩餘未遮蓋的 tokens 預測被遮蓋的部分。這種方法迫使模型學習輸入數據的統計結構和潛在關係,從而捕捉到不同模態間的信息共通性和交互性。掩碼建模不僅提升了模型的泛化能力,還提升了生成任務的準確性。
研究人員對4M-21在圖像分類、目標檢測、語義分割、實例分割、深度估計、表面法線估計以及3D 人體姿態估計等任務中進行了綜合評測。結果顯示,4M-21的多模態處理能力可以媲美當前最先進的模型,在各項任務中表現出色。
劃重點:
- 蘋果和瑞士洛桑聯邦理工學院聯合開源了一款名爲4M-21的大規模多模態視覺模型,具有廣泛的通用性和靈活性。
-4M-21可以提供圖像分類、目標檢測、語義分割、實例分割、深度估計、表面法線估計等數十種功能。
-4M-21的關鍵技術是 “離散 tokens” 轉換技術,可以將各種模態的數據轉換爲統一格式的 tokens 序列數據。