蘋果和瑞士洛桑聯邦理工學院(EPFL)的研究人員聯合開發了一種任意到任意模態的單一模型,可以在數十種高度多樣化的模態上進行訓練,並對大規模多模態數據集和文本語料庫進行協同訓練。該模型被命名爲4M-21,它在21種不同的模態下進行訓練,比現有的模型至少完成3倍以上的任務,並且不會損失性能。

image.png

該研究採用了4M 預訓練方案,通過擴大模型和數據集的規模、增加訓練模型所涉及的模態類型和數量,並且在多個數據集上進行聯合訓練,可以提升模型的性能和適應性。研究人員使用不同的 tokenization 方法來離散具有不同特徵的模態,如全局圖像嵌入、人體姿態和語義實例。在架構選擇上,該研究採用基於 Transformer 的4M 編碼器 - 解碼器架構,並添加額外的模態嵌入以適應新模態。

image.png

該模型不僅可以開箱即用地執行一系列常見的視覺任務,如 DIODE 表面法線和深度估計、COCO 語義和實例分割、3DPW3D 人體姿態估計等,還能夠生成任意訓練模態、支持幾種方法來執行細粒度和多模態生成,以及可以通過使用其他模態作爲查詢來檢索 RGB 圖像或其他模態。此外,研究人員還在 NYUv2、Hypersim 語義分割和 ARKitScenes 上進行了多模態傳輸實驗。

其重要的功能特點包括:

任意到任意模態:從現有最佳任意到任意模型的7種模態增加到21種不同模態,實現跨模態檢索、可控生成和強大的開箱即用性能。

多樣性支持:添加對更多結構化數據的支持,例如人體姿態、SAM 實例、元數據等等。

Tokenization:使用特定於模態的方法研究不同模態的離散 tokenization,例如全局圖像嵌入、人體姿態和語義實例。

擴展:將模型大小擴展至3B 參數,將數據集擴展至0.5B 樣本。

協同訓練:同時在視覺和語言上協同訓練。

  • 論文地址:https://arxiv.org/pdf/2406.09406

劃重點:

- 蘋果和瑞士洛桑聯邦理工學院(EPFL)研究人員聯合開發了一種任意到任意模態的單一模型,可以在21種不同的模態下進行訓練。

- 該模型可以開箱即用地執行一系列常見的視覺任務,還能夠生成任意訓練模態、支持幾種方法來執行細粒度和多模態生成。

- 研究人員還在 NYUv2、Hypersim 語義分割和 ARKitScenes 上進行了多模態傳輸實驗。