近日,微軟研究團隊聯合多所高校的研究人員,發佈了一款名爲 “Magma” 的多模態 AI 模型。這款模型的設計旨在處理和整合圖像、文本和視頻等多種數據類型,以便在數字和物理環境中執行復雜任務。隨着科技的不斷進步,多模態 AI 代理正在被廣泛應用於機器人技術、虛擬助手和用戶界面自動化等領域。
以往的 AI 系統通常專注於視覺 - 語言理解或機器人操作,難以將這兩種能力結合成一個統一的模型。許多現有模型雖然在特定領域內表現良好,但在不同應用場景中的泛化能力較差。例如,Pix2Act 和 WebGUM 模型在 UI 導航方面表現優異,而 OpenVLA 和 RT-2則更適合機器人操控,但它們往往需要分別進行訓練,難以跨越數字和物理環境的界限。
“Magma” 模型的推出,正是爲了克服這些侷限性。它通過引入一套強大的訓練方法,整合多模態理解、動作定位和規劃能力,旨在讓 AI 代理在各種環境中無縫運行。Magma 的訓練數據集包含了3900萬樣本,包括圖像、視頻和機器人動作軌跡。此外,該模型還採用了兩項創新技術:“可標記集”(Set-of-Mark,SoM)和 “軌跡標記”(Trace-of-Mark,ToM)。前者使模型能夠標記 UI 環境中的可操作視覺對象,後者則使其能夠追蹤物體隨時間的移動,提升未來行動的規劃能力。
“Magma” 採用了先進的深度學習架構和大規模的預訓練技術,以優化其在多個領域的表現。模型使用 ConvNeXt-XXL 視覺主幹處理圖像和視頻,LLaMA-3-8B 語言模型負責處理文本輸入。這種架構使 “Magma” 能夠高效整合視覺、語言與動作執行。經過全面的訓練,模型在多個任務上都取得了優異的成績,顯示出強大的多模態理解和空間推理能力。
項目入口:https://microsoft.github.io/Magma/
劃重點:
🌟 Magma 模型經過3900萬多樣本訓練,具備強大的多模態學習能力。
🤖 該模型成功整合視覺、語言和行動,克服了現有 AI 模型的侷限性。
📈 Magma 在多項基準測試中表現出色,顯示出較強的泛化能力和優異的決策執行能力。