最近,蘋果 AI 研究團隊推出了他們的新一代多模態大語言模型(MLLMs)家族 ——MM1.5。這一系列模型能夠結合文本、圖像等多種數據類型,向我們展示了 AI 在理解複雜任務方面的新能力。像視覺問答、圖像生成和多模態數據解讀這樣的任務,都能在這些模型的幫助下得到更好的解決。

image.png

多模態模型的一個大挑戰,就是如何在不同數據類型之間實現有效的交互。過去的模型常常在處理文本豐富的圖像或者細粒度視覺任務時遇到困難。因此,蘋果的研究團隊在 MM1.5模型中引入了創新的數據中心化方法,利用高分辨率的 OCR 數據和合成的圖像描述,來強化模型的理解能力。

image.png

這一方法不僅使 MM1.5在視覺理解和定位任務上超越了以前的模型,同時也推出了兩款專門版的模型:MM1.5-Video 和 MM1.5-UI,分別用於視頻理解和移動界面分析。

MM1.5模型的訓練分爲三個主要階段。

第一階段是大規模預訓練,使用了20億對圖像和文本數據,600百萬個交錯的圖像文本文檔,以及2萬億個僅含文本的 token。

第二階段是通過45百萬個高質量 OCR 數據和700萬條合成描述的持續預訓練,進一步提升文本豐富圖像任務的性能。

最後,在監督微調階段,模型使用經過精心挑選的單圖、多圖和僅文本的數據進行優化,使其更擅長於細緻的視覺引用和多圖推理。

經過一系列評估,MM1.5模型在多個基準測試中表現出色,尤其在處理文本豐富的圖像理解時,比之前的模型有了1.4分的提升。此外,即使是專門針對視頻理解的 MM1.5-Video,憑藉強大的多模態能力,也在相關任務中達到了領先水平。

MM1.5模型家族不僅爲多模態大語言模型設定了新的基準,還展示了其在各類應用中的潛力,從一般的圖像文本理解到視頻和用戶界面分析,均有着出色的表現。

劃重點:

🌟 ** 模型變種 **:包括參數從10億到300億的密集模型和 MoE 模型,確保可擴展性與靈活部署。

📊 ** 訓練數據 **:利用20億對圖像文本對,600百萬個交錯圖像文本文檔,以及2萬億個僅文本的 token。

🚀 ** 性能提升 **:在專注於文本豐富圖像理解的基準測試中,相較於先前模型取得了1.4分的提升。