蘋果公司最近爲其多模態人工智能模型MM1推出了重大更新,將其升級爲MM1.5版本。這次升級不僅僅是簡單的版本號變更,而是全方位的能力提升,使得模型在各個領域都展現出了更強大的性能。

MM1.5的核心升級在於其創新的數據處理方法。該模型採用了以數據爲中心的訓練方法,精心篩選和優化了訓練數據集。具體而言,MM1.5使用了高清晰度的OCR數據和合成圖像描述,以及優化的視覺指令微調數據混合。這些數據的引入使得模型在文字識別、圖像理解和執行視覺指令等方面都有了顯著提升。

image.png

在模型規模方面,MM1.5涵蓋了從10億到300億參數不等的多個版本,包括密集型和專家混合(MoE)變體。值得注意的是,即使是較小規模的10億和30億參數模型,通過精心設計的數據和訓練策略,也能達到令人印象深刻的性能水平。

image.png

MM1.5的能力提升主要體現在以下幾個方面:文本密集型圖像理解、視覺指代和定位、多圖像推理、視頻理解以及移動UI理解。這些能力使得MM1.5可以應用於更廣泛的場景,如從音樂會照片中識別表演者和樂器、理解圖表數據並回答相關問題、在複雜場景中定位特定物體等。

image.png

image.png

爲了評估MM1.5的性能,研究人員將其與其他先進的多模態模型進行了對比。結果顯示,MM1.5-1B在10億參數規模的模型中表現出色,明顯優於同級別的其他模型。MM1.5-3B的表現超越了MiniCPM-V2.0,並與InternVL2和Phi-3-Vision不相上下。此外,研究還發現,無論是密集型模型還是MoE模型,隨着規模的擴大,性能都會顯著提升。

MM1.5的成功不僅體現了蘋果公司在人工智能領域的研發實力,也爲多模態模型的未來發展指明瞭方向。通過優化數據處理方法和模型架構,即使是較小規模的模型也能實現強大的性能,這對於在資源受限的設備上部署高性能AI模型具有重要意義。

論文地址:https://arxiv.org/pdf/2409.20566