近日,來自多家中國機構的研究團隊成功創建了 “Infinity-MM” 數據集,這是目前最大規模的公開多模態 AI 數據集之一,同時訓練出了一款性能卓越的小型新模型 ——Aquila-VL-2B。

該數據集主要包含四大類數據:1000萬條圖像描述、2440萬條一般視覺指令數據、600萬條精選高質量指令數據,以及300萬條由 GPT-4和其他 AI 模型生成的數據。

在生成方面,研究團隊利用現有的開源 AI 模型。首先,RAM++ 模型分析圖像並提取重要信息,隨後生成相關問題和答案。此外,團隊還構建了一種特殊的分類系統,確保生成數據的質量和多樣性。

image.png

這一合成數據生成方法採用了多層次的處理方式,結合了 RAM++ 和 MiniCPM-V 模型,通過圖像識別、指令分類和響應生成,爲 AI 系統提供了精準的訓練數據。

Aquila-VL-2B 模型基於 LLaVA-OneVision 架構,使用 Qwen-2.5作爲語言模型,並採用 SigLIP 進行圖像處理。模型的訓練分爲四個階段,逐步提高複雜性。在第一階段,模型學習了基本的圖像 - 文本關聯;後續階段則包含一般視覺任務、具體指令的執行,以及最終整合合成生成的數據。的圖像分辨率也在訓練逐漸提升。

image.png

測試中,Aquila-VL-2B 憑藉僅有20億參數的體量,在多模態的 MMStar 基測試中以54.9% 的得分下最佳成績。此外,在數學任務中,該模型表現尤爲突出,在 MathVista 測試得分達59%,遠超同類系統。

在通用圖像理解的測試中,Aquila-VL-2B 同樣表現優異,HallusionBench 得分爲43%,MMBench 得分爲75.2%。研究人員表示,合成生成數據的加入顯著提升了模型的表現,若不使用這些額外數據,模型的平均表現將下降2.4%。

此次研究團隊決定將數據集和模型向研究社區開放,訓練過程主要使用 Nvidia A100GPU 及中國本土芯片。Aquila-VL-2B 的成功推出,標誌着開放源代碼模型在 AI 研究中逐漸迎頭趕上傳統閉源系統的趨勢,尤其是在利用合成訓練數據方面展現出良好的前景。

Infinity-MM論文入口:https://arxiv.org/abs/2410.18558

Aquila-VL-2B項目入口:https://huggingface.co/BAAI/Aquila-VL-2B-llava-qwen

劃重點:  

🌐 數據集 “Infinity-MM” 包含1000萬條圖像描述和2440萬條視覺指令數據。  

💡 新模型 Aquila-VL-2B 在多個基準測試中表現優異,打破了同類模型的記錄。  

📈 合成數據的使用顯著提升了模型性能,研究團隊決定向社區開放數據集和模型。