近日,來自多家中國科研機構的研究團隊重磅發佈了名爲Infinity-MM的超大規模多模態數據集,並基於該數據集訓練出了一個性能卓越的AI模型Aquila-VL-2B。這一突破爲多模態AI發展注入了新動力。

Infinity-MM數據集規模驚人,共包含四大類數據:1000萬條圖像描述、2440萬條通用視覺指令數據、600萬條精選高質量指令數據,以及300萬條由GPT-4等AI模型生成的數據。研究團隊採用開源AI模型RAM++進行圖像分析和信息提取,並通過獨特的六大類分類系統確保生成數據的質量和多樣性。

數據分析 數據監測 互聯網 大數據 (2)

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

在模型架構方面,Aquila-VL-2B基於LLaVA-OneVision構建,整合了Qwen-2.5語言模型和SigLIP圖像處理技術。研究團隊採用了四階段漸進式訓練方法:從基礎的圖文關聯學習開始,逐步過渡到通用視覺任務、特定指令處理,最後融入合成數據,同時逐步提升圖像分辨率上限。

儘管僅有20億參數規模,Aquila-VL-2B在各項基準測試中表現亮眼。在多模態理解能力測試MMStar中取得54.9%的最佳成績,在數學能力測試MathVista中更是達到59%的高分,顯著超越同類系統。在通用圖像理解測試中,該模型在HallusionBench和MMBench分別獲得43%和75.2%的優異成績。

研究發現,合成數據的引入對模型性能提升貢獻顯著。實驗表明,若不使用這些額外數據,模型性能平均下降2.4%。從第三階段開始,Aquila-VL-2B的性能就顯著超越了InternVL2-2B和Qwen2VL-2B等參考模型,特別是在第四階段,隨着數據量增加,性能提升更爲明顯。

值得一提的是,研究團隊已將數據集和模型向研究社區開放,這將極大促進多模態AI技術的發展。該模型不僅在Nvidia A100GPU上完成訓練,還支持中國自研芯片,展現了強大的硬件適應性。