本文介紹了開源社區正在研發的多模態語言模型LLaVA 1.5,它整合了多個生成AI組件,經調優後計算效率很高,可以在多項任務上達到很高的準確率。LLaVA 1.5使用CLIP作爲視覺編碼器,使用開源LLaMA語言模型,通過MLP連接器進行連接。只需要大約600,000個訓練樣本和1天的時間,就可以在多模態基準測試中擊敗其他開源模型。儘管LLaVA 1.5存在使用限制,但它代表了開源社區正在創新的方向,有望推動開源大模型的發展,爲用戶提供更便捷高效的生成AI工具。