近期,多模態大模型的研究和應用取得了顯著進展。國外公司如OpenAI、Google、Microsoft等推出了一系列先進的模型,國內也有智譜AI、階躍星辰等機構在該領域取得了突破。這些模型通常依賴視覺編碼器來提取視覺特徵並與大語言模型結合,但存在訓練分離導致的視覺歸納偏置問題,限制了多模態大模型的部署效率和性能。
爲解決這些問題,智源研究院聯合大連理工大學、北京大學等高校推出了新一代無編碼器的視覺語言模型EVE。EVE通過精細化訓練策略和額外的視覺監督,將視覺-語言表徵、對齊和推理整合到統一的純解碼器架構中。使用公開數據,EVE在多個視覺-語言基準測試中表現優異,接近甚至優於基於編碼器的主流多模態方法。
EVE的主要特點包括:
原生視覺語言模型:去除視覺編碼器,處理任意圖像長寬比,顯著優於同類型Fuyu-8B模型。
數據和訓練代價少:預訓練使用OpenImages、SAM和LAION等公開數據,訓練時間較短。
透明和高效的探索:爲純解碼器的原生多模態架構提供了高效、透明的發展路徑。
模型結構:
Patch Embedding Layer:通過單層卷積層和平均池化層獲取圖像2D特徵圖,增強局部特徵和全局信息。
Patch Aligning Layer:整合多層網絡視覺特徵,實現與視覺編碼器輸出的細粒度對齊。
訓練策略:
大語言模型引導的預訓練階段:建立視覺和語言之間的初步聯繫。
生成式預訓練階段:提高模型對視覺-語言內容的理解能力。
監督式的微調階段:規範模型遵循語言指令和學習對話模式的能力。
定量分析:EVE在多個視覺語言基準測試中表現優異,與多種主流的基於編碼器的視覺語言模型相當。儘管在準確響應特定指令方面存在挑戰,但通過高效的訓練策略,EVE實現了與帶編碼器基礎的視覺語言模型相當的性能。
EVE展示了無編碼器原生視覺語言模型的潛力,未來可能通過進一步的性能提升、無編碼器架構的優化和原生多模態的構建,繼續推動多模態模型的發展。
論文地址: https://arxiv.org/abs/2406.11832
項目代碼: https://github.com/baaivision/EVE
模型地址: https://huggingface.co/BAAI/EVE-7B-HD-v1.0