零一萬物 Yi-VL 多模態語言模型是零一萬物 Yi 系列模型家族的新成員,它在圖文理解和對話生成方面具備卓越的能力。Yi-VL 模型在英文數據集 MMMU 和中文數據集 CMMMU 上都取得了領先成績,展示了在複雜跨學科任務上的實力。Yi-VL-34B 在全新多模態基準測試 MMMU 中以 41.6% 的準確率超越其他多模態大模型,展現了強大的跨學科知識理解和應用能力。Yi-VL 模型基於開源 LLaVA 架構,包含 Vision Transformer(ViT)、Projection 模塊和大規模語言模型 Yi-34B-Chat 和 Yi-6B-Chat。ViT 用於圖像編碼,Projection 模塊實現了圖像特徵與文本特徵空間對齊的能力,大規模語言模型提供了強大的語言理解和生成能力。