零一万物 Yi-VL 多模態言語モデルは、零一万物 Yi シリーズモデルファミリーの新たなメンバーです。画像とテキストの理解、そして対話生成において卓越した能力を備えています。
Yi-VL モデルは、英語データセット MMMU と中国語データセット CMMMU の両方でトップクラスの成績を収め、複雑な学際的なタスクにおける高い能力を示しました。
Yi-VL-34B は、新しい多模態ベンチマークテスト MMMU において、41.6% の精度で他の多模態大規模モデルを凌駕し、強力な学際的な知識理解と応用能力を明らかにしました。
Yi-VL モデルは、オープンソースの LLaVA アーキテクチャに基づいており、Vision Transformer(ViT)、Projection モジュール、大規模言語モデル Yi-34B-Chat および Yi-6B-Chat を含んでいます。ViT は画像のエンコーディングに使用され、Projection モジュールは画像特徴とテキスト特徴空間のアライメントを実現し、大規模言語モデルは強力な言語理解と生成能力を提供します。
