アリババの達摩院(ダモ・アカデミー)の通義千問(トンイー・チエンウェン)チームは、2024年8月30日、最新成果であるQwen2-VLモデルの大幅なアップデートを発表しました。Qwen2-VLモデルは、画像認識、動画処理、多言語対応において顕著な向上を遂げ、主要性能指標において新たな基準を打ち立てました。
Qwen2-VLモデルの新たな機能には、視覚情報のより正確な理解と解釈を可能にする強化された画像認識能力、動的な動画コンテンツをリアルタイムで分析できる高度な動画認識能力、複雑な推論と意思決定を行う強力なエージェントに変身させる統合された視覚エージェント機能、そして様々な言語環境でのアクセスと有効性を高める拡張された多言語対応が含まれています。
技術アーキテクチャにおいて、Qwen2-VLは動的な解像度に対応し、画像を分割することなく任意の解像度の画像を処理できるため、モデル入力と画像の固有情報の一貫性を確保します。さらに、Multimodal Rotary Position Embedding(M-ROPE)の革新により、1Dテキスト、2Dビジュアル、3D動画の位置情報を同時に取得し統合することができます。
Qwen2-VL-7Bモデルは、7B規模ながら画像、複数画像、動画入力への対応を維持し、文書理解タスクや画像多言語テキスト理解において優れた性能を発揮します。
同時に、モバイル展開向けに最適化された2Bモデルも発表されました。パラメータ数は2Bと小さいながら、画像、動画、多言語理解において優れた性能を示しています。
モデルリンク:
Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct
Qwen2-VL-7B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct