Qwenチームは最近、最新開発のマルチモーダル推論モデルQVQをオープンソース化すると発表しました。これは、人工知能における視覚理解と複雑な問題解決能力において重要な一歩を踏み出したことを意味します。このモデルはQwen2-VL-72Bをベースに構築されており、言語と視覚情報を組み合わせることで、AIの推論能力を向上させることを目的としています。MMMU評価において、QVQは70.3の高得点を獲得し、複数の数学関連ベンチマークテストにおいて、Qwen2-VL-72B-Instructと比較して顕著な性能向上を示しました。
QVQモデルは視覚推論タスクにおいて、特に複雑な分析的思考を必要とする分野で優れた能力を示しました。QVQ-72B-Previewは素晴らしいパフォーマンスを示していますが、チームは言語の混合やコードの切り替えの問題、循環論理に陥る可能性、安全と倫理に関する考慮事項、性能とベンチマークの限界など、モデルのいくつかの限界も指摘しています。チームは、モデルは視覚推論において改善が見られるものの、Qwen2-VL-72Bの能力を完全に代替できるわけではないこと、複数ステップの視覚推論プロセスにおいて、モデルは徐々に画像の内容への関心を失い、幻覚を引き起こす可能性があることを強調しています。
Qwenチームは、MMMU、MathVista、MathVision、OlympiadBenchの4つのデータセットでQVQ-72B-Previewを評価しました。これらのデータセットは、モデルの視覚関連の総合的な理解力と推論能力を評価することを目的としています。QVQ-72B-Previewはこれらのベンチマークテストで優れた結果を示し、主要なモデルとの差を効果的に縮小しました。
QVQモデルの視覚推論タスクへの応用をさらに示すために、Qwenチームはいくつかの例を提供し、技術ブログへのリンクを共有しています。さらに、チームはモデル推論のコード例と、魔搭API-Inferenceを使用してQVQ-72B-Previewモデルを直接呼び出す方法を提供しています。魔搭プラットフォームのAPI-InferenceはQVQ-72B-Previewモデルをサポートしており、ユーザーはAPI呼び出しの方法でモデルを直接使用できます。
モデルリンク:
https://modelscope.cn/models/Qwen/QVQ-72B-Preview
体験リンク:
https://modelscope.cn/studios/Qwen/QVQ-72B-preview
中国語ブログ:
https://qwenlm.github.io/zh/blog/qvq-72b-preview