アリババクラウドは、視覚言語モデルQwen-VLをオープンソース化しました。これは、8月に汎用モデルQwen-7Bと対話型モデルQwen-7B-Chatをオープンソース化した後に続く、新たな大規模言語モデルです。Qwen-VLは中国語と英語に対応しており、知識質問応答、画像キャプション生成、画像質問応答など、様々な用途に使用できます。他のモデルと比較して、Qwen-VLは中国語のオープンな領域での位置特定が可能で、画像内の検出領域を正確にマークできます。Qwen-VLはQwen-7Bをベースに開発され、視覚エンコーダーを導入することで画像入力に対応しています。Qwen-VLは、複数の視覚言語タスクにおけるテストで、同等のモデルの中で最高の結果を達成しました。Qwen-VLはModelScopeなどのプラットフォームで既にオープンソース化されています。マルチモーダルは、大規模言語モデル発展の重要な方向性ですが、依然として技術的な課題が残されています。