アリババのQwen3-VLは、第三者の空間推論ランキング「SpatialBench」で上位2位を獲得しました。Qwen3-VLは13.5点、Qwen2.5-VLは12.9点で、Gemini3.0Pro Preview(9.6点)やGPT-5.1(7.5点)を大きくリードし、人間のベースライン80点にさらに近づいています。

image.png

ランキングの特徴  

SpatialBenchは2D/3Dの空間・構造・経路推論に注力し、回路分析やCADエンジニアリング、分子生物学などの複雑なタスクを含んでおり、「身体知能の試金石」として認識されています。

モデルの特徴  

- 3D検出のアップグレード: Qwen3-VLは回転ボックス出力と深度推定ヘッドを追加し、遮蔽状況でのAPが18%向上し、物体の方位や視角の変化を判断できるようになりました。

- ビジュアルプログラミング: スケッチや10秒の動画を入力することで、実行可能なPython+OpenCVコードを生成でき、「見えるものを即座に実行する」ことが可能です。

- サイズの多様性: 2B/4B/8B/32Bの密なモデルおよび30B-A3B、235B-A22BのMoEバージョンを提供しており、推論版は32の主要な能力テストでGemini2.5-Proを平均で6.4ポイント上回っています。

オープンソースのスケジュール  

Qwen2.5-VLはすでに全量オープンソース化されています。Qwen3-VLは2025年第二四半期に重みとツールチェーンが公開され、同時に千問アプリで無料体験も開始される予定です。

導入の進展