世界中のマルチモーダル大規模モデルの競争状況が更新された。最近、権威ある評価プラットフォームであるSuperCLUE-VLMは2025年12月のマルチモーダル視覚言語モデル総合ランキングを発表し、グーグルのGemini-3-Proが83.64点で断然のリードを確保し、視覚理解と推論分野における圧倒的な優位性を示した。ビーチューツのドゥーパオ大規模モデルは73.15点で上位3位にランクインし、サンシャンテクノロジーのSenseNova V6.5Proは75.35点で第2位を獲得し、国内の大規模モデル全体のパフォーマンスは目覚ましく、中国AIがマルチモーダル分野で急速に追従していることを示している。
評価項目:3つの能力でモデルの「目力」を全面的に測定
SuperCLUE-VLMは3つの主要な側面からモデルの真実の視覚理解能力を評価している:
- 基本認識:画像内の物体、文字、シーンなどの基本要素を識別する;
- 視覚的推論:画像の論理、因果関係、隠れた情報などを理解する;
- 視覚的応用:画像と文章の生成、マルチモーダル質問応答、ツールの呼び出しなどのタスクを遂行する。
Gemini-3-Proが全面的に圧勝、国内モデルが奮起して追いかける
グーグルのGemini-3-Proは3つの指標すべてで大きくリードしている:
- 基本認識:89.01点
- 視覚的推論:82.82点
- 視覚的応用:79.09点
その総合的なパフォーマンスは他の競合モデルを大幅に上回り、グーグルがマルチモーダル分野での技術的な支配的地位を強化している。
国内勢の活躍は目立つ:
- サンシャンのSenseNova V6.5Proは75.35点で第2位を維持し、推論と応用能力がバランスよく整っている;
- ビーチューツのドゥーパオ大規模モデルは73.15点で第3位にランクインし、基本認識の得点は82.70点に達し、一部の国際モデルを上回るが、視覚的推論の面ではやや不足している;
- ベイドのERNIE-5.0-PreviewとアリババのQwen3-VLも続いている、ともに上位5位に入っている。
特に注目すべきは、Qwen3-VLがこのランキングで初めて総得点が70点を突破したオープンソースのマルチモーダルモデルとなったことで、世界中の開発者に高性能で商用可能なオープンベースを提供している。

国際企業の成績は分かれる:Claudeは安定、GPT-5.2は予想外の後退
国際陣営において、AnthropicのClaude-opus-4-5は71.44点で中流以上に位置し、言語理解における優位性を継続している。一方、OpenAIのGPT-5.2(ハイコンフィギュレーション)はわずか69.16点にとどまり、順位がやや後ろに下がったため、業界内での多モーダル能力の最適化方向について議論が広がっている。
AIbaseの観察:マルチモーダル競争が「実用化」の新段階へ
SuperCLUE-VLMのランキングは技術的な順位だけでなく、業界のトレンドも反映している:
- オープンソースモデルの台頭:Qwen3-VLはオープンソース路線でも高性能を達成できることを証明し、技術民主化を促進している;
- 国内モデルがシーンへの焦点を絞る:ドゥーパオやサンシャンのモデルは基本認識で優れた性能を見せ、中国インターネット上の画像と文章の理解、ショートビデオ分析などの頻繁なニーズに合致している;
- 視覚的推論はまだ限界:多くのモデルは複雑な論理や因果関係の推論などの高次タスクで依然として課題を抱えており、それがGeminiが継続してリードしている理由の一つである。
