SuperCLUE-VLMが2026年4月に発表した最新の評価報告書によると、中国語マルチモーダル視覚言語モデル分野で構造的な変化が起こっています。世界中の17種類の主要な大規模モデルを対象とした詳細な横断評価において、中国国内のAI陣営は非常に強力な発展を見せ、中国語の文脈理解において優位性を示すとともに、総合スコアでも海外のトップモデルを上回る成果を収めました。

ビットバイトが首位に、多数の中国製モデルが第一世代に進出

評価結果では、ビットバイト傘下のDoubao-Seed-2.0-Pro-260215が90.66点という高いスコアで総合ランキングの第1位となりました。この成績は以前から注目されていたグーグルのGemini-3.1-Pro-Preview(89.35点)を上回りました。一方で、アリババ傘下のQwen3.5シリーズやセンスノヴァ、ジピューGLMなどの中国製モデルも同様に好成績を収め、ランキング上位に安定して位置しています。それに対して、OpenAIのGPT-5.4やX.AIのGrokなどの海外有名モデルは、今回の中国語マルチモーダルテストでは中位程度の順位にとどまりました。

中国語ビジュアル大モデルの刷新:ドウボーが総合第1位を獲得、国内モデルが海外を全面的に上回る

三大次元を深く解明し、基本的な認知能力が成熟している

今回の評価体系は非常に厳密で、基本的な認知、視覚的推論、視覚的応用の三大核心次元に焦点を当てており、包括的なタスクは一般認識、グラフ分析、医療画像など25の具体的なシナリオを含んでいます。中国製モデルは「基本的な認知」と「データ分析」の領域で特に優れたパフォーマンスを示し、スコアが一般的に90点を超えており、高い技術の熟練度と中国語環境への適応性を示しています。

垂直分野には課題が残る、産業と医療の推論が今後の競争ポイントとなる

総合順位で先頭に立っているものの、評価データは中国製モデルがまだ改善が必要な点もあることを明らかにしています。工業検査や高精度な医療画像など、専門性の強い「視覚的推論」タスクにおいて、国内モデルは世界的な最高水準と比較してまだ向上の余地があり、一部の細分化されたシナリオでのスコア変動が大きいです。