最近、SuperCLUEは2025年度の中国語大規模モデルのベンチマーキングレポートを発表し、多くのテクノロジー愛好家の注目を集めました。今回の評価では、23の国内外の大規模モデルが参加し、数学的推論、科学的推論、コード生成などの6つの主要な次元で競い合いました。評価結果によると、海外の非オープンソースモデルは依然としてリードを維持しており、特にAnthropicのClaude-Opus-4.5-Reasoningが68.25点で首位となり、今回の評価の優勝者となりました。

続いてはグーグルのGemini-3-Pro-PreviewとOpenAIのGPT-5.2 (high)で、それぞれ65.59点と64.32点で2位と3位となりました。海外の巨頭たちの実力は依然として注目に値します。ただし、注目すべきは、国内のモデルも今回の評価で驚くべき実力を示したことです。特にオープンソースモデルのKimi-K2.5-Thinkingと非オープンソースモデルのQwen3-Max-Thinkingは、それぞれ61.50点と60.61点で4位と6位にランクインし、良い成績を収めました。

細分化された分野では、国内モデルのパフォーマンスが特に目立ちます。Kimi-K2.5-Thinkingはコード生成タスクで53.33点を記録し、優勝を果たしました。一方、Qwen3-Max-Thinkingは数学的推論タスクでGemini-3-Pro-Previewと並んで80.87点を達成し、首位となりました。これらの成績は、国内モデルが「追従」から「並走」へと進んでいることを示しており、強い追い上げ能力を示しています。

全体的な観点から見ると、海外の非オープンソースモデルはまだ国内モデルを上回っていますが、国内のオープンソースモデルは優れたパフォーマンスを発揮し、トップ5の中で絶対的な優位を占めています。これは、国内オープンソースモデルの強さと成長可能性を示しています。技術の進歩と国内の研究開発の加速とともに、今後の中国語大規模モデル分野にはさらなる驚きや課題が待ち受けているかもしれません。