SuperCLUEは「2025年度中国語大規模モデルベンチマーキングレポート」を正式に発表しました。このレポートは、23の国内外のトップモデルが参加する「オールスター戦」となり、世界のAI戦局における新たな動向を再び明らかにしました。評価項目には数学的推論、コード生成、科学的推論などの6つの主要な次元が含まれており、現在の中国語文脈において各モデルの実際の「戦力」を直感的に示しています。

image.png

総合ランキングでは、海外の閉鎖型モデルが依然として強力な支配力を示しています。Anthropic社のClaude-Opus-4.5-Reasoningは68.25点という高いスコアで首位に輝き、グーグルのGemini-3-Pro-PreviewとオープンAIのGPT-5.2(high)がそれぞれ2位と3位を獲得しました。この3つの巨頭が構成する「第一グループ」は、論理の厳密さや総合的な理解力においてわずかな優位を維持しています。

しかし、国内の巨大モデルのパフォーマンスは驚きであり、以前にも増して格差を縮めています。国内のオープンソース界のリーダーであるKimi-K2.5-Thinkingと閉鎖型モデルの代表であるQwen3-Max-Thinkingは、ともに世界の上位10位にランクインし、それぞれ4位と6位を占めました。嬉しいことに、垂直分野では国内モデルが「部分的な逆転」を達成しています。Kimiはコード生成タスクで世界一を獲得し、Qwen3は数学的推論でグーグルと並んで世界チャンピオンとなりました。

全体の構図を見ると、国内外には対照的な競争状況があります。閉鎖型分野では「海外が先導し、国内が追いかける」ような状況ですが、オープンソース分野では国内モデルが圧倒的な主導権を握っており、国内オープンソースの上位5つが海外の類似モデルに大幅に勝っているのです。このような「開閉共進」の姿勢は、中国語AIエコシステムが高品質な発展のピーク期に入りつつあることを示しています。

注目ポイント:

  • 🏆 海外の巨頭が先導: Claude-Opus-4.5-Reasoningが最高得点を記録し、世界の中国語大規模モデルの戦力ランキングで第1位となりました。海外の閉鎖型モデルは依然として上位3位を独占しています。

  • 🚀 国内モデルの部分的な逆転: Kimi-K2.5-Thinkingがコード生成分野で世界一を獲得し、Qwen3-Max-Thinkingは数学的推論でグーグルのGeminiと並んで世界一となりました。

  • 📊 オープンソースの国内モデルが主導: オープンソースモデルの陣営において、国内モデルのパフォーマンスは海外の競合を大きく上回っており、国内の大規模モデルエコシステムがオープンな協働において持つ独自の優位性を示しています。