AIbaseによると、今日の午前、Zhipu AIは最新の「ハイブリッドシンキング」モデルであるGLM-4.7-Flashをオープンソース化したことを発表しました。30B仕様の中で最も強力な競合モデルとして、このモデルは軽量なデプロイメントの利点を維持しながら、優れた推論とコード作成能力により、同規模モデルの中で性能でトップに立ちました。

QQ20260120-085557.png

性能の先駆け:30B級の「全能王者」

GLM-4.7-Flash は 30B-A3B MoE(混合エキスパート)アーキテクチャを使用しています。これは、全体的なパラメータ数が300億でありながら、実際のタスク処理時に約30億の精鋭パラメータのみがアクティブになることを意味します。この設計により、リソース使用と処理能力の間に完璧なバランスが達成されています。

複数の厳しいベンチマークテストにおいて、GLM-4.7-Flash の成績は目覚ましく、アリババの Qwen3-30B-A3B-Thinking-2507 や OpenAI の GPT-OSS-20B を全面的に上回っています:

  • ソフトウェアエンジニアリング(SWE-bench Verified): 59.2点を記録し、トップクラスのコード修正能力を示しています。

  • 数学と論理的思考: AIME25では91.6点、GPQA(エキスパートレベルの質問応答)では75.2点を獲得しました。

  • ツール協働: τ²-Bench は79.5点、BrowseComp は42.8点を記録し、エージェント(Agent)シナリオにおいて非常に競争力があります。

開発者にやさしい:柔軟なローカル配置

このモデルは軽量性と実用性を重視しており、ローカルまたはプライベートクラウド環境でのエージェントアプリケーションに特に適しています。パフォーマンスの安定した発揮を確保するために、GLM-4.7-Flash は主要な推論フレームワークをサポートしています:

  • vLLM および SGLang: 両方とも main ブランチでサポートされています。vLLMを使用する場合、開発者は tensor-parallel-size および speculative-config などのパラメータを使って並列処理とデコード速度を最適化できます。SGLangは EAGLE アルゴリズムを使用して推論効率をさらに向上させます。

  • Hugging Face: これにより、transformers ライブラリを通じて直接呼び出しが可能となり、迅速な実験や統合の障壁が低下します。

市場からのフィードバック:軽量化を犠牲にしないパフォーマンスの飛躍