AIbaseによると、今日の午前、Zhipu AIは最新の「ハイブリッドシンキング」モデルであるGLM-4.7-Flashをオープンソース化したことを発表しました。30B仕様の中で最も強力な競合モデルとして、このモデルは軽量なデプロイメントの利点を維持しながら、優れた推論とコード作成能力により、同規模モデルの中で性能でトップに立ちました。

性能の先駆け:30B級の「全能王者」
GLM-4.7-Flash は 30B-A3B MoE(混合エキスパート)アーキテクチャを使用しています。これは、全体的なパラメータ数が300億でありながら、実際のタスク処理時に約30億の精鋭パラメータのみがアクティブになることを意味します。この設計により、リソース使用と処理能力の間に完璧なバランスが達成されています。
複数の厳しいベンチマークテストにおいて、GLM-4.7-Flash の成績は目覚ましく、アリババの Qwen3-30B-A3B-Thinking-2507 や OpenAI の GPT-OSS-20B を全面的に上回っています:
ソフトウェアエンジニアリング(SWE-bench Verified): 59.2点を記録し、トップクラスのコード修正能力を示しています。
数学と論理的思考: AIME25では91.6点、GPQA(エキスパートレベルの質問応答)では75.2点を獲得しました。
ツール協働: τ²-Bench は79.5点、BrowseComp は42.8点を記録し、エージェント(Agent)シナリオにおいて非常に競争力があります。
開発者にやさしい:柔軟なローカル配置
このモデルは軽量性と実用性を重視しており、ローカルまたはプライベートクラウド環境でのエージェントアプリケーションに特に適しています。パフォーマンスの安定した発揮を確保するために、GLM-4.7-Flash は主要な推論フレームワークをサポートしています:
vLLM および SGLang: 両方とも main ブランチでサポートされています。vLLMを使用する場合、開発者は
tensor-parallel-sizeおよびspeculative-configなどのパラメータを使って並列処理とデコード速度を最適化できます。SGLangは EAGLE アルゴリズムを使用して推論効率をさらに向上させます。Hugging Face: これにより、
transformersライブラリを通じて直接呼び出しが可能となり、迅速な実験や統合の障壁が低下します。
