国内で有名な人工知能チームであるZhipuは、このほど一部の企業向けに新しく開発したGLM-5.1高速版APIを正式にリリースしました。このモデルの通称は「GLM-5.1-highspeed」で、発表されてから業界を驚かせました。その出力速度は驚くべき400 tokens/sに達しています。

この数値は現在の世界中の大規模モデルメーカーのAPI速度の上限を直接更新し、非常に強い技術的な支配力を示しています。これまでの人工知能業界での認識では、モデルの実行速度とサイズは両立することが難しいと考えられていました。高速度は通常、モデルの能力を犠牲にしなければならなかったのです。

業界の常識を打ち破り、エントリーレベルの性能を兼ね備える

しかし、GLM-5.1高速版は「速さ=小さい」という業界の常識を完全に打ち破りました。このモデルは初めて中国製の大規模モデルで、エントリーレベルの技術能力と極めて低い遅延体験を同時に実用環境に持ち込みました。

このモデルはZhipuのGLMチームとTileRTチームが共同で開発しました。両社は従来の動的スケジューリングを捨て、推論エンジン、スケジュールシステム、および下層インフラの3つの面で深くかつ徹底的なシステムレベルの最適化を行いました。

3つの面での最適化により安定した出力を確保

技術的な詳細において、研究開発チームはモデルの構造を再構築し、コア推論パスを改善して単一カードのトランザクション処理を向上させました。また、動的バッチ処理などの手段を通じて、高同時接続状況における遅延を低減しました。さらに、インフラストラクチャに関する協調的な最適化によって、400 TPSが安定して利用可能な生産用の能力となることが保証されました。

この高速モデルには非常に広範な応用の可能性があります。特に応答遅延に厳しい要求があるシナリオに適しています。AIプログラミングやリアルタイム音声インタラクション、または頻繁な商業意思決定など、現在このモデルはZhipu MaaSプラットフォームを通じて一部の企業に対してサービスを提供しています。