快手社は、KAT-V1オートシンキング(AutoThink)大規模モデルを正式にリリースし、オープンソース化しました。このモデルは、思考と非思考能力の融合において優れた性能を発揮し、問題の複雑さに応じて自動的に思考モードを調整できます。
KAT-V1には40Bと200Bの2つのバージョンがあります。40Bバージョンは、最新のDeepSeek-R1(パラメータ数6850億)に近い自動思考モードでの性能を示しています。一方、200Bバージョンは、Qwen、DeepSeek、Llamaシリーズのエンドモデルを多数のベンチマークテストで上回っています。
顕著な性能上の優位性
リアルタイムベンチマークテストLiveCodeBench Proでは、KAT-V1の40Bバージョンは閉鎖型モデルに並ぶことができ、多くのオープンソースモデルを上回りました。
快手のKwaipilotチームは技術報告書で、KAT-V1の背後にある複数の技術革新について詳しく説明しています。その中には、新しい長短思考混合モデルトレーニングフレームワークや、新たな強化学習アルゴリズムであるStep-SRPOが含まれます。これらにより、モデルの推論能力和思考密度が大幅に向上しました。
過度な思考の問題を解決
OpenAIがOシリーズモデルを発表して以来、推論モデルの思考方法は「過度な思考」へと進化しており、応答時間が長くなり、ユーザー体験が低下する傾向がありました。
KAT-V1はこの問題に対して最適化を行いました。研究チームは、タスクの複雑さに応じてモデルが深く考えるかどうかを自主的に判断できるようにしたいと考えています。これにより、より効率的な人間と機械の協働が実現されます。快手チームは今年6月に公開したKwaiCoder-AutoThink-previewは、この問題への初期的な解決策であり、KAT-V1はこれをもとにさらに推論能力を改善しました。
イノベーティブなデータ処理とモデル蒸留技術
KAT-V1モデルはQwen2.5-32Bに基づいて拡張されています。チームは大量の思考と非思考データを構築し、予訓練段階で約1000万個のサンプルを使用して、科学、コード、数学などの多分野での能力の汎化を確保しました。独自の異質蒸留フレームワークにより、KAT-V1は教師モデルの知識を効率的に生徒モデルに伝達でき、モデルの初期化コストを大きく削減しました。
モデルの後学習段階では、Kwaipilotチームは強化学習法によりモデルの知能的意思決定能力を向上させました。KAT-V1は学習を通じて、適切な思考モードを選択することができ、複雑な問題においてはDeepSeek-R1-0528の95%以上の性能を達成できます。
現在、KAT-V1の40BバージョンはHugging Faceプラットフォームで利用可能です。また、ユーザーは快手が開発したAI開発アシスタントKwaipilotでこのモデルを体験することもできます。200BバージョンのMoEモデルは現在訓練中であり、今後より強力な機能と応用が期待されます。
モデルオープンソースアドレス:https://huggingface.co/Kwaipilot/KAT-V1-40B
技術報告書アドレス:https://arxiv.org/pdf/2507.08297