本日、メイドー LongCat チームは最新の AI モデルである LongCat-Flash-Thinking-2601 を正式にリリースし、オープンソース化しました。このモデルは、LongCat-Flash-Thinking シリーズのアップグレード版であり、インテリジェントエージェント検索、ツール呼び出し、推論などの主要な評価基準において、現在のオープンソースモデルで最高水準(SOTA)に達しています。

LongCat-Flash-Thinking-2601 の主な強みは、優れたツール呼び出し能力です。この能力により、ツールに依存する複雑なタスクにおいてモデルが優れたパフォーマンスを発揮し、実際のシナリオにおける新しいツールへの適応に必要なトレーニングコストを顕著に低下させます。また、このモデルの「再考モード」は初めてオープンソースとしてオンライン無料体験が可能となり、ユーザーは https://longcat.ai にアクセスして試すことができます。このモードでは、人間の深く考え込むプロセスを模倣し、思考を並列的な思考と要約・統合の2つの段階に分け、思考の包括性と意思決定の信頼性を確保します。
厳密な評価の結果、LongCat-Flash-Thinking-2601 はプログラミング、数学的推論、インテリジェントエージェントのツール呼び出しおよび検索能力など、多数の指標で優れた性能を示しました。プログラミング能力においては、LCB 評価で82.8点を獲得し、同種のモデルの中で上位にランクインしています。数学的推論では、AIME-25 評価で満点の100点を取得し、その分野でのリーダーシップをさらに強固なものにしています。

モデルの汎用性を評価するために、LongCat チームは一種の新しい評価方法を提案しました。この方法では、自動化されたタスク合成プロセスを用い、キーワードに基づいて複雑なタスクをランダムに生成し、モデルのこれらの環境でのパフォーマンスを評価できます。実験の結果、LongCat-Flash-Thinking-2601 は多くのランダムに生成されたタスクにおいて優れたパフォーマンスを維持しており、その強力な汎用性を裏付けています。
訓練過程において、LongCat チームは「環境拡張 + 多環境強化学習」の戦略を採用し、モデルに多様で高強度な訓練環境を提供し、複雑なシナリオでの適応力を顕著に向上させました。さらに、チームはトレーニングデータにノイズ注入を行って、モデルのロバスト性を強化し、API 呼び出しの失敗やデータの欠損などの複雑な状況でも効率的にタスクを完了できるようにしました。
