今日,美團 LongCat 團隊正式發佈並開源了最新的 AI 模型 ——LongCat-Flash-Thinking-2601。該模型作爲 LongCat-Flash-Thinking 系列的升級版,在智能體搜索、工具調用及推理等多項核心評測基準上,已達到當前開源模型的最高水平(SOTA)。

LongCat-Flash-Thinking-2601的核心優勢在於其卓越的工具調用能力。這一能力使得模型在面對依賴工具的複雜任務時表現出色,顯著降低了真實場景中對新工具適配的訓練成本。此外,該模型的 “重思考模式” 首次以開源形式提供在線免費體驗,用戶可在 https://longcat.ai 網站上進行嘗試。在這一模式下,模型模擬了人類深思熟慮的過程,將思考分爲並行思考和總結歸納兩個階段,確保思維的全面性和決策的可靠性。
經過嚴謹的評估,LongCat-Flash-Thinking-2601在編程、數學推理、智能體工具調用及搜索能力等多項指標上均表現優異。在編程能力方面,該模型在 LCB 評測中獲得82.8分,位居同類模型前列;數學推理方面,在 AIME-25評測中獲得滿分100分,進一步鞏固了其在該領域的領先地位。

爲了評估模型的泛化能力,LongCat 團隊還提出了一種全新的評測方法,利用自動化任務合成流程,支持用戶基於關鍵詞隨機生成複雜任務,並評估模型在此類環境中的表現。實驗表明,LongCat-Flash-Thinking-2601在多項隨機生成的任務中均保持領先表現,印證了其強大的泛化能力。
在訓練過程中,LongCat 團隊採用了 “環境擴展 + 多環境強化學習” 的策略,爲模型提供了多樣化的高強度訓練環境,顯著提升了其在複雜場景下的適應能力。此外,團隊還對訓練數據進行了噪聲注入,以增強模型的穩健性,使其在面對 API 調用失敗或數據缺失等複雜情況下仍能高效完成任務。
爲了降低開發者的使用門檻,美團 LongCat 團隊同時開放了模型的權重、推理代碼及在線體驗能力,鼓勵開發者積極參與這一開源項目。開發者可通過 GitHub、Hugging Face 和 ModelScope 等平臺獲取資源,並在 https://longcat.ai 進行在線體驗。
