近日,美團正式發佈其最新的開源大語言模型 LongCat(龍貓),旨在推動人工智能技術的發展和應用。該模型的發佈不僅標誌着美團在AI領域的又一重要進展,也爲開發者和研究人員提供了一個功能強大的新工具。
LongCat 的核心版本 LongCat-Flash 擁有560億個參數,其核心優勢在於創新的混合專家(MoE)架構。這種架構通過動態計算機制,根據上下文需求僅激活18.6B至31.3B的參數(平均約27B),大幅優化了計算效率。這使得 LongCat 在推理過程中能達到每秒超過100個標記的處理能力,展現了卓越的性能。

在技術實現上,美團特別注重模型的訓練穩定性與擴展性。通過一系列優化策略,LongCat 能夠在超過十萬個加速器的規模上進行高效訓練,並實現低延遲推理。此外,模型設計考慮到了參數激活的動態分配,確保在不同任務下的計算負載保持一致。
爲了提升模型能力,LongCat 採用了多階段訓練管道。初期訓練旨在構建基礎模型,並通過數據融合策略進行優化;後期訓練則進一步增強了其推理和編碼能力,並將上下文長度擴展至128k,以滿足更復雜的任務需求。
評估結果顯示,LongCat 在多個基準測試中的表現與業界領先模型相當,特別是在 MMLU、數學推理和通用推理等領域展現出良好的準確率。這些成績不僅證明了LongCat的技術實力,也爲其在實際應用中的潛力奠定了基礎。
美團表示,通過開放 LongCat 這一強大模型,希望能夠促進AI技術的共享與發展,爲更多開發者提供便利,從而推動整個行業的進步。LongCat的開源,無疑將成爲未來AI應用的有力助手。
地址:https://longcat.chat/
