傳統 MoE(混合專家)架構通過增加專家數量提升模型能力,卻常受困於邊際收益遞減與高昂的通信開銷。今日,美團 LongCat 團隊發佈了全新模型 LongCat-Flash-Lite,通過“嵌入擴展(Embedding Expansion)”這一新範式,成功打破了效能瓶頸。

QQ20260206-155117.png

核心突破:嵌入擴展優於專家擴展

LongCat 團隊的研究表明,在特定條件下,擴展嵌入層相比單純增加專家數量能獲得更優的帕累託前沿。基於此,LongCat-Flash-Lite 擁有 685億總參數,但由於採用了 N-gram 嵌入層,每次推理僅需激活 29億至45億參數。其中,超過300億參數被高效分配至嵌入層,利用 N-gram 捕獲局部語義,精準鎖定如“編程命令”等細分場景,顯著提升了理解精度。

QQ20260206-155453.png

垂直優化:從架構到系統的全鏈路進化

爲了將理論上的稀疏優勢轉化爲實際性能,美團在系統層面實施了三重優化:

  1. 參數智能分配:嵌入層參數佔比達46%,利用 O(1) 的查找複雜度避免了計算量隨參數擴容而線性增長。

  2. 專用緩存與內核融合:設計了類似 KV Cache 的 N-gram Cache 機制,並定製 CUDA 內核(如 AllReduce+RMSNorm 融合),大幅降低 I/O 延遲。

  3. 推測解碼協同:通過3步投機推理擴大批次大小,配合常規嵌入層的草案模型,進一步壓縮延遲。

在典型負載下(輸入4K,輸出1K),該模型 API 可提供 500-700token/s 的極速生成速度,支持最長 256K 上下文。

性能表現:智能體與代碼領跑

在多項權威基準測試中,LongCat-Flash-Lite 展現出跨級別的競爭力:

  • 智能體任務:在 $\tau^2$-Bench 的電信、零售、航空三大場景中均獲最高分。

  • 代碼能力:SWE-Bench 準確率達 54.4%,在 TerminalBench(終端命令執行)中以33.75分遠超同類模型。

  • 通用素質:MMLU 得分 85.52,與 Gemini2.5Flash-Lite 旗鼓相當;數學競賽級 AIME24表現穩健。

目前,美團已全面開源模型權重、技術報告及配套推理引擎SGLang-FluentLLM。開發者可通過LongCat API 開放平臺申請試用,每日享有5000萬 tokens 的免費額度。