高效MoE架構重塑邊緣AILiquid AI推出的LFM2-8B-A1B是其LFM2系列的首個混合專家(Mixture-of-Experts, MoE)模型,總參數規模達8.3B,但每token僅激活約1.5B參數。這種稀疏激活機制在保持高表示能力的同時,大幅降低計算負載,使其適用於資源受限的設備端場景。不同於傳統雲端MoE模型,該設計針對實時交互優化,挑戰了“小規模MoE不高效”的行業認知。

image.png

模型基於LFM2混合骨幹架構,包括18個門控短卷積塊和6個分組查詢注意力(GQA)塊。除前兩層保持稠密以確保穩定性外,其餘層均集成稀疏MoE前饋網絡。每層配備32個專家,僅激活top-4專家,並採用歸一化sigmoid路由器結合自適應偏置,實現負載均衡。支持32K上下文長度,兼容英文、阿拉伯文、中文、法文、德文、日文、韓文和西班牙文等多語言。

訓練與性能:12T令牌鑄就3-4B級能力LFM2-8B-A1B通過約12T令牌的預訓練實現,包括55%英文、25%多語言和20%代碼數據分佈。隨後採用Liquid Preference Alignment(長度歸一化DPO/APO-Zero融合)進行後訓練,使用混合BF16/FP8精度,提升訓練效率3倍以上。

image.png

在基準測試中,該模型展現出超越同規模競爭者的實力:

  • 知識與指令跟隨:MMLU-Pro得分37.4(較LFM2-2.6B提升11.5),IFEval77.6,Multi-IF58.2。
  • 數學能力:GSM8K84.4,GSMPlus64.8,MATH50074.2。
  • 多語言處理:MGSM72.4,MMMLU55.3。
  • 編碼與寫作:HumanEval+69.5,LiveCodeBench v621.0,EQ-Bench44.2。

整體而言,其輸出質量媲美3-4B稠密模型,在多輪對話、創意寫作、RAG檢索增強生成和工具調用等任務中表現出色。部署與集成:5倍加速,適配主流框架LFM2-8B-A1B在CPU和GPU上的推理速度顯著領先。

在AMD Ryzen AI9HX370和三星Galaxy S24Ultra等設備上,使用int4量化與int8動態激活的自定義XNNPACK MoE內核,其解碼吞吐量比Qwen3-1.7B、IBM Granite4.0等快達5倍。GPU端集成vLLM,支持FlashInfer和CUDA-graph編譯,實現單請求與在線批處理的高效運行。

量化變體已優化至高配手機/平板/筆記本:Q4_0約4.7GB,F16約16.7GB。支持框架包括llama.cpp(需b6709+版本支持lfm2moe)、ExecuTorch(移動/嵌入式CPU)和vLLM(GPU)。此外,提供Hugging Face上的GGUF量化文件及Colab微調筆記本,便於開發者快速上手。模型已在Liquid Playground上線測試。

開源與影響:推動設備端AI普惠化LFM2-8B-A1B採用LFM Open License v1.0(基於Apache2.0)開源,權重與技術細節現已上傳Hugging Face(LiquidAI/LFM2-8B-A1B)。這一發布不僅降低了AI部署門檻,還爲邊緣計算注入新活力——從隱私保護的實時聊天到嵌入式智能系統,均可受益。AIbase 觀點:在雲AI成本飆升的當下,LFM2-8B-A1B等高效模型正加速“AI下沉”趨勢。

項目:https://huggingface.co/LiquidAI/LFM2-8B-A1B