xLLM社區12月6日首揭開源推理引擎：支持MoE、T2I、T2V全場景，聯合Mooncake緩存方案實現延遲低於20ms

成立僅三個月的xLLM社區宣佈將於 12 月 6 日舉辦首屆線下Meetup，主題“共建開源AI Infra生態”。活動將展示自研推理引擎xLLM-Core，公開對比數據：在同級GPU上，MoE、Text-to-Image、Text-to-Video三類任務的P99 延遲均低於20ms，較vLLM平均下降42%，吞吐量提升2. 1 倍。

技術亮點

統一計算圖：將語言、視覺、視頻生成抽象爲“Token-in Token-out”圖，實現單引擎多模態並行

Mooncake KV緩存集成：三級存儲（GPU顯存→DDR→NVMe）命中率達99.2%，緩存穿透延遲<5ms

動態形狀批處理：支持512×512→2048× 2048 圖像、8→ 128 幀視頻在線拼接，顯存碎片減少38%

插件式後端：已適配CUDA、ROCm、MTIA，2026Q1 路線圖列入Apple Silicon與Intel Arc

標杆案例

北京航空航天大學楊海龍教授將在Meetup分享京東11. 11 實戰：xLLM-Core支撐峯值每秒40k請求，機器成本降低90%，業務效率提升 5 倍。

開源計劃

現場將發佈xLLM-Core 0. 9 版（Apache 2.0），包含Docker鏡像、Python/C++ API與Benchmark腳本；社區預計 2026 年 6 月推出1.0 LTS，提供長期維護與商業支持。

報名通道已在xLLM官網開放，預計線下 300 席位，線上直播同步推送。

小巧卻強大的推理引擎！Ring-mini-2.0 震撼發佈，性能超越10B模型

今天，我們正式推出了 Ring-mini-2.0，這是一款基於 Ling-mini-2.0架構深度優化的高性能推理型 MoE 模型。Ring-mini-2.0的總參數量達到16B，但在實際運行中僅需激活1.4B 參數，便能實現相當於10B 級別以下的密集模型的推理能力。這款模型在邏輯推理、編程和數學任務中表現尤爲出色，支持128K 的長上下文，使得其在各種應用場景中都能展現出強大的能力。此外，Ring-mini-2.0的生成速度也相當驚人，能夠實現300+ token/s 的快速生成，經過優化後更是可以突破500+ token/s。圖源備註：圖片由AI生成，圖片授權

xLLM社區12月6日首揭開源推理引擎：支持MoE、T2I、T2V全場景，聯合Mooncake緩存方案實現延遲低於20ms

相關推薦

科大訊飛推出全國產算力星火 X1.5，AI 技術再升級

Liquid AI發佈 LFM2-8B-A1B：8B 參數僅激活1.5B，手機上跑出4B級AI速度！

小鵬汽車AI科技日將發佈“物理AI”重大突破!全球最大數據量基座模型曝光

京東重磅推出國產芯片驅動的 xLLM 推理引擎

小巧卻強大的推理引擎！Ring-mini-2.0 震撼發佈，性能超越10B模型