xLLM社区12月6日首揭开源推理引擎：支持MoE、T2I、T2V全场景，联合Mooncake缓存方案实现延迟低于20ms

成立仅三个月的xLLM社区宣布将于 12 月 6 日举办首届线下Meetup，主题“共建开源AI Infra生态”。活动将展示自研推理引擎xLLM-Core，公开对比数据：在同级GPU上，MoE、Text-to-Image、Text-to-Video三类任务的P99 延迟均低于20ms，较vLLM平均下降42%，吞吐量提升2. 1 倍。

技术亮点

统一计算图：将语言、视觉、视频生成抽象为“Token-in Token-out”图，实现单引擎多模态并行

Mooncake KV缓存集成：三级存储（GPU显存→DDR→NVMe）命中率达99.2%，缓存穿透延迟<5ms

动态形状批处理：支持512×512→2048× 2048 图像、8→ 128 帧视频在线拼接，显存碎片减少38%

插件式后端：已适配CUDA、ROCm、MTIA，2026Q1 路线图列入Apple Silicon与Intel Arc

标杆案例

北京航空航天大学杨海龙教授将在Meetup分享京东11. 11 实战：xLLM-Core支撑峰值每秒40k请求，机器成本降低90%，业务效率提升 5 倍。

开源计划

现场将发布xLLM-Core 0. 9 版（Apache 2.0），包含Docker镜像、Python/C++ API与Benchmark脚本；社区预计 2026 年 6 月推出1.0 LTS，提供长期维护与商业支持。

报名通道已在xLLM官网开放，预计线下 300 席位，线上直播同步推送。

xLLM社区12月6日首揭开源推理引擎：支持MoE、T2I、T2V全场景，联合Mooncake缓存方案实现延迟低于20ms

相关推荐

美团 LongCat-Flash-Lite 震撼发布：45 亿激活参数性能比肩巨量模型

小米发布新一代 MoE 大模型 MiMo-V2-Flash，助力 AGI 发展

科大讯飞推出全国产算力星火 X1.5，AI 技术再升级

Liquid AI发布 LFM2-8B-A1B：8B 参数仅激活1.5B，手机上跑出4B级AI速度！

小鹏汽车AI科技日将发布“物理AI”重大突破!全球最大数据量基座模型曝光