成立仅三个月的xLLM社区宣布将于 12 月 6 日举办首届线下Meetup,主题“共建开源AI Infra生态”。活动将展示自研推理引擎xLLM-Core,公开对比数据:在同级GPU上,MoE、Text-to-Image、Text-to-Video三类任务的P99 延迟均低于20ms,较vLLM平均下降42%,吞吐量提升2. 1 倍。
技术亮点
统一计算图:将语言、视觉、视频生成抽象为“Token-in Token-out”图,实现单引擎多模态并行
Mooncake KV缓存集成:三级存储(GPU显存→DDR→NVMe)命中率达99.2%,缓存穿透延迟<5ms
动态形状批处理:支持512×512→2048× 2048 图像、8→ 128 帧视频在线拼接,显存碎片减少38%
插件式后端:已适配CUDA、ROCm、MTIA,2026Q1 路线图列入Apple Silicon与Intel Arc
标杆案例
北京航空航天大学杨海龙教授将在Meetup分享京东11. 11 实战:xLLM-Core支撑峰值每秒40k请求,机器成本降低90%,业务效率提升 5 倍。
开源计划
现场将发布xLLM-Core 0. 9 版(Apache 2.0),包含Docker镜像、Python/C++ API与Benchmark脚本;社区预计 2026 年 6 月推出1.0 LTS,提供长期维护与商业支持。
报名通道已在xLLM官网开放,预计线下 300 席位,线上直播同步推送。
