成立僅三個月的xLLM社區宣佈將於 12 月 6 日舉辦首屆線下Meetup,主題“共建開源AI Infra生態”。活動將展示自研推理引擎xLLM-Core,公開對比數據:在同級GPU上,MoE、Text-to-Image、Text-to-Video三類任務的P99 延遲均低於20ms,較vLLM平均下降42%,吞吐量提升2. 1 倍。
技術亮點
統一計算圖:將語言、視覺、視頻生成抽象爲“Token-in Token-out”圖,實現單引擎多模態並行
Mooncake KV緩存集成:三級存儲(GPU顯存→DDR→NVMe)命中率達99.2%,緩存穿透延遲<5ms
動態形狀批處理:支持512×512→2048× 2048 圖像、8→ 128 幀視頻在線拼接,顯存碎片減少38%
插件式後端:已適配CUDA、ROCm、MTIA,2026Q1 路線圖列入Apple Silicon與Intel Arc
標杆案例
北京航空航天大學楊海龍教授將在Meetup分享京東11. 11 實戰:xLLM-Core支撐峯值每秒40k請求,機器成本降低90%,業務效率提升 5 倍。
開源計劃
現場將發佈xLLM-Core 0. 9 版(Apache 2.0),包含Docker鏡像、Python/C++ API與Benchmark腳本;社區預計 2026 年 6 月推出1.0 LTS,提供長期維護與商業支持。
報名通道已在xLLM官網開放,預計線下 300 席位,線上直播同步推送。
