成立僅三個月的xLLM社區宣佈將於 12 月 6 日舉辦首屆線下Meetup,主題“共建開源AI Infra生態”。活動將展示自研推理引擎xLLM-Core,公開對比數據:在同級GPU上,MoE、Text-to-Image、Text-to-Video三類任務的P99 延遲均低於20ms,較vLLM平均下降42%,吞吐量提升2. 1 倍。

技術亮點  

統一計算圖:將語言、視覺、視頻生成抽象爲“Token-in Token-out”圖,實現單引擎多模態並行  

Mooncake KV緩存集成:三級存儲(GPU顯存→DDR→NVMe)命中率達99.2%,緩存穿透延遲<5ms  

動態形狀批處理:支持512×512→2048× 2048 圖像、8→ 128 幀視頻在線拼接,顯存碎片減少38%  

插件式後端:已適配CUDA、ROCm、MTIA,2026Q1 路線圖列入Apple Silicon與Intel Arc

標杆案例  

北京航空航天大學楊海龍教授將在Meetup分享京東11. 11 實戰:xLLM-Core支撐峯值每秒40k請求,機器成本降低90%,業務效率提升 5 倍。

開源計劃  

現場將發佈xLLM-Core 0. 9 版(Apache 2.0),包含Docker鏡像、Python/C++ API與Benchmark腳本;社區預計 2026 年 6 月推出1.0 LTS,提供長期維護與商業支持。

報名通道已在xLLM官網開放,預計線下 300 席位,線上直播同步推送。