設立から3か月のxLLMコミュニティは、12月6日に初のオフラインミートアップを開催すると発表しました。テーマは「オープンソースAIインフラエコシステムの共創」です。このイベントでは自社開発の推論エンジンxLLM-Coreを紹介し、公開データを用いて比較します。同じグラフィックプロセッサでテストした場合、MoE、テキストから画像生成、テキストから動画生成の3つのタスクにおいて、P99遅延が20ms未満であり、vLLMに比べて平均42%低下し、スループットは2.1倍向上しています。
技術の特徴
統一された計算グラフ:言語、視覚、ビデオ生成を「Token-in Token-out」のグラフとして抽象化し、単一のエンジンでマルチモーダルな並列処理を実現
Mooncake KVキャッシュの統合:3段階のストレージ(GPUメモリ→DDR→NVMe)のヒット率は99.2%であり、キャッシュの透過遅延は5ms未満
動的形状バッチ処理:512×512から2048×2048の画像、8フレームから128フレームの動画のオンライン結合をサポートし、GPUメモリの断片化が38%減少
プラグイン型の後方処理:CUDA、ROCm、MTIAに対応しており、2026年Q1のロードマップにはApple SiliconとIntel Arcの対応が計画されています。
成功事例
北京航空大学の楊海龍教授がミートアップで京东11.11の実践的な体験について発表します。xLLM-Coreによってピークで毎秒40,000件のリクエストを支え、機械コストが90%削減され、業務効率が5倍向上しました。
オープンソース計画
現場でxLLM-Core 0.9バージョン(Apache 2.0)をリリースし、Dockerイメージ、Python/C++ API、Benchmarkスクリプトが含まれます。コミュニティは2026年6月に1.0 LTSをリリースする予定で、長期的なメンテナンスとビジネスサポートを提供します。
