vLLMチームが初の「マルチモーダル」推論フレームワーク「vLLM-Omni」をリリースしました。このフレームワークは、テキスト、画像、音声、動画の統一生成を概念実証から実用的なコードに変えてくれます。新フレームワークはGitHubとReadTheDocsに公開されており、開発者はすぐにpipでインストールして呼び出すことができます。
非連携型パイプラインアーキテクチャ
- モーダルエンコーダー: ViT、Whisperなどは視覚や音声を中間特徴に変換します
- LLMコア: vLLMの自己回帰エンジンを引き続き使用し、思考、計画および会話を行います
- モーダルジェネレーター: DiT、Stable Diffusionなどの拡散モデルは出力をデコードし、画像、音声、動画の同時生成をサポートします

フレームワークは3つのコンポーネントを独立したマイクロサービスとして扱い、異なるGPUやノード間でスケジューリングできます。リソースは需要に応じて弾力的に拡縮されます—画像生成のピーク時にDiTを横方向に拡張し、テキスト推論の低谷時にLLMを縮小することで、メモリ利用率は最大40%向上します。
パフォーマンスと互換性
vLLM-OmniはPythonのデコレータ @omni_pipeline を提供しており、3行のコードで既存の単一モーダルモデルを多モーダルアプリケーションに組み立てることができます。公式ベンチマークによると、8×A100クラスター上で10億パラメータの「テキスト+画像」モデルを動作させた場合、スループットは従来のシーケンシャルな方法に比べて2.1倍になり、エンドツーエンドの遅延は35%低下しています。

オープンソースとロードマップ
GitHubリポジトリには完全な例とDocker Composeスクリプトが公開されており、PyTorch2.4+とCUDA12.2をサポートしています。チームは、2026年第1四半期に動画DiTと音声Codecモデルを追加する予定であり、企業がプライベートクラウドでワンクリックでデプロイできるKubernetes CRDも計画しています。
業界の見解
業界関係者は、vLLM-Omniが異種モデルを同じデータフローに含めることで、多モーダルアプリケーションの導入門檻を下げる可能性があると考えていますが、異なるハードウェア間での負荷バランスとキャッシュの整合性は運用環境における課題です。フレームワークが徐々に成熟していくにつれて、AIスタートアップはより安価に「テキスト-画像-動画」の統合プラットフォームを構築でき、それぞれの推論パスを別々に維持する必要がなくなるでしょう。
プロジェクトのアドレス:https://github.com/vllm-project/vllm-omni
