vLLM-Omniのオープンソース：拡散モデル、ViT、LLMを1つのフローに統合し、マルチモーダルな推論を一度に実行

vLLMチームが初の「マルチモーダル」推論フレームワーク「vLLM-Omni」をリリースしました。このフレームワークは、テキスト、画像、音声、動画の統一生成を概念実証から実用的なコードに変えてくれます。新フレームワークはGitHubとReadTheDocsに公開されており、開発者はすぐにpipでインストールして呼び出すことができます。

非連携型パイプラインアーキテクチャ

- モーダルエンコーダー: ViT、Whisperなどは視覚や音声を中間特徴に変換します

- LLMコア: vLLMの自己回帰エンジンを引き続き使用し、思考、計画および会話を行います

- モーダルジェネレーター: DiT、Stable Diffusionなどの拡散モデルは出力をデコードし、画像、音声、動画の同時生成をサポートします

フレームワークは3つのコンポーネントを独立したマイクロサービスとして扱い、異なるGPUやノード間でスケジューリングできます。リソースは需要に応じて弾力的に拡縮されます—画像生成のピーク時にDiTを横方向に拡張し、テキスト推論の低谷時にLLMを縮小することで、メモリ利用率は最大40％向上します。

パフォーマンスと互換性

vLLM-OmniはPythonのデコレータ @omni_pipeline を提供しており、3行のコードで既存の単一モーダルモデルを多モーダルアプリケーションに組み立てることができます。公式ベンチマークによると、8×A100クラスター上で10億パラメータの「テキスト+画像」モデルを動作させた場合、スループットは従来のシーケンシャルな方法に比べて2.1倍になり、エンドツーエンドの遅延は35％低下しています。

オープンソースとロードマップ

GitHubリポジトリには完全な例とDocker Composeスクリプトが公開されており、PyTorch2.4+とCUDA12.2をサポートしています。チームは、2026年第1四半期に動画DiTと音声Codecモデルを追加する予定であり、企業がプライベートクラウドでワンクリックでデプロイできるKubernetes CRDも計画しています。

業界の見解

業界関係者は、vLLM-Omniが異種モデルを同じデータフローに含めることで、多モーダルアプリケーションの導入門檻を下げる可能性があると考えていますが、異なるハードウェア間での負荷バランスとキャッシュの整合性は運用環境における課題です。フレームワークが徐々に成熟していくにつれて、AIスタートアップはより安価に「テキスト-画像-動画」の統合プラットフォームを構築でき、それぞれの推論パスを別々に維持する必要がなくなるでしょう。

プロジェクトのアドレス：https://github.com/vllm-project/vllm-omni

vLLM-Omniのオープンソース：拡散モデル、ViT、LLMを1つのフローに統合し、マルチモーダルな推論を一度に実行

関連推奨

vLLM-Omniリリース：テキスト、画像、音声、動画を処理できます

マサチューセッツ工科大学（MIT）の新興企業オーペンエイジー・インターナショナル（OpenAGI）がAIエージェントを発表し、オープンAIやアンソロピックを凌駕すると主張

アントグループのエージェントアラが中国のAIエージェント開発分野の第一線に選出

ウルトラマンがOpenAIをレッドアラート状態に発表し、広告業務を一時停止してChatGPTの回復に全力を尽くす

Lovart Touch Edit 発売：タップで編集 AI画像編集がマスク不要の時代へ