vLLM團隊發佈首個“全模態”推理框架vLLM-Omni,將文本、圖像、音頻、視頻的統一生成從概念驗證變成可落地代碼。新框架已上線GitHub與ReadTheDocs,開發者可立即pip安裝並調用。
解耦流水線架構
- 模態編碼器:ViT、Whisper等負責把視覺、語音轉爲中間特徵
- LLM核心:繼續沿用vLLM自迴歸引擎,承擔思考、規劃與對話
- 模態生成器:DiT、Stable Diffusion等擴散模型解碼輸出,支持圖像、音頻、視頻同步生成

框架把三段組件視爲獨立微服務,可在不同GPU或節點間調度,資源按需彈性伸縮——圖像生成高峯時橫向擴容DiT,文本推理低谷時收縮LLM,顯存利用率提升最高40%。
性能與兼容性
vLLM-Omni提供Python裝飾器@omni_pipeline,三行代碼即可把原有單模態模型拼裝成多模態應用。官方基準顯示,在8×A100集羣運行10億參數“文本+圖像”模型,吞吐比傳統串行方案提高2.1倍,端到端延遲下降35%。

開源與路線圖
GitHub倉庫已放出完整示例與Docker Compose腳本,支持PyTorch2.4+和CUDA12.2。團隊透露,2026Q1將加入視頻DiT與語音Codec模型,並計劃提供Kubernetes CRD,方便企業在私有云一鍵部署。
行業觀點
業內人士認爲,vLLM-Omni把異構模型納入同一數據流,有望降低多模態應用落地門檻,但不同硬件間的負載均衡與緩存一致性仍是生產環境挑戰。隨着框架逐漸成熟,AI初創公司可更便宜地構建“文本-圖像-視頻”統一平臺,而不必分別維護三條推理鏈路。
項目地址:https://github.com/vllm-project/vllm-omni
