阿里巴巴雲 Qwen 團隊的最新跨模態模型 Qwen3-Omni 預計即將正式發佈。據可靠消息,該模型已向 Hugging Face 的 Transformers 庫提交了支持 PR,標誌着這一端到端多模態 AI 系統的開源集成即將實現。 這一進展基於 Qwen 系列的持續迭代,旨在進一步提升模型在資源受限設備上的部署效率。

Qwen3-Omni 是 Omni 系列的第三代產品,該系列以其端到端架構著稱,能夠無縫處理文本、圖像、音頻和視頻等多種輸入模態,並生成文本和語音輸出。 與前代模型類似,它採用 Thinker-Talker 雙軌設計:Thinker 負責多模態輸入的理解和高層表示生成,而 Talker 則實時合成自然語音。這種架構確保了模型在訓練和推理過程中的高效流式處理,特別適用於實時交互場景。
