阿里雲發佈了 Qwen3-Omni,標誌着全球首個原生端到端全模態 AI 模型的問世,並且該模型現已開源。Qwen3-Omni 具備處理文本、圖像、音頻和視頻等多種輸入類型的能力,能夠實現實時流式輸出,無論是通過文本還是自然語音,均能快速響應。

Qwen3-Omni 模型在多個領域展現出跨模態的先進表現。通過早期以文本爲核心的預訓練和混合多模態訓練,該模型具備了強大的多模態能力。在音頻和視頻的性能上尤爲出色,同時在文本和圖像的效果上也能保持高標準。根據36項音頻和視頻的基準測試,Qwen3-Omni 在22項中達到了最新的領先水平,尤其是在自動語音識別和音頻理解等領域的表現已與同行業的 Gemini2.5Pro 不相上下。
Qwen3-Omni 支持119種文本語言和19種語音輸入語言,另外還有10種語音輸出語言,包括英語、中文、法語和德語等多種語言。此項功能讓它能夠更好地服務於全球用戶。其創新的架構設計基於 MoE(專家混合)系統,結合了 AuT 預訓練,從而使模型具有強大的通用表徵能力。同時,多碼本設計確保了低延遲的實時音頻和視頻交互,支持自然對話的流暢進行。
除了 Qwen3-Omni,阿里雲還發布了 Qwen3-TTS,一個支持17種音色選擇的文本轉語音模型。該模型在多項評估基準中表現出色,超越了多款競品,尤其在語音穩定性和音色相似度方面尤爲突出。
Qwen-Image-Edit-2509是另一個新發布的工具,專注於圖像編輯的多圖像支持,顯著提升了編輯的一致性和效果。它不僅能夠處理單圖像,還支持多圖像的拼接編輯,能夠滿足更復雜的編輯需求。
GitHub:https://github.com/QwenLM/Qwen3-Omni
huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe
劃重點:
🌟 Qwen3-Omni 是全球首個原生端到端全模態 AI 模型,支持文本、圖像、音頻和視頻的統一處理。
🌐 模型支持119種文本語言和19種語音輸入,能夠滿足全球用戶的多語言需求。
🖼️ 新發布的 Qwen-Image-Edit-2509支持多圖像編輯,顯著提升編輯的一致性和效果。
