阿里雲推出全球首個全模態 AI 模型 Qwen3-Omni，實現文本、圖像、音頻與視頻的統一處理

阿里雲發佈了 Qwen3-Omni，標誌着全球首個原生端到端全模態 AI 模型的問世，並且該模型現已開源。Qwen3-Omni 具備處理文本、圖像、音頻和視頻等多種輸入類型的能力，能夠實現實時流式輸出，無論是通過文本還是自然語音，均能快速響應。

Qwen3-Omni 模型在多個領域展現出跨模態的先進表現。通過早期以文本爲核心的預訓練和混合多模態訓練，該模型具備了強大的多模態能力。在音頻和視頻的性能上尤爲出色，同時在文本和圖像的效果上也能保持高標準。根據36項音頻和視頻的基準測試，Qwen3-Omni 在22項中達到了最新的領先水平，尤其是在自動語音識別和音頻理解等領域的表現已與同行業的 Gemini2.5Pro 不相上下。

Qwen3-Omni 支持119種文本語言和19種語音輸入語言，另外還有10種語音輸出語言，包括英語、中文、法語和德語等多種語言。此項功能讓它能夠更好地服務於全球用戶。其創新的架構設計基於 MoE（專家混合）系統，結合了 AuT 預訓練，從而使模型具有強大的通用表徵能力。同時，多碼本設計確保了低延遲的實時音頻和視頻交互，支持自然對話的流暢進行。

除了 Qwen3-Omni，阿里雲還發布了 Qwen3-TTS，一個支持17種音色選擇的文本轉語音模型。該模型在多項評估基準中表現出色，超越了多款競品，尤其在語音穩定性和音色相似度方面尤爲突出。

Qwen-Image-Edit-2509是另一個新發布的工具，專注於圖像編輯的多圖像支持，顯著提升了編輯的一致性和效果。它不僅能夠處理單圖像，還支持多圖像的拼接編輯，能夠滿足更復雜的編輯需求。

GitHub:https://github.com/QwenLM/Qwen3-Omni
huggingface:https://huggingface.co/collections/Qwen/qwen3-omni-68d100a86cd0906843ceccbe

劃重點:
🌟 Qwen3-Omni 是全球首個原生端到端全模態 AI 模型，支持文本、圖像、音頻和視頻的統一處理。
🌐 模型支持119種文本語言和19種語音輸入，能夠滿足全球用戶的多語言需求。
🖼️ 新發布的 Qwen-Image-Edit-2509支持多圖像編輯，顯著提升編輯的一致性和效果。

阿里雲發佈開源工具Meoo CLI:支持本地AI項目一鍵上線部署

阿里雲於6月11日發佈開源命令行工具Meoo CLI，旨在降低開發者構建AI原生應用的門檻。該工具深度適配Claude Code、Codex、Cursor等主流本地AI編程環境，通過無縫調用雲端基礎設施，實現數據庫接入、用戶登錄、文件存儲及項目部署的一體化配置。開發者只需簡單指令，即可將AI生成的本地項目直接部署上線，簡化了從代碼構建到發佈的全流程。

阿里Qoder推出全託管平臺Cloud Agents，實現AI Agent一天內快速上線

阿里雲於2026年5月28日推出全託管AI Agent平臺Cloud Agents，提供從底座到運行環境的全棧能力，企業通過API即可調用。該平臺將Agent開發週期從1個月縮短至1天，加速AI原生應用滲透。當前通用Agent工具雖提升個人效率，但底層基礎設施如推理引擎、運行沙箱等仍需完善。

阿里雲推出全球首個全模態 AI 模型 Qwen3-Omni，實現文本、圖像、音頻與視頻的統一處理

相關推薦

阿里雲QoderWork推出“峯谷Token”:錯峯調用Qwen3.7-Max低至2折

打通AI應用“最後一公里”：阿里雲秒悟Meoo CLI正式開源

一鍵部署上線：阿里雲發佈秒悟 Meoo CLI 開源工具

阿里雲發佈開源工具Meoo CLI:支持本地AI項目一鍵上線部署

阿里Qoder推出全託管平臺Cloud Agents，實現AI Agent一天內快速上線

​阿里雲推出全球首個全模態 AI 模型 Qwen3-Omni，實現文本、圖像、音頻與視頻的統一處理

相關推薦

阿里雲QoderWork推出“峯谷Token”:錯峯調用Qwen3.7-Max低至2折

打通AI應用“最後一公里”：阿里雲秒悟Meoo CLI正式開源

一鍵部署上線：阿里雲發佈秒悟 Meoo CLI 開源工具

阿里雲發佈開源工具Meoo CLI:支持本地AI項目一鍵上線部署

阿里Qoder推出全託管平臺Cloud Agents，實現AI Agent一天內快速上線

阿里雲推出全球首個全模態 AI 模型 Qwen3-Omni，實現文本、圖像、音頻與視頻的統一處理