近日,阿里通義 Qwen 團隊正式發佈了其最新版本 Qwen3-Omni-Flash-2025-12-01。這一升級版基於 Qwen3-Omni 構建,作爲新一代原生全模態大模型,它能夠高效處理文本、圖像、音頻和視頻等多種輸入形式,實現實時流式響應,生成文本與自然語音輸出。

此次升級的主要亮點包括音視頻交互體驗的全面升級。這一版本顯著增強了對音視頻指令的理解和執行能力,有效解決了在口語化場景中常見的 “降智” 問題。多輪音視頻對話的穩定性和連貫性得到了提升,使得人機交互更加自然流暢。
此外,系統提示(System Prompt)控制能力也實現了飛躍。用戶可以全面自定義 System Prompt,精細調控模型的行爲。無論是角色風格、口語表達偏好,還是回覆的長度要求,都可以精準實現,提升了模型的控制能力。
在多語言處理能力方面,新版本支持119種文本語言、19種語音識別語言和10種語音合成語言。相較於之前的版本,Qwen3-Omni-Flash 在語言遵循的穩定性上進行了全面優化,確保跨語言場景下的響應準確性。
語音生成的表現也更加擬人化和流暢。新版本有效解決了語速拖沓和機械感的問題,提升了模型根據文本內容自適應調整語速、停頓和韻律的能力,使得語音輸出更接近真實對話。
在客觀性能指標上,Qwen3-Omni-Flash-2025-12-01的全模態能力得到了全面提升。文本理解與生成能力、語音理解精準度、語音生成自然度以及圖像理解深度均顯著超越了之前版本,爲用戶提供了前所未有的自然、精準和生動的 AI 交互體驗。
劃重點:
🌟 新版本 Qwen3-Omni-Flash 提升了音視頻交互體驗,增強了對音視頻指令的理解與執行能力。
🌍 系統提示自定義功能全面開放,用戶可精細調控模型行爲,提升交互個性化。
💬 多語言支持能力優化,確保跨語言場景下響應的準確性與一致性。
