正文

阿里通義推出Qwen3-Omni-Flash-2025-12-01

發布於AI新閒資訊

時間 :Dec 11, 2025

閱讀 :1分鐘

近日，阿里通義 Qwen 團隊正式發佈了其最新版本 Qwen3-Omni-Flash-2025-12-01。這一升級版基於 Qwen3-Omni 構建，作爲新一代原生全模態大模型，它能夠高效處理文本、圖像、音頻和視頻等多種輸入形式，實現實時流式響應，生成文本與自然語音輸出。

此次升級的主要亮點包括音視頻交互體驗的全面升級。這一版本顯著增強了對音視頻指令的理解和執行能力，有效解決了在口語化場景中常見的 “降智” 問題。多輪音視頻對話的穩定性和連貫性得到了提升，使得人機交互更加自然流暢。

此外，系統提示（System Prompt）控制能力也實現了飛躍。用戶可以全面自定義 System Prompt，精細調控模型的行爲。無論是角色風格、口語表達偏好，還是回覆的長度要求，都可以精準實現，提升了模型的控制能力。

在多語言處理能力方面，新版本支持119種文本語言、19種語音識別語言和10種語音合成語言。相較於之前的版本，Qwen3-Omni-Flash 在語言遵循的穩定性上進行了全面優化，確保跨語言場景下的響應準確性。

語音生成的表現也更加擬人化和流暢。新版本有效解決了語速拖沓和機械感的問題，提升了模型根據文本內容自適應調整語速、停頓和韻律的能力，使得語音輸出更接近真實對話。

在客觀性能指標上，Qwen3-Omni-Flash-2025-12-01的全模態能力得到了全面提升。文本理解與生成能力、語音理解精準度、語音生成自然度以及圖像理解深度均顯著超越了之前版本，爲用戶提供了前所未有的自然、精準和生動的 AI 交互體驗。

劃重點:
🌟 新版本 Qwen3-Omni-Flash 提升了音視頻交互體驗，增強了對音視頻指令的理解與執行能力。
🌍 系統提示自定義功能全面開放，用戶可精細調控模型行爲，提升交互個性化。
💬 多語言支持能力優化，確保跨語言場景下響應的準確性與一致性。

大麥娛樂聯合阿里通義發佈“妙呀”平臺:基於Wan2.7打造首個AI潮玩設計工具

4月23日，大麥娛樂與阿里通義大模型事業部聯合推出全球首個潮玩AI設計平臺“妙呀”。該平臺基於Wan2.7大模型，簡化設計流程，實現從創意到實體的閉環轉化。目前Beta版已開啓限量內測，用戶可通過官網或公衆號申領邀請碼。

阿里通義發佈生圖模型Z-Image，首日登頂Hugging Face趨勢榜，下載量達50萬次。該模型僅6億參數，卻能媲美大型模型，精細還原皮膚、髮絲、光影和紋理，構圖氛圍出色。同時推出優化版Z-Image-Turbo，僅需8步即可生成高質量圖像。

全球AI專家許主洪加盟阿里通義團隊，負責多模態交互模型研發，引發科技界關注。作爲IEEE Fellow，他擁有20多年AI經驗，曾任新加坡管理大學終身教授和南洋理工大學副教授。此舉被視爲阿里在AI領域的重要戰略佈局。

阿里通義Qwen團隊推出開源Python命令行工具Qwen3-ASR-Toolkit，支持便捷音視頻轉錄。該工具突破Qwen3-ASR-Flash API的三分鐘限制，實現小時級快速轉錄，爲大規模音頻處理提供有力支持。Qwen3-ASR-Flash是最新語音識別模型，基於海量多模態數據訓練。

阿里通義推出新一代語音識別模型Fun-ASR，通過強化上下文感知與高精度轉寫能力，在保險、家裝等垂直行業實現15%以上的準確率提升。實測顯示保險行業提升18%，家裝、畜牧等領域提升15%-20%。該模型採用自研算法與Qwen3微調技術，結合前沿架構與文本對齊技術。

智啟未來，您的人工智能解決方案智庫