3月27日,阿里雲通義千問Qwen團隊宣佈推出Qwen模型家族中的新一代端到端多模態旗艦模型——Qwen2.5-Omni。這一全新模型專爲全方位多模態感知而設計,能夠無縫處理文本、圖像、音頻和視頻等多種輸入形式,並通過實時流式響應同時生成文本與自然語音合成輸出。

Qwen2.5-Omni採用了創新的Thinker-Talker架構,這是一種端到端的多模態模型,旨在支持文本、圖像、音頻、視頻的跨模態理解,並以流式方式生成文本和自然語音響應。其中,Thinker模塊如同大腦,負責處理多模態輸入並生成高層語義表徵及對應文本內容;Talker模塊則類似發聲器官,以流式方式接收Thinker實時輸出的語義表徵與文本,流暢合成離散語音單元。此外,該模型還提出了一種新的位置編碼技術TMRoPE(Time-aligned Multimodal RoPE),通過時間軸對齊實現視頻與音頻輸入的精準同步。

微信截圖_20250327082050.png

該模型在實時音視頻交互方面表現出色,支持分塊輸入和即時輸出,能夠實現完全實時的交互。在語音生成的自然性和穩定性方面,Qwen2.5-Omni超越了許多現有的流式和非流式替代方案。在全模態性能方面,Qwen2.5-Omni在同等規模的單模態模型進行基準測試時,表現出卓越的性能,其音頻能力優於類似大小的Qwen2-Audio,並與Qwen2.5-VL-7B保持同等水平。此外,Qwen2.5-Omni在端到端語音指令跟隨方面表現出與文本輸入處理相媲美的效果,在MMLU通用知識理解和GSM8K數學推理等基準測試中表現優異。

Qwen2.5-Omni在包括圖像、音頻、音視頻等各種模態下的表現都優於類似大小的單模態模型以及封閉源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模態任務OmniBench中,Qwen2.5-Omni達到了SOTA的表現。在單模態任務中,Qwen2.5-Omni在多個領域中表現優異,包括語音識別(Common Voice)、翻譯(CoVoST2)、音頻理解(MMAU)、圖像推理(MMMU、MMStar)、視頻理解(MVBench)以及語音生成(Seed-tts-eval和主觀自然聽感)。

目前,Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope和GitHub上開源開放,用戶可以通過Demo體驗互動功能,或是通過Qwen Chat直接發起語音或視頻聊天,沉浸式體驗全新的Qwen2.5-Omni模型強大性能。

  • Qwen Chat:https://chat.qwenlm.ai

  • Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B

  • ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

  • DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

  • GitHub:https://github.com/QwenLM/Qwen2.5-Omni

  • Demo體驗:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo