阿里巴巴發佈新語音模型 Qwen2-Audio，實力超越 OpenAI Whisper

近日，阿里巴巴在其 Qwen-Audio 的基礎上，推出了全新的開源語音模型 Qwen2-Audio。這款模型不僅在語音識別、翻譯和音頻分析方面表現出色，更是在功能和性能上實現了顯著提升。Qwen2-Audio 提供了基礎版和指令微調版，用戶可以通過語音對音頻模型提問，並識別和分析內容。

比如，用戶可以讓某位女性說一段話，Qwen2-Audio 可以判斷她的年齡或分析她的情緒;如果輸入一段嘈雜的聲音，模型則能分析出其中的各種聲音成分。Qwen2-Audio 支持包括中文、粵語、法語、英語和日語在內的多種語言，這爲情感分析和翻譯應用的開發提供了很大的便利。

產品入口:https://top.aibase.com/tool/qwen2-audio

相較於第一代的 Qwen-Audio，Qwen2-Audio 在架構和性能上進行了全面優化。在預訓練階段，這款新模型採用了更爲自然的語言提示，替代了之前的複雜分層標籤。這一改進讓模型在理解和響應各種任務時更加得心應手，泛化能力也得到了顯著提升。

Qwen2-Audio 的指令跟隨能力也大幅提高，能夠更加準確地理解用戶指令。例如，當用戶發出 “分析這段音頻中的情感傾向” 的指令時，Qwen2-Audio 可以精準判斷音頻中所蘊含的情感。此外，該模型引入了語音聊天和音頻分析兩種模式，讓用戶的語音交互更加自然。在音頻分析模式下，Qwen2-Audio 能夠深入分析各種類型的音頻，並提供詳盡準確的分析結果。

爲了確保模型的輸出符合人類的期望，Qwen2-Audio 還引入了監督式微調和直接偏好優化等先進技術。在與人類交互時，模型顯得更加自然和精準。

在性能測試方面，Qwen2-Audio 在多個主流基準測試中表現優異，尤其是在語音識別和翻譯的準確性上，超越了 OpenAI 的 Whisper-large-v3。這款新模型的表現不僅在業內引發了廣泛關注，也預示着語音技術的新未來。

劃重點:
🌟 Qwen2-Audio 是阿里巴巴最新開源的語音模型，支持多種語言，具有強大的識別和分析能力。
🚀 相較於上一代，Qwen2-Audio 在性能和架構上進行了大幅優化，提升了理解和響應的能力。
🏆 在多項性能測試中，Qwen2-Audio 的表現超越了 OpenAI 的 Whisper，展現出強勁的競爭力。

阿里巴巴發佈新語音模型 Qwen2-Audio，實力超越 OpenAI Whisper

相關推薦

通義千問重磅升級：實時語音識別模型 Fun-ASR-Realtime 正式發佈

開發者自建 48 臺 Mac mini 集羣，破解雲 AI 服務高昂成本

微信元寶 AI 助手增加新功能，輕鬆一句話設置提醒

智譜 AI 輸入法全新發布，語音識別技術同步開源!

美國監獄電話隱私大曝光：囚犯通話竟成 AI 訓練材料

阿里巴巴發佈新語音模型 Qwen2-Audio，實力超越 OpenAI Whisper

相關推薦

通義千問重磅升級：實時語音識別模型 Fun-ASR-Realtime 正式發佈

開發者自建 48 臺 Mac mini 集羣，破解雲 AI 服務高昂成本

​微信元寶 AI 助手增加新功能，輕鬆一句話設置提醒

智譜 AI 輸入法全新發布，語音識別技術同步開源!

​美國監獄電話隱私大曝光：囚犯通話竟成 AI 訓練材料

微信元寶 AI 助手增加新功能，輕鬆一句話設置提醒

美國監獄電話隱私大曝光：囚犯通話竟成 AI 訓練材料