近日,阿里巴巴在其 Qwen-Audio 的基礎上,推出了全新的開源語音模型 Qwen2-Audio。這款模型不僅在語音識別、翻譯和音頻分析方面表現出色,更是在功能和性能上實現了顯著提升。Qwen2-Audio 提供了基礎版和指令微調版,用戶可以通過語音對音頻模型提問,並識別和分析內容。

image.png

比如,用戶可以讓某位女性說一段話,Qwen2-Audio 可以判斷她的年齡或分析她的情緒;如果輸入一段嘈雜的聲音,模型則能分析出其中的各種聲音成分。Qwen2-Audio 支持包括中文、粵語、法語、英語和日語在內的多種語言,這爲情感分析和翻譯應用的開發提供了很大的便利。

產品入口:https://top.aibase.com/tool/qwen2-audio

相較於第一代的 Qwen-Audio,Qwen2-Audio 在架構和性能上進行了全面優化。在預訓練階段,這款新模型採用了更爲自然的語言提示,替代了之前的複雜分層標籤。這一改進讓模型在理解和響應各種任務時更加得心應手,泛化能力也得到了顯著提升。

Qwen2-Audio 的指令跟隨能力也大幅提高,能夠更加準確地理解用戶指令。例如,當用戶發出 “分析這段音頻中的情感傾向” 的指令時,Qwen2-Audio 可以精準判斷音頻中所蘊含的情感。此外,該模型引入了語音聊天和音頻分析兩種模式,讓用戶的語音交互更加自然。在音頻分析模式下,Qwen2-Audio 能夠深入分析各種類型的音頻,並提供詳盡準確的分析結果。

爲了確保模型的輸出符合人類的期望,Qwen2-Audio 還引入了監督式微調和直接偏好優化等先進技術。在與人類交互時,模型顯得更加自然和精準。

在性能測試方面,Qwen2-Audio 在多個主流基準測試中表現優異,尤其是在語音識別和翻譯的準確性上,超越了 OpenAI 的 Whisper-large-v3。這款新模型的表現不僅在業內引發了廣泛關注,也預示着語音技術的新未來。

劃重點:

🌟 Qwen2-Audio 是阿里巴巴最新開源的語音模型,支持多種語言,具有強大的識別和分析能力。

🚀 相較於上一代,Qwen2-Audio 在性能和架構上進行了大幅優化,提升了理解和響應的能力。

🏆 在多項性能測試中,Qwen2-Audio 的表現超越了 OpenAI 的 Whisper,展現出強勁的競爭力。