阿里雲最新發布了一名爲 Qwen-Audio 的大規模音頻語言型,該模型可接受多種音頻信號輸入,夠進行音頻分析或直接回答語音指令極大地提升了語音交互體驗。

產品入口:https://top.aibase.com/tool/qwen2-audio
在此次發佈中,Qwen2udio 提供了兩種獨特的音交互模式:音聊天和音頻分析。用戶無需輸入文字即與 Qwen2-Audio 進行語音交,同時還可以交互中提供音頻和文本令進行分析爲用戶帶來更便捷的體驗。
Qwen2-Audio能夠智能地理解音頻中的內容,並按照語音命令做出適當的響應。例如,在同時包含聲音、多揚聲器對話和語音命令的音頻段中,Qwen2-Audio 可以直接理解該命令並提供對音頻的解釋和響應。
此外,DPO 還優化了模型在事實性和對期望行爲的遵守方面的性能。根據AIR-Bench的評估結果,Qwen2-Audio在專注於以音頻爲中心的指令跟蹤功能的測試中,優於以前的SOTA,如Gemini-1.5-pro。Qwen2-Audio是開源的,旨在促進多模態語言社區的進步。
據瞭解,Qwen2-Audio 系列將推出兩款型號:Qwen2-Audio 和 Qwen-Audio-Chat,爲用戶提供更豐富的音頻互體驗。
研究人員將對 Qwen2-Audio 模型進行全面評估,評估其在各種任務中的性能,而無需進行任何特定於任務的微調。英語自動語音識別(ASR)結果方面,其中Qwen2-Audio與以前的多任務學習模型相比表現出更高的性能。

Qwen2-Audio的聊天能力方面,研究人員在AIR-Bench的聊天基準上測量了其性能(Yang et al.,2024),Qwen2-Audio 展示了跨語音、聲音音樂和混合音頻子集的最先進的 (SOTA) 指令跟蹤功能。與 Qwen-Audio 相比,它顯示出實質性的改進,並且顯着優於其他 LALM。
劃重點:
🌟 阿里雲發佈 Qwen2-Audio,一款革新性的大規模頻語言模型,提升了語音交互體驗;
Qwen2-Audio 可接受多種音頻信號輸入進行音頻分析或直接回答語音指令,大地拓展了語音交互功能;
🌟 通過三段訓練過程,Qwen2-Audio 的模型結構訓練方法和性能表現得到了全面展示爲用戶帶來更加優質的音頻交互體驗。
