最近,一項來自 MIT CSAIL、哥廷根大學、IBM 研究所等機構的研究團隊提出了一個名爲 Omni-R1的全新音頻問答模型。該模型在 Qwen2.5-Omni 的基礎上,通過一種名爲 GRPO(Group Relative Policy Optimization)的強化學習方法進行優化,顯示出在音頻問答任務中的出色表現。
Omni-R1在著名的 MMAU 基準測試中創造了新的最先進成績,涵蓋了聲音、語音和音樂等多個音頻類別。研究團隊指出,儘管模型的訓練涉及音頻數據,但其性能提升的主要原因竟然是文本推理能力的增強。這一發現讓人驚訝,因爲即使僅使用文本數據進行微調,模型的表現也取得了顯著的提升。
爲此,研究人員利用 ChatGPT 生成了大量音頻問答數據,創建了兩個新的數據集:AVQA-GPT 和 VGGS-GPT。這兩個數據集分別包含4萬和18.2萬條音頻數據,進一步提升了 Omni-R1的準確性。在訓練過程中,Omni-R1的表現超過了以往的基線模型,包括 SARI,平均得分達到71.3%。研究表明,儘管使用音頻進行微調稍微優於僅使用文本,但後者的貢獻同樣不可忽視。
GRPO 方法的一個關鍵優點是其內存效率,使得在48GB 的 GPU 上能夠有效運行。該方法通過比較分組輸出,基於答案的正確性來進行獎勵,而無需使用複雜的價值函數。研究人員通過擴展 Qwen-2Audio 的音頻描述來增加訓練數據,這種策略使得模型在多模態任務上更具競爭力。
Omni-R1不僅在音頻問答領域設立了新的標杆,還展示了文本推理在音頻模型性能中的重要性。未來,研究團隊承諾將發佈所有相關資源,以便更多研究人員和開發者能夠利用這一成果。
論文:https://arxiv.org/abs/2505.09439
劃重點:
🔍 Omni-R1是基於 Qwen2.5-Omni 模型,通過 GRPO 強化學習方法優化而成的音頻問答模型。
📈 該模型在 MMAU 基準測試中取得了新高度,文本推理能力的提升被認爲是主要原因。
🛠️ 研究團隊通過 ChatGPT 生成新數據集,極大地提升了模型的訓練效果和準確性。