小米技術官方微博宣佈,小米大模型團隊在音頻推理領域取得了顯著進展。他們在受到 DeepSeek-R1的啓發後,率先將強化學習算法應用於多模態音頻理解任務。團隊在短短一週內便以64.5% 的 SOTA(State Of The Art)準確率,登頂國際權威的 MMAU 音頻理解評測榜,並同步將相關技術開源。

QQ_1742182963895.png

MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集是一個測試音頻推理能力的重要標準,涵蓋了一萬條語音、環境音和音樂樣本,旨在考察模型在多種技能上的表現。人類專家在該評測集上的準確率爲82.23%,而目前該榜單上表現最好的模型爲 OpenAI 的 GPT-4o,準確率爲57.3%,其後是 Google DeepMind 的 Gemini2.0Flash,準確率爲55.6%。

在小米團隊的研究中,他們最初使用了清華大學發佈的 AVQA 數據集進行微調,取得了51.8% 的準確率。但真正的突破是在將 DeepSeek-R1的 Group Relative Policy Optimization(GRPO)算法應用到 Qwen2-Audio-7B 模型後,僅用 AVQA 的3.8萬條訓練樣本就實現了64.5% 的準確率,超越了現有的商業模型。

研究團隊發現,當在訓練過程中強制模型輸出推理過程時,準確率反而下降至61.1%。這表明顯式的思維鏈輸出可能不利於模型訓練,強化學習的實時反饋機制更有助於模型鎖定高質量答案的分佈區域。儘管他們已經取得了顯著的準確率,但仍然距離人類專家的水平存在差距。

小米大模型團隊的實驗結果不僅展示了強化學習在音頻推理領域的獨特優勢,也爲未來的研究提供了新的思路。他們還將訓練代碼、模型參數以及技術報告開源,方便學術界和產業界進行進一步的研究和交流。

訓練代碼:https://github.com/xiaomi-research/r1-aqa

模型參數:https://huggingface.co/mispeech/r1-aqa

技術報告:https://arxiv.org/abs/2503.11197

交互 Demo:https://120.48.108.147:7860/

劃重點:

🔍 小米大模型團隊通過強化學習算法在音頻推理領域取得突破,準確率達到64.5%。  

📈 MMAU 評測集是音頻推理能力的重要標準,當前人類專家準確率爲82.23%。  

💡 研究結果表明,強化學習的實時反饋機制對模型訓練更爲有效,未來研究仍需深入探索。