人工智能在音頻生成領域已取得顯著進展,但“編輯”現有音頻的能力仍面臨巨大挑戰。近日,騰訊混元(Tencent Hy)聯合上海交通大學(SJTU)、新加坡南洋理工大學(NTU)、天津大學(TJU)、北京大學(PKU)、復旦大學(FDU)等多家頂尖科研機構,共同推出了MMAE(Massive Multitask Audio Editing Benchmark)——首個針對通用指令驅動音頻編輯的大規模多任務基準測試集。這一發布爲 AI 音頻編輯領域提供了系統性評估標準,凸顯了當前技術在精準修改方面的明顯短板。

從“生成”到“編輯”:AI 音頻能力的真正考驗

傳統音頻 AI 多聚焦於從文本或提示生成新內容,而 MMAE 基準的核心在於要求模型理解現有音頻片段,並根據自然語言指令進行精準修改:僅改變需要調整的部分,保持其他內容完全不變。這種“編輯而非重構”的能力,對音頻保真度、指令遵循性和上下文理解提出了更高要求,更貼近真實應用場景,如播客後期處理、音樂混音或語音個性化定製。

測試顯示,當前主流模型在 ** 精確匹配率(Exact Match Rate, EMR)** 上普遍低於5%,揭示出可靠音頻編輯技術仍存在重大差距。這意味着 AI 在實際編輯任務中容易出現過度修改、遺漏指令或破壞原始音質等問題。

MMAE 基準亮點:覆蓋真實場景的多維度評估

MMAE 基準設計全面而嚴謹,主要包含以下核心要素:

  • 2000個高保真樣本:全部來源於真實世界場景,確保評估的實用性和多樣性。
  • 17741項細粒度評估指標:提供詳盡的 rubric 評分體系,實現客觀量化。
  • 7種模態設置:涵蓋聲音、音樂、語音及其混合形式,支持複雜音頻環境測試。
  • 6級任務複雜度:從基礎修改逐步升級至多跳推理和多輪編輯,全面考察模型能力邊界。
  • 8種操作類型:支持局部與全局不同粒度的編輯操作,挑戰模型的精細控制水平。

AIbase 點評:MMAE 不僅是技術評估工具,更是推動音頻 AI 從“生成式”向“編輯式”轉型的重要里程碑。它爲研究者和開發者提供了統一標尺,有望加速下一代音頻編輯模型的迭代。

未來展望:音頻編輯或成 AI 多模態核心競爭力

隨着多模態大模型的快速發展,精準音頻編輯將在內容創作、影視後期、無障礙輔助等領域發揮關鍵作用。騰訊混元等機構的此次合作,展現了中國 AI 研究在音頻領域的領先佈局。業界期待更多開源資源和後續模型跟進,共同填補這一技術空白。