騰訊AudioGenie橫空出世！一鍵生成電影級音效，Claude與Gemini瑟瑟發抖！

隨着人工智能技術的飛速發展，音頻生成領域迎來了一位重量級選手——騰訊AI Lab推出的AudioGenie。這款創新的多模態音頻生成工具以其自然貼切的生成效果、強大的上下文理解能力以及無需訓練的特性，正在重塑全球AI音頻市場格局。

多模態輸入，全面音頻輸出

AudioGenie支持視頻、文本和圖像等多種模態輸入，能夠生成音效、語音、音樂以及混合音頻輸出。無論是爲影視作品生成沉浸式背景音樂、爲虛擬人物配音，還是爲遊戲場景添加逼真的環境音效，AudioGenie都能輕鬆勝任。其生成效果不僅自然流暢，還能高度貼合輸入內容的上下文，展現出卓越的語義理解能力。實驗表明，AudioGenie在視頻到多音頻生成、文本到多音頻生成等任務中，均達到或超越了行業領先水平。

無需訓練，自我糾錯引領技術革新

與傳統音頻生成模型需要大量訓練數據不同，AudioGenie採用創新的無訓練多智能體框架，通過雙層架構（生成團隊與監督團隊）實現高效協同。生成團隊通過細粒度任務分解和自適應專家混合(MoE)機制，動態選擇最適合的模型進行音頻生成，確保輸出質量。監督團隊則負責時空一致性驗證，並通過反饋循環進行自我糾錯，確保生成的音頻高度可靠。這一設計徹底消除了對大規模配對數據集的依賴，極大降低了開發成本，同時提升了生成效率。

MA-Bench基準測試，樹立行業新標杆

爲了全面評估多模態音頻生成能力，騰訊AI Lab推出了MA-Bench，這是全球首個針對多模態到多音頻生成（MM2MA）任務的基準測試集，包含198個帶有多類型音頻註釋的視頻。測試結果顯示，AudioGenie在9項指標、8項任務中均達到或接近最先進水平(SOTA)，尤其在音質、準確性、內容對齊和美學體驗方面表現突出。用戶調研進一步驗證了其在實際應用中的優越性，爲遊戲開發、影視製作和虛擬現實等場景提供了強大支持。

市場衝擊:挑戰Claude與Gemini霸主地位

AudioGenie的發佈不僅爲用戶帶來了高效便捷的音頻生成體驗，也對現有市場格局構成挑戰。結合近期數據，國產AI模型如Qwen3、Kimi-K2和GLM-4.5在全球市場的快速崛起，AudioGenie的加入進一步鞏固了中國AI企業的競爭力。OpenRouter數據顯示，Qwen3使用量增長15.4%，而Claude和Gemini分別下降18.9%和6.8%。AudioGenie憑藉其多模態能力和高性價比，有望進一步擠壓國際巨頭的市場份額。

未來展望:開啓音頻創作新紀元

AudioGenie的推出標誌着AI音頻生成技術邁向新高度。其多模態輸入、無需訓練和自我糾錯的特性，爲創作者提供了前所未有的靈活性和效率。業內人士預測，AudioGenie將在媒體制作、遊戲開發和無障礙工具等領域引發廣泛應用，助力中國AI技術在全球舞臺上大放異彩。AIbase將持續關注AudioGenie的最新動態，爲您帶來第一手行業資訊。

總結

騰訊AudioGenie以其強大的多模態音頻生成能力和創新的無訓練框架，正在重新定義AI音頻生成的標準。面對國際巨頭的競爭，AudioGenie展現了中國AI技術的硬核實力。AIbase將持續跟蹤這一領域的最新進展，爲您揭祕AI如何改變創作未來!

項目地址：https://audiogenie.github.io/

騰訊AudioGenie橫空出世！一鍵生成電影級音效，Claude與Gemini瑟瑟發抖！

相關推薦

大廠不再需要 AI Lab？騰訊重組研發體系：混元 3.0 預計4 月發佈

騰訊 AI Lab 副主任離職，混元團隊迎來新老交替，騰訊 AI 發展路在何方？

人人皆可創作音樂！騰訊 AI Lab 推出開源音樂生成大模型 SongGeneration

ARM 挖角亞馬遜高管，推進自研芯片計劃

Grammarly 大升級：推出文檔界面與多款AI工具，平衡寫作與檢測

騰訊AudioGenie橫空出世！一鍵生成電影級音效，Claude與Gemini瑟瑟發抖！

相關推薦

大廠不再需要 AI Lab？騰訊重組研發體系：混元 3.0 預計4 月發佈

騰訊 AI Lab 副主任離職，混元團隊迎來新老交替，騰訊 AI 發展路在何方？

​人人皆可創作音樂！騰訊 AI Lab 推出開源音樂生成大模型 SongGeneration

ARM 挖角亞馬遜高管，推進自研芯片計劃

Grammarly 大升級：推出文檔界面與多款AI工具，平衡寫作與檢測

人人皆可創作音樂！騰訊 AI Lab 推出開源音樂生成大模型 SongGeneration