腾讯AudioGenie横空出世！一键生成电影级音效，Claude与Gemini瑟瑟发抖！

随着人工智能技术的飞速发展，音频生成领域迎来了一位重量级选手——腾讯AI Lab推出的AudioGenie。这款创新的多模态音频生成工具以其自然贴切的生成效果、强大的上下文理解能力以及无需训练的特性，正在重塑全球AI音频市场格局。

多模态输入，全面音频输出

AudioGenie支持视频、文本和图像等多种模态输入，能够生成音效、语音、音乐以及混合音频输出。无论是为影视作品生成沉浸式背景音乐、为虚拟人物配音，还是为游戏场景添加逼真的环境音效，AudioGenie都能轻松胜任。其生成效果不仅自然流畅，还能高度贴合输入内容的上下文，展现出卓越的语义理解能力。实验表明，AudioGenie在视频到多音频生成、文本到多音频生成等任务中，均达到或超越了行业领先水平。

无需训练，自我纠错引领技术革新

与传统音频生成模型需要大量训练数据不同，AudioGenie采用创新的无训练多智能体框架，通过双层架构（生成团队与监督团队）实现高效协同。生成团队通过细粒度任务分解和自适应专家混合(MoE)机制，动态选择最适合的模型进行音频生成，确保输出质量。监督团队则负责时空一致性验证，并通过反馈循环进行自我纠错，确保生成的音频高度可靠。这一设计彻底消除了对大规模配对数据集的依赖，极大降低了开发成本，同时提升了生成效率。

MA-Bench基准测试，树立行业新标杆

为了全面评估多模态音频生成能力，腾讯AI Lab推出了MA-Bench，这是全球首个针对多模态到多音频生成（MM2MA）任务的基准测试集，包含198个带有多类型音频注释的视频。测试结果显示，AudioGenie在9项指标、8项任务中均达到或接近最先进水平(SOTA)，尤其在音质、准确性、内容对齐和美学体验方面表现突出。用户调研进一步验证了其在实际应用中的优越性，为游戏开发、影视制作和虚拟现实等场景提供了强大支持。

市场冲击:挑战Claude与Gemini霸主地位

AudioGenie的发布不仅为用户带来了高效便捷的音频生成体验，也对现有市场格局构成挑战。结合近期数据，国产AI模型如Qwen3、Kimi-K2和GLM-4.5在全球市场的快速崛起，AudioGenie的加入进一步巩固了中国AI企业的竞争力。OpenRouter数据显示，Qwen3使用量增长15.4%，而Claude和Gemini分别下降18.9%和6.8%。AudioGenie凭借其多模态能力和高性价比，有望进一步挤压国际巨头的市场份额。

未来展望:开启音频创作新纪元

AudioGenie的推出标志着AI音频生成技术迈向新高度。其多模态输入、无需训练和自我纠错的特性，为创作者提供了前所未有的灵活性和效率。业内人士预测，AudioGenie将在媒体制作、游戏开发和无障碍工具等领域引发广泛应用，助力中国AI技术在全球舞台上大放异彩。AIbase将持续关注AudioGenie的最新动态，为您带来第一手行业资讯。

总结

腾讯AudioGenie以其强大的多模态音频生成能力和创新的无训练框架，正在重新定义AI音频生成的标准。面对国际巨头的竞争，AudioGenie展现了中国AI技术的硬核实力。AIbase将持续跟踪这一领域的最新进展，为您揭秘AI如何改变创作未来!

项目地址：https://audiogenie.github.io/

腾讯AudioGenie横空出世！一键生成电影级音效，Claude与Gemini瑟瑟发抖！

相关推荐

大厂不再需要 AI Lab？腾讯重组研发体系：混元 3.0 预计4 月发布

腾讯 AI Lab 副主任离职，混元团队迎来新老交替，腾讯 AI 发展路在何方？

人人皆可创作音乐！腾讯 AI Lab 推出开源音乐生成大模型 SongGeneration

Perplexity进军印度市场！AI搜索巨头新增印度股票财报电话会议实时转录功能

ARM 挖角亚马逊高管，推进自研芯片计划

腾讯AudioGenie横空出世！一键生成电影级音效，Claude与Gemini瑟瑟发抖！

相关推荐

大厂不再需要 AI Lab？腾讯重组研发体系：混元 3.0 预计4 月发布

腾讯 AI Lab 副主任离职，混元团队迎来新老交替，腾讯 AI 发展路在何方？

​人人皆可创作音乐！腾讯 AI Lab 推出开源音乐生成大模型 SongGeneration

Perplexity进军印度市场！AI搜索巨头新增印度股票财报电话会议实时转录功能

ARM 挖角亚马逊高管，推进自研芯片计划

人人皆可创作音乐！腾讯 AI Lab 推出开源音乐生成大模型 SongGeneration