还在对着音乐软件 抠脚 编曲? OUT 啦! 音乐创作领域迎来 核爆级 突破! 全球首个基于扩散模型的端到端音乐模型 DiffRhythm 横空出世, 直接把音乐创作的门槛 夷为平地! 你只需要 动动嘴皮子, 输入歌词和风格,10秒钟后, 一首包含


还在对着音乐软件 抠脚 编曲? OUT 啦! 音乐创作领域迎来 核爆级 突破! 全球首个基于扩散模型的端到端音乐模型 DiffRhythm 横空出世, 直接把音乐创作的门槛 夷为平地! 你只需要 动动嘴皮子, 输入歌词和风格,10秒钟后, 一首包含

VideoFrom3D框架革新3D图形设计,通过融合图像与视频扩散模型,从几何形状、相机路径和参考图生成逼真且风格统一的3D场景视频。无需依赖昂贵配对数据,简化流程,助力设计师高效探索创意、快速产出高质量成果。核心在于互补扩散模型的创新应用。
近日,腾讯推出了一种新方法,旨在提升 AI 生成图像的真实感与美学评分。据悉,这一微调技术在仅用32块 H20显卡训练10分钟后就能实现显著的收敛效果,其人工评估得分甚至提升了300% 以上。当前的扩散模型虽然能够借助奖励机制来优化图像质量,但却面临着一些挑战。首先,模型优化步骤较少,容易出现所谓的 “奖励作弊” 现象,即模型为了获取高分而生成质量较低的图像。其次,离线调整奖励模型的过程不够灵活,限制了实时优化的能力。为了解决这些问题,腾讯团队提出了两个创
苹果公司研发新型AI图像生成系统“STARFlow”,结合正则化流和自回归变换器技术,挑战当前主流扩散模型。该突破性成果已在研究论文中公布,并与多所学术机构合作完成。
2025年8月,人工智能领域推出突破性技术Tinker Diffusion,这是一款无需逐场景优化的多视角一致性3D编辑工具。该技术通过扩散模型实现从稀疏输入到高质量3D场景编辑的飞跃,解决了传统3D重建依赖密集视角输入的难题,为3D内容创作提供高效便捷的解决方案。
Play AI 日前开源推出了一款全新语音编辑模型——PlayDiffusion,这是一种基于扩散模型的创新性工具,专为语音局部修改而设计。不同于传统的文本转语音系统需对整段音频重生成,PlayDiffusion 支持直接对语音中的某一部分进行替换、删除或调整,而其他未修改部分将保持完全一致。这种方式不仅极大提高了效率,也让音频编辑进入“所听即所得”的新阶段。用户只需提供目标文本(例如将音频中的“Neo”改为“Morpheus”),模型便可精准识别需替换位置,并智能调整节奏、语调以及说话人的