阿里的EMO框架通过关注音频提示和面部动作之间的联系,增强了头部视频生成的真实度、自然度和表现力。EMO支持不同语言的歌曲和口语音频生成,可以让角色化身具有丰富的表情和动态。此外,EMO还能实现不同角色之间的联动,为视频生成带来更多可能性。
相关推荐
生数科技与清华大学联合推出 TurboDiffusion 视频生成加速框架
生数科技与清华TSAIL实验室联合开源TurboDiffusion视频生成加速框架,实现最高200倍推理加速,且几乎不影响生成质量,突破视频生成关键瓶颈。
2025年12月23号 17:23
170.4k
智谱多模态开源周圆满落幕:四项视频生成核心技术全面开放
智谱团队开源四项视频生成核心技术,包括GLM-4.6V视觉理解、AutoGLM设备控制、GLM-ASR语音识别和GLM-TTS语音合成模型,展示其在多模态领域的最新进展,为视频生成技术发展奠定基础。
2025年12月12号 10:44
182.6k
腾讯元宝推出新功能:一句话或一张图即可生成视频!
腾讯元宝推出新功能,用户用一句话或一张图片即可生成高清视频。基于HunyuanVideo1.5开源模型,采用DiT架构,8.3亿参数,支持5-10秒视频生成,简化内容创作流程。
2025年11月21号 14:09
160.2k
阿里千问APP公测,与ChatGPT展开全面竞争
阿里巴巴11月17日推出“千问”APP公测版,基于开源模型Qwen3,免费结合生活场景生态,与ChatGPT竞争。管理层视其为AI时代关键战役,已上线应用商店及网页、PC版,国际版即将发布。
2025年11月17号 10:19
422.6k
xAI升级Grok Imagine iOS版:新增视频生成与提示重混
xAI即将为iOS版Grok Imagine工具推出视频生成功能,用户可通过文本或图像提示创建高清动态视频,并支持从内容提要中直接重混提示以快速迭代创作。界面轻度优化提升操作流畅性,基于Aurora/Grok核心模型,支持一键高清升级,生成数秒短片,适用于广告和创意内容。重混机制降低输入门槛,简化创作流程。
2025年10月30号 15:24
875.3k
