阿里最新推出的基于音频驱动的肖像视频生成框架EMO,可以根据输入音频生成任意持续时间的视频。该框架由阿里巴巴智能计算研究院团队开发,是一种富有表现力的视频生成技术。EMO与之前的AI视频生成方法相比有较大提升,但也存在耗时较长的缺点。团队成员包括薄列峰等人,他们在论文中详细介绍了EMO的技术路线和特性。这一新技术为AI领域带来了新的突破,让人们对未来的发展充满期待。
相关推荐
通义千问宣布正式推出 Qwen Chat Memory 功能
阿里通义千问推出Qwen Chat Memory功能,实现“长记忆”能力。它能主动保留用户偏好、习惯及过往对话内容,在多轮交流中关联回忆,提供更连续、个性化的自然交互体验。
阿里发布新一代Agentic Coding编程平台Qoder
阿里发布Qoder编程平台,具备强大上下文工程和编程智能体能力,集成顶尖编程模型,可检索10万代码文件,极大提升开发效率。AI自主研发功能将数天开发缩短至十分钟,有望彻底改变软件开发模式。
阿里巴巴Qwen 3全系适配苹果MLX架构
近日,阿里巴巴通义千问官方宣布,正式发布并开源Qwen3全系列32款MLX量化模型,此举引发AI领域广泛关注。 MLX作为一款开源的机器学习框架,专为苹果芯片深度适配,具备高效训练和部署AI大模型的能力,正受到越来越多AI开发者的青睐。而阿里巴巴此次动作,被业内视为是为国行Apple Intelligence(苹果智能)做准备。此前,多方权威消息已透露,阿里巴巴将成为苹果在中国大陆的大模型合作商。
阿里开源MaskSearch!AI学会主动搜索+多步推理,复杂问题精准破解
近日,阿里通义实验室宣布开源全新预训练框架MaskSearch,通过创新的检索增强掩码预测(RAMP)方法和强化学习技术,显著提升AI在复杂问题解决中的表现。这一框架让AI学会主动搜索与多步推理,为智能搜索和问答系统开辟了新的可能性。AIbase编辑团队整理了最新信息,为您深度解析MaskSearch的亮点与行业影响。MaskSearch:让AI学会“主动搜索+多步推理”MaskSearch的核心创新在于其**检索增强掩码预测(RAMP)**机制。这一机制通过模拟“填空题”的方式,训练AI在面对不完整信息时,主动调用搜
音频驱动生成面部视频技术JoyVASA 支持小动物角色
近日,研究人员提出了一种名为 JoyVASA 的新技术,旨在提升音频驱动的图像动画效果。随着深度学习和扩散模型的不断发展,音频驱动的人像动画在视频质量和嘴形同步精度方面取得了显著进展。然而,现有模型的复杂性增加了训练和推理的效率问题,同时也限制了视频的时长和帧间连续性。JoyVASA 采用了两阶段的设计,第一阶段引入了一种解耦的面部表征框架,将动态面部表情与静态的三维面部表征分开。这种分离使得系统能够将任何静态的三维面部模型与动态动作序列相结合,从而生
