昆仑万维正式发布SkyReels-A3模型：照片可根据语音对口型

昆仑万维集团宣布推出其最新技术成果SkyReels-A3模型，这是一款基于DiT（Diffusion Transformer）视频扩散模型的音频驱动数字人创作工具。SkyReels-A3的发布标志着数字内容创作领域的一大进步，它能够实现任意时长的全模态音频驱动数字人创作，为用户带来全新的体验。

SkyReels-A3模型的核心功能是让静态图像或视频“活”起来，通过上传人像图片和相应的语音，即可使图片中的人物按照语音内容开口说话或唱歌。此外，该模型还支持创作新的视频内容，用户只需提供人像图片、语音和文字提示，即可生成按照要求状态进行表演的视频。SkyReels-A3还能够为现有视频“改台词”，自动匹配新的口型、表情和表演，保持画面连贯。

微信截图_20250811092633.png

该模型在文本提示词输入、动作交互自然度、运镜控制以及视频输出时长等方面都进行了优化和提升。SkyReels-A3支持长达60秒的单分镜视频输出，多分镜支持无限时长，满足不同创作需求。昆仑万维还针对线上直播等实际应用场景进行了特定优化，提高了视频生成的一致性和特定交互动作的自然度和清晰度。

SkyReels-A3的推出，不仅为广告、直播带货等商业应用提供了强有力的技术支持，也为音乐MV、电影片段或演讲视频等艺术创作提供了更多可能性。昆仑万维通过引入基于ControlNet结构的镜头控制模块，实现了帧级别精准运镜控制，预设了8种常见的运镜参数，用户可以根据需要选择相应运镜，并且每个运镜的强度可0–100%连续调节，生成专业的运镜效果。

SkyReels-A3模型的发布，预示着数字内容创作将变得更加高效和便捷。昆仑万维集团通过这一创新技术，为电影制作、虚拟直播、游戏开发与教育内容创作等领域提供了低门槛、低成本、高保真的AI技术制作方案。SkyReels-A3的推出，代表了声音即影像的可能性，为个性化、交互式内容的创作提供了前所未有的高效与便捷，也许下一个刷屏的爆款视频就来自你的灵感。

SkyReels-A3项目主页:

https://skyworkai.github.io/skyreels-a3.github.io/

SkyReels 官网地址:

https://www.skyreels.ai/home

SkyReels系列开源模型地址:

https://huggingface.co/Skywork

DiT 作者谢赛宁再出王炸！多人视频世界模型 Solaris 发布，种子轮估值已超 35 亿美元

2026年3月11日，谢赛宁团队发布全球首个多人视频世界模型Solaris，实现从“单人单视角”到“多人交互世界”的跨越。其核心技术基于昆仑天工开源架构，引入多人自注意力层，显著提升了建筑一致性，验证了多玩家在虚拟世界中的协同感知能力。

谢赛宁团队发布首个多人视频世界模型 Solaris，采用昆仑万维 Matrix-Game2.0底座

近日，谢赛宁团队发布全球首个多人视频世界模型Solaris。该模型基于昆仑天工开源的Matrix-Game2.0技术，在《我的世界》中验证了多玩家协同感知能力。通过引入多人自注意力层，Solaris实现了玩家间高效信息交换，有效提升了建筑一致性与视觉对齐等复杂交互表现。

腾讯HunyuanImage 2.1强势登顶！开源2K文生图王者，秒变高清艺术大师？

近日，腾讯Hunyuan团队正式开源HunyuanImage2.1，这款17B参数的DiT（Diffusion Transformer）文生图模型迅速登顶Artificial Analysis Image Arena排行榜，超越HiDream-I1-Dev和Qwen-Image，成为开源权重模型的新领军者。该模型支持原生2048x2048分辨率输出，并显著提升文本生成能力，尤其在双语（中英）支持和复杂语义理解上表现出色。根据最新科技讨论和官方发布整理，这一升级版模型在专业评估中胜率接近闭源商业级产品，标志着开源AI图像技术迈向高分辨率、高保真新时代，预计将助力设计师和开发者大幅提升

开源界核弹！Step1X-Edit 登陆 Hugging Face，用自然语言“画”出新世界，性能直逼 GPT-4o！

开源人工智能的星空，昨夜骤然被一颗新星照亮!备受瞩目的 Step1X-Edit 图像编辑框架，已于2025年4月24日正式登陆 Hugging Face 社区，瞬间点燃了全球开发者和创意工作者的热情。这不仅仅是又一个开源工具的发布，更像是一次对现有图像编辑格局的强力挑战。据悉，Step1X-Edit 巧妙地将强大的多模态大语言模型（Qwen-VL）与先进的扩散变换器(DiT)深度融合，赋予用户通过简单的自然语言指令，即可实现令人惊叹的高精度图像编辑能力。其表现出的卓越性能，甚至敢于直接叫板像 GPT-4o 与 Gemini2Flash

昆仑万维正式发布SkyReels-A3模型：照片可根据语音对口型

相关推荐

DiT 作者谢赛宁再出王炸！多人视频世界模型 Solaris 发布，种子轮估值已超 35 亿美元

谢赛宁团队发布首个多人视频世界模型 Solaris，采用昆仑万维 Matrix-Game2.0底座

阿里巴巴开源 Z-Image 图像模型：支持中英双语文字渲染

腾讯HunyuanImage 2.1强势登顶！开源2K文生图王者，秒变高清艺术大师？

开源界核弹！Step1X-Edit 登陆 Hugging Face，用自然语言“画”出新世界，性能直逼 GPT-4o！