Stable Diffusion 3 模型发布,采用了与 Sora 相同的 DiT 架构,质量有显著改进。作者表示,Stable Diffusion 3 优于其他文本到图像生成系统,参数量从 800M 到 8B 不等。SD3 架构基于 Sora 核心研发成员和纽约大学助理教授合作,使用 MMDiT 架构优于 UViT 和 DiT。Stable Diffusion 3 采用 Rectified Flow(RF)公式,作者提出的重新加权 RF 变体性能持续提高。模型进行了扩展研究,利用灵活的文本编码器进行改进,与其他模型进行了性能比较。
相关推荐
腾讯开源HunyuanImage 2.1!2K高清神图秒生成,复杂提示精准控多主体,AI设计效率爆表?
腾讯混元团队开源HunyuanImage2.1文本生成图像模型,支持原生2K分辨率输出,显著提升开源AI在高分辨率创作领域能力。该模型已在Hugging Face和GitHub开放,优化文本-图像对齐,生成速度快,可广泛应用于设计、广告和内容创作。
阿里通义万相首尾帧生视频模型Wan2.1-FLF2V-14B开源
阿里巴巴旗下的通义实验室在Hugging Face和GitHub平台正式开源了其最新的Wan2.1-FLF2V-14B首尾帧生视频模型。这一模型以其支持高清视频生成和灵活的首尾帧控制功能引发业界热议,为AI驱动的视频创作提供了全新可能。Wan2.1-FLF2V-14B:首尾帧驱动的视频生成新标杆Wan2.1-FLF2V-14B是阿里通义万相系列的最新力作,基于数据驱动训练和**DiT(Diffusion Transformer)**架构,专为首尾帧视频生成设计。据社交媒体平台上的讨论,该模型只需用户提供两张图片作为首帧和尾帧,即可生成一段长约5秒、720p分辨率的
通义万相2.1开源首尾帧生视频模型Wan2.1-FLF2V-14B
阿里通义宣布开源 Wan2.1系列模型,其中包括强大的首尾帧生视频模型。这一模型采用了先进的 DiT 架构,在技术上实现了多项突破,显著降低了高清视频生成的运算成本,同时确保了生成视频在时间与空间上的高度一致性。此次开源为开发者和创作者提供了强大的工具,推动视频生成技术的发展。
比FLUX快100倍!英伟达联手MIT、清华推出超快AI图像生成模型Sana,笔记本也能秒速出图!
英伟达与麻省理工学院、清华大学的研究人员合作开发了一款名为Sana的全新文本到图像生成框架,该框架能够高效生成高达4096×4096分辨率的图像。Sana可以在极快的速度下合成高分辨率、高质量且与文本高度一致的图像,甚至可以在笔记本电脑的GPU上运行。Sana 的核心设计包括:深度压缩自动编码器: 与传统的自动编码器仅压缩图像8倍不同,Sana 训练的自动编码器可以将图像压缩32倍,有效减少了潜在标记的数量。线性 DiT: Sana 将 DiT 中所有普通的注意力机制替换为线性注意力机制,这在高分
阿里发布 FLUX.1-Turbo-Alpha:基于FLUX.1-dev、8步提炼Lora
近日,阿里妈妈创意团队发布了 FLUX.1-Turbo-Alpha,这是基于 FLUX.1-dev 模型训练的一款8步蒸馏 Lora 模型。该模型采用了多头判别器,显著提高了蒸馏的质量,支持文本到图像生成、修复控制网等多种 FLUX 相关的应用。团队建议在使用时将引导尺度设置为3.5,Lora 尺度为1,未来还会推出更低步数的版本。FLUX.1-Turbo-Alpha 可以直接与 Diffusers 框架结合使用。用户只需通过几行代码便能加载模型并生成所需的图像。例如,你可以创建一个有趣的场景:一只微笑的树懒穿着皮夹克、牛仔帽、格子裙和蝴蝶
