6B参数、16G显存、 8 步出图：阿里Z-Image把“百亿大模型”拍在沙滩上

昨晚，一张1024×1024的霓虹汉服大片在RTX4090上只用2.3秒就渲完，显存指针稳稳停在13GB——阿里通义实验室丢出的Z-Image-Turbo让围观群众瞬间安静:参数只有6B，却把20B+的闭源旗舰集体打平，甚至小胜。

没有花哨口号，Z-Image直接用成绩说话:

-8步采样即可交付印刷级画质，消费级显卡30606G就能跑，16G显存封顶;

- 超长嵌套中文咒语一次读懂，从“夜晚的阳光”到“左手奶茶右手手机屏显今日新闻”自动纠偏，中英文字母不再鬼画符;

- 皮肤毛孔、玻璃反射、雨雾逆光、电影景深通通在线，Elo人工偏好榜把Z-Image-Turbo抬进开源世界第一梯队。

秘诀藏在全新S3-DiT架构:文本、视觉语义、图像token被串成一条单流，参数量砍到对手的三分之一，推理效率却拉满。团队还顺手甩出Z-Image-Edit，一句自然语言就能让原图“换头改景”，社区玩家即刻可玩。

阿里尚未官宣是否完全开源，但模型已上架ModelScope与Hugging Face，pull request已合并进diffusers主分支，pip一行命令就能加载。一旦企业版API价格放出，Midjourney、Flux们或许得提前思考降价表。

Z-Image的出现像一声发令枪:图像生成赛道正式迈入“轻量高质”时代，算力民主化不再是一句口号——谁家显卡还没16G?

项目地址：https://github.com/Tongyi-MAI/Z-Image

阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

阿里通义实验室近日发布了一款名为 “OmniTalker” 的新型数字人视频生成大模型。这一创新模型的核心在于其能够通过上传一段参考视频，实现对视频中人物的表情、声音和说话风格的精准模仿。相较于传统的数字人制作流程，OmniTalker 显著降低了制作成本，同时提升了生成内容的真实感和互动体验，满足了广泛的应用需求。OmniTalker 的使用十分简便，用户只需在平台上上传一段参考视频，就能生成与之同步的音频和视频内容。目前，该项目已在魔搭社区和 HuggingFace 等平台开放体验，并提

阿里通义团队开源 R1-Omni：多模态模型实现音视频信息透明化

在人工智能领域，阿里通义实验室团队近日宣布开源其最新研发的多模态模型 ——R1-Omni。这一模型结合了强化学习与可验证奖励（RLVR）方法，展现出了在处理音频和视频信息方面的卓越能力。R1-Omni 的亮点在于其透明性，让我们得以更清晰地理解各模态在决策过程中的作用，尤其是在情绪识别等任务中。随着 DeepSeek R1的推出，强化学习在大模型的应用潜力被不断挖掘。RLVR 方法为多模态任务带来了新的优化思路，能够有效处理几何推理、视觉计数等复杂任务。尽管目前的研究多集中于图像

视频训练LoRA来了！Ostris 用 20 张照片打造惊艳 Wan 2.1 LoRA

2025年3月9日，美国加利福尼亚州——开源模型正让文生视频技术变得越来越有趣。AI 开发者 Ostris（@ostrisai）近日在 X 平台上分享了他使用自家照片训练的 Wan2.1LoRA 模型成果，仅凭约20张照片和一块家用 RTX4090显卡，便实现了令人惊叹的视频生成效果。这一成果不仅展示了开源技术的潜力，也引发了 X 社区对视频 LoRA 训练工具的热烈讨论。Ostris 的惊艳实验Ostris 在3月7日的 X 帖子中首次展示了 Wan2.114B LoRA 的训练成果。他写道:“Wan2.114B LoRA 训练在24GB 上成功运行!在4090上以480p 分辨率平均每步1.7

显卡市场硝烟再起：Nvidia RTX5070 发布推迟，AMD或有后招

显卡市场即将迎来新一轮的激烈竞争。Nvidia对其即将推出的RTX5070显卡寄予厚望，声称其性能可媲美RTX4090，而售价仅为549美元。然而，这一说法是否属实，还有待市场检验。Nvidia最初计划于2月发布RTX5070，但根据其产品页面今天最新透露的信息，发布日期已推迟至3月5日。不过，Nvidia仍计划在2月20日，即AMD预定活动的前一周，推出售价749美元的RTX5070Ti。目前，AMD已宣布将于2月28日举行一场流媒体活动，预计将展示Radeon RX9070和9070XT显卡。AMD此前曾表示，其产品策略并非直接与Nvidia的顶级显卡竞

Nvidia RTX 5070: 549 美元就能实现 RTX 4090 性能？