相关推荐
NotebookLM集成Nano Banana,可用于视频生成配图
谷歌NotebookLM集成Nano Banana图像生成模型,实现从文本处理到多模态创作的升级,用户可将笔记转化为视频,提升学习与创作效率。本周起向Pro用户逐步推送,预计数周内全面覆盖。
阿里通义千问开源全新文生图模型Qwen-Image
通义千问系列首次开源了一款名为Qwen-Image的20亿参数多模态扩散变换器(MMDiT)图像生成基础模型。这一创新成果不仅在复杂文本渲染和精确图像编辑方面取得了突破性进展,更是在多个公开基准测试中展现了卓越性能,成为图像生成与编辑领域的新星。 Qwen-Image以其强大的文本渲染能力脱颖而出,支持多行布局、段落级文本生成及细粒度细节呈现,无论是英语还是中文,均能实现高保真输出。例如,在渲染宫崎骏风格的动漫场景时,模型能够精准呈现店铺牌匾、人物姿势及神态,甚至酒缸上的细小文字也清晰可见。同样,在中文对联的渲染中,Qwen-Image不仅准确绘
混元开源新方案 MixGRPO:训练效率大幅提升,性能反而更强
腾讯混元团队推出图像生成新框架MixGRPO,通过结合SDE和ODE创新采样策略,将训练时间缩短50%,其变体MixGRPO-Flash更降低71%。该框架优化MDP过程,限制智能体探索范围,在保持性能的同时显著提升效率。研究采用滑动窗口策略聚焦关键去噪步骤,并引入高阶求解器加速采样,使图像生成质量和多样性均有提升。相关代码已开源。
通义千问发布多模态统一理解与生成模型Qwen VLo
近日,Qwen VLo多模态大模型正式发布,该模型在图像内容理解与生成方面取得了显著进展,为用户带来了全新的视觉创作体验。 据介绍,Qwen VLo在继承原有Qwen-VL系列模型优势的基础上,进行了全面升级。该模型不仅能够精准“看懂”世界,更能基于理解进行高质量的再创造,真正实现了从感知到生成的跨越。用户现在可以在Qwen Chat(chat.qwen.ai)平台上直接体验这一新模型。
Imagen 4登陆Gemini!聊天秒变画廊,AI图像生成进入新纪元
Google旗下Gemini平台迎来重磅更新,正式集成了最新的Imagen4图像生成模型。这一升级让用户能够在聊天对话中通过简单提示直接生成高质量图像,标志着AI图像生成技术迈向更直观、更便捷的新阶段。Imagen4加持:图像生成质量飞跃Gemini平台现已全面启用Imagen4,这是Google最新一代的文本到图像生成模型,相较于前代Imagen3实现了显著提升。据官方介绍,Imagen4在以下方面表现尤为出色: 细腻细节呈现:无论是复杂织物的褶边、水滴的晶莹质感,还是动物毛发的逼真纹理,Imagen4都能以惊艳的清晰度呈