正文

美团重磅开源 6B 参数图像生成模型 LongCat-Image，中文文字生成与图像编辑达SOTA水平

发布于AI新闻资讯

发布时间 :2025年12月8号 10:14

阅读 :1分钟

近日，美团 LongCat 团队宣布推出 LongCat-Image 图像生成模型，并将其开源。这一新模型以6B 参数规模实现了高性能与低门槛的完美结合，旨在满足当前日益增长的 AI 图像生成需求。随着行业对图像生成技术的期待日益高涨，LongCat-Image 模型应运而生，填补了开源与闭源模型之间的差距。

LongCat-Image 在文生图和图像编辑领域的表现十分出色。在图像编辑方面，模型在多个基准测试中达到了开源 SOTA（State-of-the-Art）水平，充分证明了其在指令遵循和视觉一致性方面的强大能力。团队通过系统性的训练策略与数据工程，使得模型在多样化的指令下，仍能保持高效的性能和准确性。

特别是在中文文字生成方面，LongCat-Image 展现出极高的精准度。模型采用课程学习策略，针对汉字的字符覆盖和渲染效果进行了全面提升，能够支持复杂笔画结构汉字的渲染，满足海报设计、商业广告等场景的需求。

此外，LongCat-Image 的设计注重用户体验，采用主观评分方法对模型进行评估，确保在文生图和图像编辑任务中的真实度与视觉合理性均达到高水平。这一切的努力使 LongCat-Image 在与其他开源和闭源模型的竞争中脱颖而出，展现出强大的市场潜力。

LongCat 团队表示，他们希望通过开源的方式构建一个透明、开放、协作的生态系统，鼓励开发者参与到模型的使用与共建中。用户可以通过 Hugging Face 和 GitHub 访问 LongCat-Image，体验这一高效能模型的强大功能。

为了进一步拓宽 AI 创作的可能性，LongCat APP 也进行了升级，新增图生图功能，用户可轻松上传各种素材，模型将自动生成全新图像。同时，APP 提供了24个易用模板，帮助用户快速实现专业级图像创作。

地址： https://longcat.ai/

2. 8 万亿参数、 100 万词元上下文，Kimi K3 把开源大模型的天花板顶到了全球最高

2026世界人工智能大会前夕，月之暗面发布Kimi K3，参数规模达2.8万亿，成为全球参数最大的开源模型，首次在体量上反超闭源巨头。该模型并非简单堆砌参数，展现开源阵营的重大突破。

2026年7月17号 8:46

215.4k

前OpenAI CTO穆拉蒂打造多模态Inkling模型登场，号称美国最强开源AI

前OpenAI CTO穆拉蒂创立的思维机器实验室发布首款从零训练多模态模型Inkling，号称美国最强开源。采用MoE（975B总参/41B激活），上下文100万token，预训练45万亿token覆盖图文音视频，已开源权重。团队豪华，但推理编程不及中国开源劲旅。

2026年7月16号 16:03

161.1k

谷歌搜索引入“无结果生图”:AI 概览变身创意画布，恐分流网站流量

谷歌搜索的AI概览将新增图像生成功能，用户可直接输入文字生成图片，无需依赖现有网络图像。该功能采用“Nano Banana2Lite”模型，优先保障速度与成本而非极致画质，目前仅限英语用户，预计未来几周内推出。

2026年7月15号 10:09

168.5k

腾讯混元发布 HyOCR-1.5：仅 1B 参数推理提速 6.37 倍

轻量级端到端OCR模型HyOCR-1.5发布，在保持轻量化同时大幅提升性能与效率。作为首个全栈开源OCR模型，它全面开放权重、训练配方、数据构造方法及推理加速框架，显著降低开发门槛，让开发者可轻松复现、微调，并在消费级显卡或笔记本上部署。

2026年7月14号 9:46

270.7k

Meta超级智能实验室首发图像模型Muse Image：对话即可生成，Instagram和WhatsApp免费用

Meta推出首个图像生成模型Muse Image，免费登陆Meta AI、Instagram和WhatsApp。用户用对话式语言即可快速生成高质量图像，还能擦除路人、渲染文字、重装房间，甚至模拟历史地标前的留影。

2026年7月8号 15:46

229.5k

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご