Ollama多模态模型使用新版本发布

站长之家

Published in AI News · 1 minute read · Dec 14, 2023

站长之家报道，Ollama发布了新版本，支持多模态模型使用，用户只需输入指定命令即可运行。新版本还提供了更精确的量化级别，但会导致运行速度变慢。同时，快手推出了130亿和660亿大模型，进一步巩固了在AI技术领域的领先地位。

蚂蚁集团和inclusionAI联合推Ming-Omni：首个开源版多模态GPT-4o

近日，Inclusion AI 与蚂蚁集团联合推出了一款名为 “Ming-Omni” 的先进多模态模型，标志着智能技术的新突破。Ming-Omni 能够处理图像、文本、音频及视频，为多种应用提供强大支持，其功能不仅涵盖语音和图像生成，还具备多模态输入的融合处理能力。** 全面的多模态处理能力 **Ming-Omni 的设计中采用了专用编码器来提取不同模态的标记（tokens），这些标记经过 “Ling” 模块(即混合专家架构，MoE)进行处理，后者配备了新提议的模态特定路由器。这样一来，Ming-Omni 便能够高效地处理和融合多

小米多模态大模型Xiaomi MiMo-VL开源

近日，小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒，在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B，在GUI Grounding任务上的表现更是可与专用模型相媲美，为Agent时代的到来做好了准备。

谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

近期，谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作，开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调（RLFT）技术，旨在提升语言模型的决策能力。这项研究的重点在于，通过思维链的强化训练，解决了模型在决策过程中存在的一些关键问题。随着大数据的应用，现有的语言模型已经展现出处理文本的超越能力，甚至能够在交互环境中做出基于知识的决策。然而，这些模型在实际决策时却常常出现 “纸上谈兵” 的问题，虽然能推导出正确的策略，却无

Salesforce BLIP3-o重磅登陆Hugging Face！全开源多模态模型，图像理解与生成一统江湖！

Salesforce AI Research在Hugging Face平台正式发布BLIP3-o应用，这款全开源的统一多模态模型家族以其卓越的图像理解与生成能力引发业界热议。BLIP3-o通过创新的扩散变换器架构，结合语义丰富的CLIP图像特征，不仅提升了训练效率，还显著优化了生成效果。AIbase综合最新社交媒体动态，深入解析BLIP3-o的技术突破及其对AI生态的影响。BLIP3-o核心:统一多模态架构的突破BLIP3-o是Salesforce xGen-MM（BLIP-3）系列的最新成果，旨在通过单一自回归架构实现图像理解与图像生成的统一。AIbase了解到，BLIP3-o摒弃了

Ema推新型语言模型EmaFusion：成本和准确性方面击败了 O3、Gemini

在 AI 行业竞争日益激烈的今天，Ema 公司推出了一款新型语言模型 EmaFusion，声称在成本和准确性上超越了包括 O3、Gemini 和 Sonnet 在内的多款知名 AI 模型。与传统的单一策略系统不同，EmaFusion 采用了一种 “级联” 判断系统，能够动态平衡成本和准确性，同时用户也可以根据具体任务的需求进行微调。Ema 的首席执行官 Surojit Chatterjee 表示，EmaFusion 像一个 “任务智能大脑”，能够智能地拆解复杂的问题，并将其分配给最合适的 AI 模型来解决。他举例说，当处理合同分析、复杂客户支持问题或

GPT-4o图像生成功能现已集成至自定义GPTs

2025年4月26日 AIbase报道：OpenAI近日宣布，其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。这一更新标志着用户创建的定制化AI助手能够直接生成和编辑图像，为内容创作、设计和教育等领域带来更多可能性。无缝集成的图像生成体验GPT-4o的图像生成功能此前已于2025年3月25日起在ChatGPT和Sora平台向免费、Plus、Pro和Team用户逐步开放。与过去依赖DALL-E3等外部模型不同，GPT-4o的图像生成能力内嵌于模型本身，支持直接根据文本提示生成高质量图像。如今，这一功能