阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型,该模型基于Qwen2-VL-72B构建,融合了强大的语言和视觉能力,能够处理更为复杂的推理和分析任务,标志着阿里巴巴在多模态AI领域取得了新的突破。



阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型,该模型基于Qwen2-VL-72B构建,融合了强大的语言和视觉能力,能够处理更为复杂的推理和分析任务,标志着阿里巴巴在多模态AI领域取得了新的突破。


美团开源多模态大模型LongCat-Flash-Omni实现技术突破,在多项基准测试中超越闭源竞品,达到业界领先水平。该模型支持文本、语音、图像、视频的实时融合处理,具备近乎零延迟的交互能力,将本地化多模态AI应用推向新高度。
谷歌推出StreetReaderAI原型系统,帮助盲人和低视力用户通过自然语言交互自主探索谷歌街景。该系统融合计算机视觉、地理信息系统和大语言模型,实现多模态AI驱动的实时对话式街景体验,突破传统语音播报局限,提升无障碍城市探索自由度。
智源研究院发布Emu3.5多模态世界模型,首次引入自回归式“下一状态预测”技术,推动AI从感知理解迈向智能操作。该模型能在复杂环境中规划执行跨模态任务,实现多模态AI质的飞跃。
百度将在11月世界2025大会上正式发布小度AI眼镜,计划年内开售。该产品融合多模态AI与可穿戴技术,是百度智能硬件生态的重要布局。其核心功能包括第一视角拍摄,可实时记录用户所见画面,适用于生活记录和内容创作。
马斯克旗下xAI发布视频生成模型Imagine v0.9,在多模态AI创作领域实现突破。相比v0.1版本,新模型在画质、动作自然度和音频生成方面显著提升:视觉质量接近电影级,动作流畅无断层,并新增原生音频生成功能。