阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型,该模型基于Qwen2-VL-72B构建,融合了强大的语言和视觉能力,能够处理更为复杂的推理和分析任务,标志着阿里巴巴在多模态AI领域取得了新的突破。



阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型,该模型基于Qwen2-VL-72B构建,融合了强大的语言和视觉能力,能够处理更为复杂的推理和分析任务,标志着阿里巴巴在多模态AI领域取得了新的突破。


声智科技推出全球首款多模态AI时尚耳机,融合视觉与声学交互,突破传统耳机局限。该产品定位为“随身感知工具”,通过声视融合技术实现“看得见、听得清、回得准”,即将在Kickstarter全球首发。
苹果推出多模态AI模型UniGen1.5,整合图像理解、生成与编辑三大功能于统一框架,显著提升效率。该模型利用图像理解能力优化生成效果,实现技术突破。
美团引入前字节跳动AI专家潘欣,负责多模态AI创新,以强化AI基础设施,应对激烈市场竞争。潘欣拥有谷歌大脑及百度等顶尖企业经验,将助力美团提升技术实力。
多模态AI公司ElevenLabs推出集成式内容创作平台,融合图像生成、视频制作、声音合成、音乐创作和音效设计功能,实现从剧本到成品视频的一站式闭环生产,帮助创作者和营销人员告别多平台切换,高效完成商业视频制作。
百度世界大会发布文心大模型5.0,李彦宏将其定义为“原生全模态模型”,实现文本、图像、声音深度融合协同,突破传统多模态拼接方式,推动国产AI进入新纪元。