相关推荐
英伟达发布多模态“全能模型”,推理效率达竞品 9 倍
英伟达发布开放式多模态大模型Nemotron3Nano Omni,整合视频、音频、图像和文本的深度推理能力,采用30B-A3B混合专家架构,内置视觉与音频编码器,旨在为开发者提供更快速、更智能的交互响应方案。
2026年4月29号 9:03
223.8k
腾讯推出具身多模态大模型 HY-Embodied-0.5-X,赋能机器人智能交互
腾讯 Robotics X 与混元团队联合开源HY-Embodied-0.5-X多模态大模型,专为机器人具身任务优化。该模型基于MoT-2B架构,强化“看懂、想清、做到”能力,在精细操作、空间推理、动作预测和风险判断上表现突出。系列包含MoT-2B和MoE-32B两个版本,旨在提升机器人在真实环境的智能交互水平。
2026年4月27号 13:54
232.2k
昆仑万维发布 “4+3 战略”:从技术底座到商业闭环
昆仑万维2025年报显示,公司营收81.98亿元,同比增长44.78%,海外收入77.23亿元,增长49.91%。公司推出“4+3战略”,明确了AI驱动内容生产的发展方向,涵盖技术与商业布局。
2026年4月24号 11:29
264.1k
阿里ATH事业群HappyHorse模型登顶AI视频榜,Elo积分力压Seedance2.0
国产多模态模型“HappyHorse-1.0”在文本转视频评测中以1332分登顶,领先字节跳动模型近60分。其海外社交账号首位关注者为阿里巴巴,暗示其研发背景。
2026年4月10号 9:48
202.4k
美团发布原生多模态 LongCat-Next:视觉语音实现底层统一
美团发布原生多模态大模型LongCat-Next,突破传统“语言基座+插件”架构,通过DiNA技术将图像、语音与文本统一转化为同源离散Token,实现AI原生“看”与“听”物理世界,完成多模态建模深度统一。
2026年4月3号 17:59
327.8k
