相关推荐
智源研究院推出Emu3等“悟界”系列大模型
在刚刚闭幕的第七届 “北京智源大会” 上,智源研究院重磅推出了一系列名为 “悟界” 的大模型。这些模型的发布标志着人工智能领域又一次技术的飞跃,吸引了众多科技爱好者的目光。此次发布的模型包括原生多模态世界模型 Emu3、脑科学多模态通用基础模型见微 Brainμ、以及跨本体的具身大小脑协作框架 RoboOS2.0和具身大脑 RoboBrain2.0。此外,还有全原子微观生命模型 OpenComplex2。这些模型涵盖了从基础科学到复杂智能系统的广泛应用,展现了智源研究院在多模态智能技术方面的雄心和
智源研究院开源轻量级超长视频理解模型Video-XL-2
近日,智源研究院联合上海交通大学等机构正式发布了一款新一代超长视频理解模型——Video-XL-2。这一模型的推出标志着长视频理解技术在开源领域取得了重大突破,为多模态大模型在长视频内容理解方面的发展注入了新的活力。 在技术架构方面,Video-XL-2主要由视觉编码器、动态Token合成模块(DTS)以及大语言模型(LLM)三个核心组件构成。该模型采用SigLIP-SO400M作为视觉编码器,对输入视频进行逐帧处理,将每一帧编码为高维视觉特征。随后,DTS模块对这些视觉特征进行融合压缩,并建模其时序关系,以提取更具语义的动态信息。处理后的视觉表征通过平均池化与多层感知机(MLP)进一步映射到文本嵌入空间,实现模态对齐。最终,对齐后的视觉信息输入至Qwen2.5-Instruct,以实现对视觉内容的理解与推理,并完成相应的下游任务。
智源研究院与腾讯达成战略合作 推动大模型、AI等应用落地
智源研究院与腾讯集团于2024年12月18日签署了战略合作协议,双方将在大模型研发、人工智能技术前沿探索及开源生态建设等多个领域进行深入合作。根据合作协议,智源研究院与腾讯将利用各自的优势,推动大模型技术与产业场景的深度融合,并探索在多元算力环境下的大模型训练与推理优化技术解决方案。双方还将致力于构建一个开放创新的软硬件生态体系,以促进技术的发展和应用。
智源发布原生多模态世界模型Emu3:仅靠下一个token预测实现文本、图像和视频理解和生成
智源研究院正式发布了他们的新一代多模态世界模型 Emu3,该模型的最大亮点在于,它仅依靠下一个 token 的预测能力,就能在文本、图像和视频这三种不同模态中进行理解和生成。在图像生成方面,Emu3能够根据视觉 token 预测生成高质量的图像。这意味着用户可以期待灵活的分辨率和多样的风格。而在视频生成方面,Emu3则是以一种全新的方式工作,不同于其他模型通过噪声生成视频,Emu3通过顺序预测直接生成视频。这种技术的进步使得视频生成变得更加流畅自然。在图像生成、视频生成和
智源研究院推出全球首个中文大模型辩论平台FlagEval Debate
北京智源人工智能研究院(BAAI)最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制,为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展,目标是甄别大语言模型之间的能力差异。
