智源發佈全球最大中英文語義向量模型訓練數據集 MTP

智源研究院發佈了全球最大的中英文語義向量模型訓練數據集 MTP，數據規模達 3 億對。該數據集包含來自不同來源的中英文文本對，爲訓練中英文語義向量模型提供了重要基礎。智源研究院表示，數據對大模型訓練起着至關重要的作用，並將推動人工智能協同創新。該數據集的發佈有望解決中文模型訓練數據集缺乏的問題。

智源研究院推出Emu3等“悟界”系列大模型

在剛剛閉幕的第七屆 “北京智源大會” 上，智源研究院重磅推出了一系列名爲 “悟界” 的大模型。這些模型的發佈標誌着人工智能領域又一次技術的飛躍，吸引了衆多科技愛好者的目光。此次發佈的模型包括原生多模態世界模型 Emu3、腦科學多模態通用基礎模型見微 Brainμ、以及跨本體的具身大小腦協作框架 RoboOS2.0和具身大腦 RoboBrain2.0。此外，還有全原子微觀生命模型 OpenComplex2。這些模型涵蓋了從基礎科學到複雜智能系統的廣泛應用，展現了智源研究院在多模態智能技術方面的雄心和

智源研究院開源輕量級超長視頻理解模型Video-XL-2

近日，智源研究院聯合上海交通大學等機構正式發佈了一款新一代超長視頻理解模型——Video-XL-2。這一模型的推出標誌着長視頻理解技術在開源領域取得了重大突破，爲多模態大模型在長視頻內容理解方面的發展注入了新的活力。在技術架構方面，Video-XL-2主要由視覺編碼器、動態Token合成模塊（DTS）以及大語言模型(LLM)三個核心組件構成。該模型採用SigLIP-SO400M作爲視覺編碼器，對輸入視頻進行逐幀處理，將每一幀編碼爲高維視覺特徵。隨後，DTS模塊對這些視覺特徵進行融合壓縮，並建模其時序關係，以提取更具語義的動態信息。處理後的視覺表徵通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間，實現模態對齊。最終，對齊後的視覺信息輸入至Qwen2.5-Instruct，以實現對視覺內容的理解與推理，並完成相應的下游任務。

智源研究院與騰訊達成戰略合作推動大模型、AI等應用落地

智源研究院與騰訊集團於2024年12月18日簽署了戰略合作協議，雙方將在大模型研發、人工智能技術前沿探索及開源生態建設等多個領域進行深入合作。根據合作協議，智源研究院與騰訊將利用各自的優勢，推動大模型技術與產業場景的深度融合，並探索在多元算力環境下的大模型訓練與推理優化技術解決方案。雙方還將致力於構建一個開放創新的軟硬件生態體系，以促進技術的發展和應用。

智源發佈原生多模態世界模型Emu3：僅靠下一個token預測實現文本、圖像和視頻理解和生成

智源研究院正式發佈了他們的新一代多模態世界模型 Emu3，該模型的最大亮點在於，它僅依靠下一個 token 的預測能力，就能在文本、圖像和視頻這三種不同模態中進行理解和生成。在圖像生成方面，Emu3能夠根據視覺 token 預測生成高質量的圖像。這意味着用戶可以期待靈活的分辨率和多樣的風格。而在視頻生成方面，Emu3則是以一種全新的方式工作，不同於其他模型通過噪聲生成視頻，Emu3通過順序預測直接生成視頻。這種技術的進步使得視頻生成變得更加流暢自然。在圖像生成、視頻生成和

智源研究院推出全球首箇中文大模型辯論平臺FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首箇中文大模型辯論平臺FlagEval Debate。這一新平臺旨在通過模型辯論這一競爭機制，爲大語言模型的能力評估提供新的度量方式。它是智源模型對戰評測服務FlagEval大模型角鬥場的擴展，目標是甄別大語言模型之間的能力差異。