智源研究院開源 JudgeLM 裁判模型可評測各類大模型並輸出評分

智源研究院開源了一種名爲 JudgeLM 的裁判模型，可以高效準確地評判各類大模型。與 GPT-4 相比，JudgeLM 僅需 1/120 的成本，就能達到 90% 以上的評判結果一致性。JudgeLM 可應用於純文本、多模態等多種評判場景，並可以輸出評分、判斷和闡述理由。通過創新方法，JudgeLM 與參考答案的一致性最高超過了 90%，接近人類表現。智源研究院還開源了一個包含訓練和驗證樣本的數據集，用於深入研究大語言模型裁判。未來，JudgeLM 團隊將進一步完善這一裁判模型，提供更準確、高效、覆蓋更多場景的大語言模型評判。

智源研究院推出Emu3等“悟界”系列大模型

在剛剛閉幕的第七屆 “北京智源大會” 上，智源研究院重磅推出了一系列名爲 “悟界” 的大模型。這些模型的發佈標誌着人工智能領域又一次技術的飛躍，吸引了衆多科技愛好者的目光。此次發佈的模型包括原生多模態世界模型 Emu3、腦科學多模態通用基礎模型見微 Brainμ、以及跨本體的具身大小腦協作框架 RoboOS2.0和具身大腦 RoboBrain2.0。此外，還有全原子微觀生命模型 OpenComplex2。這些模型涵蓋了從基礎科學到複雜智能系統的廣泛應用，展現了智源研究院在多模態智能技術方面的雄心和

智源研究院開源輕量級超長視頻理解模型Video-XL-2

近日，智源研究院聯合上海交通大學等機構正式發佈了一款新一代超長視頻理解模型——Video-XL-2。這一模型的推出標誌着長視頻理解技術在開源領域取得了重大突破，爲多模態大模型在長視頻內容理解方面的發展注入了新的活力。在技術架構方面，Video-XL-2主要由視覺編碼器、動態Token合成模塊（DTS）以及大語言模型(LLM)三個核心組件構成。該模型採用SigLIP-SO400M作爲視覺編碼器，對輸入視頻進行逐幀處理，將每一幀編碼爲高維視覺特徵。隨後，DTS模塊對這些視覺特徵進行融合壓縮，並建模其時序關係，以提取更具語義的動態信息。處理後的視覺表徵通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間，實現模態對齊。最終，對齊後的視覺信息輸入至Qwen2.5-Instruct，以實現對視覺內容的理解與推理，並完成相應的下游任務。

智源研究院與騰訊達成戰略合作推動大模型、AI等應用落地

智源研究院與騰訊集團於2024年12月18日簽署了戰略合作協議，雙方將在大模型研發、人工智能技術前沿探索及開源生態建設等多個領域進行深入合作。根據合作協議，智源研究院與騰訊將利用各自的優勢，推動大模型技術與產業場景的深度融合，並探索在多元算力環境下的大模型訓練與推理優化技術解決方案。雙方還將致力於構建一個開放創新的軟硬件生態體系，以促進技術的發展和應用。

智源發佈原生多模態世界模型Emu3：僅靠下一個token預測實現文本、圖像和視頻理解和生成

智源研究院正式發佈了他們的新一代多模態世界模型 Emu3，該模型的最大亮點在於，它僅依靠下一個 token 的預測能力，就能在文本、圖像和視頻這三種不同模態中進行理解和生成。在圖像生成方面，Emu3能夠根據視覺 token 預測生成高質量的圖像。這意味着用戶可以期待靈活的分辨率和多樣的風格。而在視頻生成方面，Emu3則是以一種全新的方式工作，不同於其他模型通過噪聲生成視頻，Emu3通過順序預測直接生成視頻。這種技術的進步使得視頻生成變得更加流暢自然。在圖像生成、視頻生成和

智源研究院推出全球首箇中文大模型辯論平臺FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首箇中文大模型辯論平臺FlagEval Debate。這一新平臺旨在通過模型辯論這一競爭機制，爲大語言模型的能力評估提供新的度量方式。它是智源模型對戰評測服務FlagEval大模型角鬥場的擴展，目標是甄別大語言模型之間的能力差異。