Salesforce推出xGen-MM開源多模態AI模型，助力視覺理解

Salesforce推出了一套名爲 xGen-MM 的開源多模態 AI 模型，這套模型可以同時理解和生成文本、圖像等多種數據類型，可能會徹底改變我們對 AI 的研究和應用方式。

Salesforce AI 研究團隊在 arXiv 上發佈了一篇論文，詳細介紹了 xGen-MM 框架。這個框架不僅包含了預訓練模型，還有數據集和微調代碼。值得一提的是，這個最大模型有40億個參數，性能在多個基準測試中表現不俗，與同類開源模型相比毫不遜色。

這次開源的舉動，與目前很多科技巨頭選擇將高級 AI 模型保密的趨勢截然不同。Salesforce 表示，他們希望通過開放模型和數據集，來促進更廣泛的研究和開發。其實，這樣的決定也是爲了讓更多的研究人員和開發者有機會參與到多模態 AI 技術的進步中來。

xGen-MM 的一大創新在於它能夠處理 “交錯數據”，也就是說，它可以同時處理多個圖像和文本。這種能力讓模型能夠執行更復雜的任務，比如同時回答關於多張圖像的問題，真的是相當牛!這樣的應用場景可能在醫療診斷、自動駕駛等領域會大有用武之地。

此次發佈還包括了多種優化版本的模型，比如基礎預訓練模型、一個爲遵循指令而調優的模型，以及一個旨在減少有害輸出的 “安全調優” 模型。這種多樣化的選擇，反映了 AI 社區對能力與安全倫理的平衡日益重視。

不過，隨着強大模型的發佈，也引發了人們對更先進 AI 系統潛在風險和社會影響的討論。儘管 Salesforce 已經做了安全調優來降低風險，但如何平衡創新與安全，仍然是個值得深思的問題。

Salesforce 的這一開源發佈，給研究人員提供了寶貴的工具，以更好地理解和改進這些強大的技術。同時，這也爲 AI 領域的透明度樹立了一個新的標杆，可能會推動其他科技巨頭更加開放他們的研究。

模型入口:https://huggingface.co/collections/Salesforce/xgen-mm-1-models-662971d6cecbf3a7f80ecc2e

劃重點:
🌟 xGen-MM 是 Salesforce 推出的一套開源多模態 AI 模型，支持文本和圖像的綜合理解與生成。
🔍 模型具有處理交錯數據的能力，能夠同時回答關於多張圖像的問題，應用前景廣闊。
🔒 該發佈包括多種優化版本，關注安全性與倫理問題，爲研究者提供豐富的資源。

Salesforce AI 推全新大語言模型評估家族SFR-Judge 基於Llama3構建

在自然語言處理領域，大型語言模型（LLMs）的發展迅速，已經在多個領域取得了顯著的進展。不過，隨着模型的複雜性增加，如何準確評估它們的輸出就變得至關重要。傳統上，我們依賴人類來進行評估，但這種方式既耗時又難以規模化，無法跟上模型快速發展的步伐。爲了改變這種現狀，Salesforce AI 研究團隊推出了 SFR-Judge，這是一個由三個大型語言模型組成的評估家族。這些模型分別擁有80億、120億和700億個參數，基於 Meta Llama3和 Mistral NeMO 構建。SFR-Judge 能夠執行多種評估任務，包括成

HuggingFace發佈AI機器人開源指南"LeRobot" 降低入門門檻

LeRobot由HuggingFace開源項目發佈，提供了一套詳盡指南，旨在簡化AI驅動機器人技術的入門門檻，支持機器人領域的開源生態系統。該指南面向廣泛受衆，由LeRobot聯合創始人Remi Cadene製作，旨在普及AI在機器人技術的應用，鼓勵創新。基於開源機器人套件Koch v1.1，指南涵蓋組裝、配置和訓練AI控制機器人的全過程，以兩個6自由度機械臂和攝像頭爲核心。LeRobot計劃推出更經濟實惠的Moss v1機器人版本，成本僅需150美元，省去3D打印步驟。項目目標是壯大機器人社區，利用開源技術和Hugging Face Hub快速迭代，同時強調開源方式的重要性，認爲這項技術最終將推動社會和工業進步，應惠及全人類。

微軟推出全新 Phi-3.5 系列 AI 模型，擊敗谷歌、OpenAI等

微軟發佈三款新AI模型，旨在多語言和多模態領域增強其領先地位。Phi-3.5Mini Instruct輕量級模型，適合指令執行、代碼生成和邏輯推理，特別在多語言和多輪對話中表現出色。Phi-3.5MoE混合專家模型，參數豐富，支持多種推理任務，特別是在代碼、數學和多語言理解上超越同類模型。Phi-3.5Vision Instruct集成了文本和圖像處理能力，適用於圖像理解、光學字符識別等複雜多幀視覺任務。這三款模型均採用MIT開源許可證，提供給開發者自由使用、修改和分發，體現了微軟對開源社區的支持。

新壹視頻大模型2.0發佈：支持1080P 60幀輸出最高支持4K

新壹科技近期發佈了其最新技術成果——新壹視頻大模型2.0，標誌着公司在AI視頻創作領域的技術飛躍和對創作自由度的深度拓展。該技術集成了先進的AI算法和深度學習技術，能夠實現從劇本構思到視頻成片的全流程自動化創作，極大降低了視頻創作的門檻和成本。

AI舞王Viggle：一鍵讓馬斯克和特朗普共舞，月訪問量破680萬

馬斯克通過發佈與特朗普共舞的視頻，藉助一款名爲Viggle AI的AI視頻生成工具，引發了全網關注，視頻播放量迅速突破1.3億。Viggle AI的魔力在於其模板化操作，用戶僅需上傳照片和選擇動作模板，就能生成流暢自然的舞蹈視頻。該工具的多角色控制功能Multi進一步激發了用戶的創意，用戶製作出各種創意視頻在網上傳播，爲Viggle AI帶來了大量用戶。Viggle AI的模板化操作降低了創作門檻，使普通用戶也能輕鬆製作專業水準的視頻。這一成功不僅體現了AI技術在日常生活中的廣泛應用，也展示了AI在提升用戶體驗和激發創意方面的重要作用。

Salesforce推出xGen-MM開源多模態AI模型，助力視覺理解

相關推薦

​Salesforce AI 推全新大語言模型評估家族SFR-Judge 基於Llama3構建

HuggingFace發佈AI機器人開源指南"LeRobot" 降低入門門檻

微軟推出全新 Phi-3.5 系列 AI 模型，擊敗谷歌、OpenAI等

新壹視頻大模型2.0發佈：支持1080P 60幀輸出 最高支持4K

AI舞王Viggle：一鍵讓馬斯克和特朗普共舞，月訪問量破680萬

Salesforce AI 推全新大語言模型評估家族SFR-Judge 基於Llama3構建

新壹視頻大模型2.0發佈：支持1080P 60幀輸出最高支持4K