正文

浙大校友與微軟合作推出多模態模型LLaVA，挑戰GPT-4V

發布於AI新閒資訊

時間 :Oct 12, 2023

閱讀 :1分鐘

浙大竺院的一位校友與微軟研究院合作，推出了多模態模型LLaVA，挑戰GPT-4V。LLaVA在11個測試數據集上表現出色，獲得6k+星標。模型綜合能力高，超過GPT-4V水平的85%。LLaVA的開源代碼、模型和訓練數據已經可供使用。

國產多模態大模型迎來里程碑，MiniMax M3 正式開源且響應速度倍增

稀宇科技今日宣佈開源其原生多模態旗艦模型MiniMax M3，總參數428B，激活參數23B，爲行業首個此類模型。此前已開放權重併發布稀疏注意力機制論文，引發廣泛關注。該模型綜合性能在開源模型中排名第一。

谷歌發佈全新多模態模型Gemma4 12B，顛覆傳統架構，取消獨立編碼器組件，實現消費級硬件上的高效本地部署與推理。這一突破顯著降低多模態模型的計算複雜度，提升運行速度，標誌着開源大模型生態進入新階段。

谷歌發佈Gemma 4 12B多模態模型，擁有12億參數，創新取消傳統編碼器，可直接處理視覺與音頻數據。該模型僅需16GB顯存，可在高端筆記本本地運行，無需依賴雲端資源。

網易有道發佈“子曰”大模型4.0版本，全面升級至全模態時代，支持文本、圖片、音頻融合交互。核心的多模態模型和語音合成（TTS）模型正式開源，翻譯模型經技術重構，翻譯質量與效率顯著提升。多模態模型在視覺和數理領域達到SOTA水平，純文本數理難題性能行業領先。

MiniMax（稀宇科技）啓動“10x Team”全球人才合作計劃，旨在匯聚各行業頂尖專家，結合行業深度認知與前沿AI技術，推動大模型在垂直領域的應用，將生產力從通用擴展至專業場景，實現行業效率“十倍增長”，並開放多模態核心資源以驗證行業認知價值。

智啟未來，您的人工智能解決方案智庫