近日,艾倫人工智能研究所(Ai2)發佈了 Molmo,這是一個全新的開源多模 AI 模型家族,表現出色,甚至在多個第三方基準測試中超越了 OpenAI 的 GPT-4o、Anthropic 的 Claude3.5Sonnet 和谷歌的 Gemini1.5。

image.png

Molmo 不僅能接受用戶上傳的圖像進行分析,還使用了 “比競爭對手少1000倍的數據” 進行訓練,這得益於其獨特的訓練技巧。

image.png

這次發佈展示了 Ai2對開放研究的承諾,提供了高性能的模型以及開放的權重和數據,供更廣泛的社區和企業使用。Molmo 家族包括四個主要模型,分別是 Molmo-72B、Molmo-7B-D、Molmo-7B-O 和 MolmoE-1B,其中 Molmo-72B 是旗艦模型,包含72億個參數,表現尤爲突出。

根據各項評估,Molmo-72B 在11重要基準測試獲得了最高分,並在用戶偏好方面僅次於 -4o。Ai2還推出了一款爲 OLMoE 的模型,採用了 “小型模型組合” 的方式,旨在提高成本益。

Molmo 的架構經過精心設計,以實現高效和卓越的性能。所有模型使用 OpenAI 的 ViT-L/14336px CLIP 模型作爲視覺編碼器,將多尺度的圖處理成視覺令。語言模型部分是解碼器 Transformer,具有不同的容量和開放性。

在訓練方面,Mol 經過了兩階段的訓練:首先是多模預訓練,其次是有監督的微調。與許多現代模型不同,Molmo 並未依賴於人類反饋的強化學習,而是通過細緻調優的訓練流程來更新模型參數。

Molmo 在多個基準測試中表現優異,特別是在文檔閱讀和視覺推理等複雜任務中,展現了其強大的能力。Ai2已經在 Hugging Face 上發佈了這些模型和數據集,未來幾個月還將推出更多模型和擴展技術報告,旨在爲研究者提供更多資源。

如果你想了解 Molmo 的功能,現在可以通過 Molmo 的官方網站進行公開演示(https://molmo.allenai.org/)。

劃重點:

🌟 Ai2Molmo 開源模態 AI 模型超越行業頂產品。

📊 Mol-72B 在多個基準測試中表現卓越,僅次於 GPT4o。

🔍 開放性強,模型和數據集供研究者與自由使用。