近日,艾倫人工智能研究所(Ai2)發佈了全新的 Molmo2開源視頻語言模型。這一系列新模型和相關訓練數據展示了該非營利機構在開源領域的堅定承諾,特別是在企業希望掌控模型使用的背景下,這無疑是一項重大利好。

Molmo2包含幾種不同的模型版本,包括基於阿里巴巴 Qwen3語言模型的 Molmo2-4B 和 Molmo2-8B,此外還有基於 Ai2Olmo 語言模型的完全開源版本 Molmo2-O-7B。除了模型,Ai2還推出了九個新的數據集,這些數據集包括多圖像和視頻輸入的長格式質量保證數據集,以及一個開放的視頻指向和跟蹤數據集。
Molmo2的一個顯著特點是其增強的功能。根據 Ai2的介紹,Molmo2-O-7B 是一個透明模型,允許用戶進行端到端的研究和定製。這意味着用戶可以全面訪問視覺語言模型及其語言學習模型(LLM),從而能夠更靈活地調整模型以滿足特定需求。
Molmo2模型支持用戶提問關於圖像或視頻的問題,並能夠基於視頻中識別的模式進行推理。Ai2的感知推理和交互研究主管 Ranjay Krishna 表示,這些模型不僅能給出答案,還能夠在時間和空間上明確指出某些事件發生的時刻。此外,Molmo2還具備生成描述性字幕、追蹤物體數量以及檢測長視頻序列中的罕見事件等能力。
用戶可以在 Hugging Face 和 Ai2Playground 上使用 Molmo2,後者是 Ai2提供的平臺,用戶可以體驗各種工具和模型。該發佈彰顯了 Ai2對開源的堅持,分析師 Bradley Shimmin 指出,發佈與模型相關的數據和權重對於企業至關重要,尤其是在重視數據主權的背景下。
Molmo 系列的模型參數相對較小(40億或80億個參數),這對於很多企業來說更加經濟實惠。Shimmin 強調,企業逐漸意識到,模型的大小並不是唯一的關鍵,訓練數據的透明度和負責性同樣重要。
項目:https://allenai.org/blog/molmo2
劃重點:
1. 🚀 Ai2發佈 Molmo2系列開源視頻語言模型,增強了企業對模型使用的掌控。
2. 🎥 新模型支持多圖像和視頻輸入,能夠進行事件推理和生成描述性字幕。
3. 📊 Ai2堅持開源承諾,強調數據透明度和模型定製化的重要性。
