最近,西雅圖的一家初創公司 Moondream 推出了名爲 moondream2的緊湊型視覺語言模型。儘管體積小巧,但該模型在各項基準測試中表現出色,備受關注。作爲一個開源模型,moondream2有望在智能手機上實現本地圖像識別功能。
moondream2於三月正式發佈,該模型能夠處理文本和圖像輸入,具備回答問題、文本提取(OCR)、物體計數和物品分類等能力。自發布以來,Moondream 團隊持續更新該模型,不斷提升其基準性能。7月份的版本在 OCR 和文檔理解方面顯示出顯著進步,尤其是在對歷史經濟數據的分析中表現出色。該模型在 DocVQA、TextVQA 和 GQA 的得分均超過60%,顯示出其在本地執行時的強大能力。
moondream2的一個顯著特點是其緊湊的尺寸:僅有16億個參數,這使得它不僅能夠在雲服務器上運行,也可以在本地計算機甚至一些性能較低的設備如智能手機或單板計算機上運行。
儘管體積小,但其性能卻與一些參數量達數十億的競爭模型相當,甚至在某些基準測試中表現優於這些較大模型。
在對移動設備視覺語言模型的比較中,研究人員指出,儘管 moondream2的參數量僅爲1.7億,但其性能與7億參數的模型相當,僅在 SQA 數據集的表現稍遜一籌。這表明,儘管小型模型表現出色,但在理解特定上下文方面仍面臨挑戰。
該模型的開發者 Vikhyat Korrapati 表示,moondream2是基於其他模型如 SigLIP、微軟的 Phi-1.5和 LLaVA 訓練數據集所構建的。該開源模型現已在 GitHub 上免費提供下載,並在 Hugging Face 上展示了其演示版本。在編碼平臺上,moondream2也引起了開發者社區的廣泛關注,獲得了超過5000個星級評價。
此次成功吸引了投資者的目光:在由 Felicis Ventures、微軟的 M12GitHub 基金和 Ascend 領投的種子輪融資中,Moondream 成功籌集了450萬美元。公司的 CEO Jay Allen 曾在亞馬遜網絡服務(AWS)工作多年,領導着這家不斷髮展的初創企業。
moondream2的推出標誌着一系列經過專業優化的開源模型的誕生,這些模型在提供與更大、更舊模型相似的性能時,所需的資源更少。目前市場上雖然已有一些小型的本地模型,比如蘋果的智能助手和谷歌的 Gemini Nano,但這兩家廠商仍然將更復雜的任務外包給雲端解決。
huggingface:https://huggingface.co/vikhyatk/moondream2
github:https://github.com/vikhyat/moondream
劃重點:
🌟 Moondream 推出了 moondream2,一個僅有1.6億參數的視覺語言模型,能在智能手機等小型設備上運行。
📈 該模型具備強大的文本和圖像處理能力,能夠回答問題、進行 OCR、物體計數和分類,基準測試表現出色。
💰 Moondream 成功籌集450萬美元資金,CEO 曾在亞馬遜工作,團隊持續更新提升模型性能。