近期,人工智能開發平臺 Hugging Face 團隊發佈了兩款新型 AI 模型,SmolVLM-256M 和 SmolVLM-500M。他們自信地聲稱,這兩款模型是目前爲止體積最小的 AI 模型,能夠同時處理圖像、短視頻和文本數據,尤其適合內存少於1GB 的設備如筆記本電腦。這一創新讓開發者在處理大量數據時,能夠以更低的成本實現更高的效率。

這兩款模型的參數分別爲256百萬和500百萬,這意味着它們在解決問題的能力上也相應有所提升,參數越多,模型的表現通常越好。SmolVLM 系列能夠執行的任務包括對圖像或視頻片段進行描述,以及回答關於 PDF 文檔及其內容的問題,比如掃描文本和圖表。這使得它們在教育、研究等多個領域具備了廣泛的應用前景。

image.png

在模型的訓練過程中,Hugging Face 團隊利用了名爲 “The Cauldron” 的50個高質量圖像和文本數據集,以及名爲 Docmatix 的文件掃描和詳細說明配對的數據集。這兩個數據集均由 Hugging Face 的 M4團隊開發,專注於多模態 AI 技術的發展。值得注意的是,SmolVLM-256M 和 SmolVLM-500M 在各類基準測試中表現優於許多更大模型,如 Idefics80B,尤其是在 AI2D 測試中,它們在分析小學生科學圖表的能力上表現突出。

然而,小型模型雖然價格親民且多才多藝,但它們在複雜推理任務上的表現可能不如大型模型。一項來自 Google DeepMind、微軟研究院以及魁北克 Mila 研究所的研究顯示,許多小型模型在這些複雜任務上的表現令人失望。研究人員推測,這可能是由於小型模型傾向於識別數據的表面特徵,而在新情境中應用這些知識時則顯得力不從心。

Hugging Face 的 SmolVLM 系列模型不僅是體積小巧的 AI 工具,而且在處理各種任務時展現出了令人矚目的能力。對於希望以低成本實現高效數據處理的開發者而言,這無疑是一個不錯的選擇。