近年來,機器學習模型在視覺和語言任務方面的應用需求日益增長,但大多數模型都需要龐大的計算資源,無法在個人設備上高效運行。尤其是像筆記本電腦、消費級 GPU 和移動設備等小型設備,在處理視覺語言任務時面臨巨大的挑戰。

image.png

以 Qwen2-VL 爲例,雖然其性能卓越,但對硬件的要求較高,限制了其在實時應用中的可用性。因此,開發出輕量化模型以便於在較低資源下運行,成爲了一項重要需求。

Hugging Face 近期發佈了 SmolVLM,這是一款專門爲設備端推理設計的2B 參數視覺語言模型。SmolVLM 在 GPU 內存使用和令牌生成速度方面的表現超越了其他同類模型。其主要特性是能夠在較小的設備上有效運行,比如筆記本電腦或消費級 GPU,而不會犧牲性能。SmolVLM 在性能和效率之間找到了一個理想的平衡,解決了以往同類模型難以克服的問題。

image.png

與 Qwen2-VL2B 相比,SmolVLM 生成令牌的速度快了7.5到16倍,歸功於其優化的架構,使得輕量級推理成爲可能。這一效率不僅爲最終用戶帶來了實用的好處,也極大提升了使用體驗。

image.png

從技術角度來看,SmolVLM 具有優化的架構,支持高效的設備端推理。用戶甚至可以在 Google Colab 上輕鬆進行微調,極大地降低了試驗和開發的門檻。

由於內存佔用小,SmolVLM 能夠在之前無法承載同類模型的設備上順利運行。在對50幀 YouTube 視頻進行測試時,SmolVLM 表現出色,得分達到27.14%,並在資源消耗上優於兩款更爲消耗資源的模型,顯示了其強大的適應能力和靈活性。

SmolVLM 在視覺語言模型領域具有重要的里程碑意義。它的推出使得複雜的視覺語言任務能夠在日常設備上運行,填補了當前 AI 工具中的一項重要空白。

SmolVLM 不僅在速度和效率方面表現優異,還爲開發者和研究者提供了一個強大的工具,以便於進行視覺語言處理,而無需投入高昂的硬件費用。隨着 AI 技術的不斷普及,像 SmolVLM 這樣的模型將使得強大的機器學習能力變得更加觸手可及。

demo:https://huggingface.co/spaces/HuggingFaceTB/SmolVLM

https://huggingface.co/spaces/HuggingFaceTB/SmolVLM

劃重點:

🌟 SmolVLM 是 Hugging Face 推出的專爲設備端推理設計的2B 參數視覺語言模型,運行高效且無需高端硬件。

⚡ 它的令牌生成速度是同類模型的7.5到16倍,極大提高了用戶的體驗和應用效率。

📊 在測試中,SmolVLM 展現了強大的適應能力,在沒有視頻數據訓練的情況下仍能取得不錯的評分。