AIbase報道 - Apple 幾個月前發佈的 FastVLM 視覺語言模型現已向公衆開放,用戶可在搭載 Apple Silicon 芯片的 Mac 上直接體驗這項革命性技術。
FastVLM 是一種能夠提供近乎即時高分辨率圖像處理的視覺語言模型,基於 Apple 專爲 Apple Silicon 設計的開放 ML 框架 MLX 構建。相比同類模型,FastVLM 在視頻字幕處理速度上提升了85倍,同時體積縮小了3倍以上。

多平臺可用,瀏覽器直接體驗
Apple 在完善項目後,FastVLM 不僅在 GitHub 上開源,還登陸了 Hugging Face 平臺。用戶現在可以直接在瀏覽器中加載輕量級的 FastVLM-0.5B 版本,無需複雜安裝過程即可體驗其強大功能。
根據實測,在16GB M2Pro MacBook Pro 上,模型加載需要幾分鐘時間。加載完成後,模型能夠實時準確描述用戶外貌、背景環境、面部表情以及視野中的各種物體。
智能交互功能豐富
該模型支持多種預設提示,用戶可以要求模型:
- 用一句話描述所見場景
- 識別衣物顏色
- 讀取可見文本內容
- 分析情感和動作
- 識別手中物體
高級用戶還可結合虛擬攝像頭應用,觀察模型如何即時詳細描述複雜的多場景視頻內容。
本地化運行的隱私優勢
FastVLM 的一大亮點是完全在瀏覽器本地運行,數據永不離開設備,甚至支持離線使用。這種設計爲可穿戴設備和輔助技術應用提供了理想解決方案,輕便性和低延遲特性爲更廣泛的應用場景奠定了基礎。
目前瀏覽器演示使用的是5億參數的輕量級版本,FastVLM 系列還包含15億和70億參數的更強大變體,能夠提供更優異的性能表現,儘管這些大型模型可能無法直接在瀏覽器中運行。
