近日,微軟推出的最新視覺基礎模型Florence-2取得重大突破,藉助Transformers.js技術,該模型現已能夠在支持WebGPU的瀏覽器中100%本地運行。這一突破爲AI視覺應用帶來了革命性的變化,使得強大的視覺識別功能可以直接在用戶的瀏覽器中實現,無需依賴遠程服務器。

Florence-2-base-ft是一個擁有2.3億參數的視覺基礎模型,採用基於提示的方法來處理廣泛的視覺和視覺語言任務。該模型支持多種功能,包括但不限於:

  1. 圖像描述生成
  2. 光學字符識別(OCR)
  3. 物體檢測
  4. 圖像分割

image.png

這個強大的模型僅佔用340MB存儲空間,一旦加載完成,就會被緩存在瀏覽器中,用戶再次訪問頁面時可以直接調用,無需重新下載。最令人驚歎的是,整個過程完全在用戶的瀏覽器中本地進行,不需要向服務器發送任何API調用。這意味着,在模型加載完成後,即使斷開互聯網連接,用戶依然可以使用所有功能。

Florence-2的本地化運行得益於🤗 Transformers.js和ONNX Runtime Web技術的支持。這一突破不僅提高了用戶隱私保護水平,還大大降低了使用成本,爲AI視覺技術的普及應用鋪平了道路。

對於開發者和技術愛好者來說,Florence-2的ONNX模型已經在Hugging Face平臺上開放獲取。感興趣的朋友可以訪問https://huggingface.co/models?library=transformers.js&other=florence2查看更多詳情。此外,項目的源代碼也已在GitHub上公開,開發者可以通過https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu  獲取並進行進一步的探索和開發。

Florence-2的這一突破無疑將推動AI視覺應用的快速發展和廣泛普及。我們可以期待在不久的將來,更多基於瀏覽器的智能視覺應用將改變我們的日常生活和工作方式。