微軟推出最新視覺基礎模型Florence-2 在瀏覽器中本地運行

近日，微軟推出的最新視覺基礎模型Florence-2取得重大突破，藉助Transformers.js技術，該模型現已能夠在支持WebGPU的瀏覽器中100%本地運行。這一突破爲AI視覺應用帶來了革命性的變化，使得強大的視覺識別功能可以直接在用戶的瀏覽器中實現，無需依賴遠程服務器。

Florence-2-base-ft是一個擁有2.3億參數的視覺基礎模型，採用基於提示的方法來處理廣泛的視覺和視覺語言任務。該模型支持多種功能，包括但不限於:

圖像描述生成
光學字符識別（OCR）
物體檢測
圖像分割

這個強大的模型僅佔用340MB存儲空間，一旦加載完成，就會被緩存在瀏覽器中，用戶再次訪問頁面時可以直接調用，無需重新下載。最令人驚歎的是，整個過程完全在用戶的瀏覽器中本地進行，不需要向服務器發送任何API調用。這意味着，在模型加載完成後，即使斷開互聯網連接，用戶依然可以使用所有功能。

Florence-2的本地化運行得益於🤗 Transformers.js和ONNX Runtime Web技術的支持。這一突破不僅提高了用戶隱私保護水平，還大大降低了使用成本，爲AI視覺技術的普及應用鋪平了道路。

對於開發者和技術愛好者來說，Florence-2的ONNX模型已經在Hugging Face平臺上開放獲取。感興趣的朋友可以訪問https://huggingface.co/models?library=transformers.js&other=florence2查看更多詳情。此外，項目的源代碼也已在GitHub上公開，開發者可以通過https://github.com/xenova/transformers.js/tree/v3/examples/florence2-webgpu 獲取並進行進一步的探索和開發。

Florence-2的這一突破無疑將推動AI視覺應用的快速發展和廣泛普及。我們可以期待在不久的將來，更多基於瀏覽器的智能視覺應用將改變我們的日常生活和工作方式。

OpenAI 內部備忘錄流出：代號 Spud 模型對標 Mythos，正面反擊 Anthropic

OpenAI內部備忘錄顯示，公司計劃在2026年第二季度通過技術升級和生態合作全面反擊競爭對手Anthropic。核心舉措包括推出代號爲Spud的新一代推理模型（可能爲GPT-5o或GPT-5.5），直接對標Anthropic的Claude Mythos。該模型將採用英偉達Blackwell架構，旨在提升性能與競爭力。

火山引擎Seedance 2.0全面開放API服務

火山引擎發佈Seedance 2.0系列API服務，提供先進的視頻生成技術，支持文本、圖片、音頻和視頻四種輸入方式，具備多模態內容創建與編輯能力，適用於複雜互動和動態場景。該服務旨在幫助企業及個人用戶優化工作流程，探索創新應用，同時確保AI視頻創作的合規性與安全性。

火山引擎Seedance 2. 0 系列API正式上線，開放全球SOTA級視頻生成能力

火山引擎推出Seedance 2.0系列API服務，作爲全球領先的視頻生成模型，面向企業和個人開放。該模型支持文字、圖片、音頻和視頻混合輸入，具備多模態內容參考與編輯能力，旨在通過高性能視頻生成重塑行業工作流，探索新應用場景。

微軟推出最新視覺基礎模型Florence-2 在瀏覽器中本地運行

相關推薦

OpenAI 內部備忘錄流出：代號 Spud 模型對標 Mythos，正面反擊 Anthropic

火山引擎Seedance 2.0全面開放API服務

AI 交互新突破：Skywork AI 發佈 Matrix-Game 3.0，實現 720p 40 幀實時高清“世界生成”

火山引擎Seedance 2. 0 系列API正式上線，開放全球SOTA級視頻生成能力

DeepMind CEO Hassabis 重磅預言：AGI 五年內到來！AI 不是普通升級，而是“十倍速工業革命”

微軟推出最新視覺基礎模型Florence-2 在瀏覽器中本地運行

相關推薦

OpenAI 內部備忘錄流出：代號 Spud 模型對標 Mythos，正面反擊 Anthropic

​火山引擎Seedance 2.0全面開放API服務

AI 交互新突破：Skywork AI 發佈 Matrix-Game 3.0，實現 720p 40 幀實時高清“世界生成”

火山引擎Seedance 2. 0 系列API正式上線，開放全球SOTA級視頻生成能力

DeepMind CEO Hassabis 重磅預言：AGI 五年內到來！AI 不是普通升級，而是“十倍速工業革命”

火山引擎Seedance 2.0全面開放API服務