隨着人工智能的快速發展,視覺與語言能力的整合引發了視覺語言模型(VLMs)的突破性進展。這些模型旨在同時處理和理解視覺與文本數據,廣泛應用於圖像描述、視覺問答、光學字符識別以及多模態內容分析等場景。

VLMs 在開發自主系統、增強人機交互以及高效文檔處理工具方面發揮了重要作用,成功地彌合了這兩種數據模態之間的差距。然而,在高分辨率視覺數據和多樣化文本輸入的處理上,仍然存在許多挑戰。

目前的研究已經部分解決了這些限制,但大多數模型採用的靜態視覺編碼器在高分辨率和可變輸入尺寸上缺乏適應性。同時,預訓練的語言模型與視覺編碼器的結合往往導致效率低下,因爲它們並未針對多模態任務進行優化。儘管有些模型引入了稀疏計算技術來管理複雜性,但在不同數據集上的準確性仍顯不足。此外,現有模型的訓練數據集通常缺乏多樣性和任務特異性,這進一步限制了其表現。例如,許多模型在圖表解讀或密集文檔分析等專業任務中表現不佳。

近期,DeepSeek-AI 推出了全新的 DeepSeek-VL2系列開源混合專家(MoE)視覺語言模型。該系列模型結合了前沿創新技術,包括視覺編碼的動態切片、多頭潛在注意機制以及 DeepSeek-MoE 框架。

image.png

DeepSeek-VL2系列提供了三種不同參數配置:

- DeepSeek-VL2-Tiny:33.7億參數(10億激活參數)

- DeepSeek-VL2-Small:161億參數(28億激活參數)

- DeepSeek-VL2:275億參數(45億激活參數)

這種可擴展性確保了其適應不同應用需求和計算預算的能力。

DeepSeek-VL2的架構旨在優化性能,同時降低計算需求。動態切片方法確保高分辨率圖像的處理不失關鍵細節,非常適合文檔分析和視覺定位任務。此外,多頭潛在注意機制使得模型能夠高效處理大量文本數據,降低了通常與處理密集語言輸入相關的計算開銷。DeepSeek-VL2的訓練涵蓋了多樣化的多模態數據集,使其在光學字符識別、視覺問答和圖表解讀等多種任務中表現卓越。

image.png

根據性能測試,Small 配置在光學字符識別任務中達到了92.3% 的準確率,顯著超越現有模型。在視覺定位基準測試中,該模型相比於前代產品提升了15% 的精準度。

同時,DeepSeek-VL2在保持最先進準確率的同時,計算資源的需求減少了30%。這些結果展示了該模型在高分辨率圖像與文本處理方面的優越性。

項目入口:https://huggingface.co/collections/deepseek-ai/deepseek-vl2-675c22accc456d3beb4613ab

劃重點:

🌟 DeepSeek-VL2系列提供多種參數配置,適應不同應用需求。  

💡 動態切片技術提高了高分辨率圖像處理的效率,適合複雜文檔分析。  

🔍 模型在光學字符識別和視覺定位任務上表現出色,準確率顯著提高。