阿里巴巴達摩院的通義千問團隊在2024年8月30日宣佈了其最新成果——Qwen2-VL模型的重大更新。Qwen2-VL模型在圖像理解、視頻處理和多語言支持方面均實現了顯著提升,爲關鍵性能指標設定了新的基準。

Qwen2-VL模型的新功能包括增強的圖像理解能力,能夠更準確地理解和解釋視覺信息;高級視頻理解能力,使得模型能夠實時分析動態視頻內容;集成的可視化agent功能,將模型轉變爲能夠進行復雜推理和決策的強大代理;以及擴展的多語言支持,使其在不同語言環境中更易於訪問和有效。

微信截圖_20240830075330.png

在技術架構上,Qwen2-VL實現了動態分辨率支持,能夠處理任意分辨率的圖像,無需將其分割成塊,從而確保模型輸入與圖像固有信息之間的一致性。此外,Multimodal Rotary Position Embedding (M-ROPE) 的創新,使得模型能夠同時捕獲和集成1D文本、2D視覺和3D視頻位置信息。

Qwen2-VL-7B模型在7B規模下成功保留了對圖像、多圖像和視頻輸入的支持,並在文檔理解任務和圖像多語言文本理解方面表現出色。

同時,團隊還推出了針對移動部署優化的2B模型,儘管參數量只有2B,但在圖像、視頻和多語言理解方面表現突出。

模型鏈接:

Qwen2-VL-2B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct:https://www.modelscope.cn/models/qwen/Qwen2-VL-7B-Instruct