通義千問開源視覺語言模型Qwen2-VL 2B、7B尺寸API可直接調用

9月2日，通義千問宣佈開源其第二代視覺語言模型Qwen2-VL，並在阿里雲百鍊平臺上推出2B、7B兩個尺寸及其量化版本模型的API，供用戶直接調用。

Qwen2-VL模型在多個方面實現了性能的全面提升。它能夠理解不同分辨率和不同長寬比的圖片，在DocVQA、RealWorldQA、MTVQA等基準測試中創下全球領先的表現。此外，該模型還能理解20分鐘以上的長視頻，支持基於視頻的問答、對話和內容創作等應用。Qwen2-VL還具備強大的視覺智能體能力，能夠自主操作手機和機器人，進行復雜推理和決策。

該模型能夠理解圖像視頻中的多語言文本，包括中文、英文、大多數歐洲語言、日語、韓語、阿拉伯語、越南語等。通義千問團隊從六個方面評估了模型的能力，包括綜合的大學題目、數學能力、文檔表格多語言文字圖像的理解、通用場景問答、視頻理解、Agent能力。

微信截圖_20240902141930.png

Qwen2-VL-72B作爲旗艦模型，在大部分指標上都達到了最優。Qwen2-VL-7B以其經濟型參數規模實現了極具競爭力的性能表現，而Qwen2-VL-2B則支持移動端的豐富應用，具備完整的圖像視頻多語言理解能力。

在模型架構方面，Qwen2-VL延續了ViT加Qwen2的串聯結構，三個尺寸的模型都採用了600M規模大小的ViT，支持圖像和視頻統一輸入。爲了提升模型對視覺信息的感知和視頻理解能力，團隊在架構上進行了升級，包括實現對原生動態分辨率的全面支持和使用多模態旋轉位置嵌入（M-ROPE）方法。

阿里雲百鍊平臺提供了Qwen2-VL-72B的API，用戶可以直接調用。同時，Qwen2-VL-2B和Qwen2-VL-7B的開源代碼已集成到Hugging Face Transformers、vLLM和其他第三方框架中，開發者可以通過這些平臺下載和使用模型。

阿里雲百鍊平臺:

https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

GitHub:

https://github.com/QwenLM/Qwen2-VL

HuggingFace:

https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

魔搭ModelScope:

https://modelscope.cn/organization/qwen?tab=model

模型體驗:

https://huggingface.co/spaces/Qwen/Qwen2-VL

全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場

開源社區推出LLaVA-OneVision-1.5多模態模型，實現技術突破。該模型歷經兩年發展，從基礎圖文對齊升級爲能處理圖像、視頻的綜合框架，核心提供開放高效的可復現訓練架構，支持用戶便捷構建高質量視覺語言模型，訓練過程分三個階段推進。

通義千問開源視覺語言模型Qwen2-VL 2B、7B尺寸API可直接調用

相關推薦

百度 PaddleOCR-VL 模型登頂全球 OCR 榜，連續五日領跑 Huggingface 趨勢榜

阿里“C計劃”首秀:夸克對話助手上線，用Qwen模型搶佔C端AI入口

通義千問再放大招！Qwen3-VL 家族新增 2B 與 32B 模型，開源矩陣全面升級

字節跳動推出 Sa2VA：結合 LLaVA 與 SAM-2 實現多模態智能分割

全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場

通義千問開源視覺語言模型Qwen2-VL 2B、7B尺寸API可直接調用

相關推薦

百度 PaddleOCR-VL 模型登頂全球 OCR 榜，連續五日領跑 Huggingface 趨勢榜

阿里“C計劃”首秀:夸克對話助手上線，用Qwen模型搶佔C端AI入口

通義千問再放大招！Qwen3-VL 家族新增 2B 與 32B 模型，開源矩陣全面升級

​字節跳動推出 Sa2VA：結合 LLaVA 與 SAM-2 實現多模態智能分割

​全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場

字節跳動推出 Sa2VA：結合 LLaVA 與 SAM-2 實現多模態智能分割

全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場