9月2日,通義千問宣佈開源其第二代視覺語言模型Qwen2-VL,並在阿里雲百鍊平臺上推出2B、7B兩個尺寸及其量化版本模型的API,供用戶直接調用。
Qwen2-VL模型在多個方面實現了性能的全面提升。它能夠理解不同分辨率和不同長寬比的圖片,在DocVQA、RealWorldQA、MTVQA等基準測試中創下全球領先的表現。此外,該模型還能理解20分鐘以上的長視頻,支持基於視頻的問答、對話和內容創作等應用。Qwen2-VL還具備強大的視覺智能體能力,能夠自主操作手機和機器人,進行復雜推理和決策。
該模型能夠理解圖像視頻中的多語言文本,包括中文、英文、大多數歐洲語言、日語、韓語、阿拉伯語、越南語等。通義千問團隊從六個方面評估了模型的能力,包括綜合的大學題目、數學能力、文檔表格多語言文字圖像的理解、通用場景問答、視頻理解、Agent能力。
Qwen2-VL-72B作爲旗艦模型,在大部分指標上都達到了最優。Qwen2-VL-7B以其經濟型參數規模實現了極具競爭力的性能表現,而Qwen2-VL-2B則支持移動端的豐富應用,具備完整的圖像視頻多語言理解能力。
在模型架構方面,Qwen2-VL延續了ViT加Qwen2的串聯結構,三個尺寸的模型都採用了600M規模大小的ViT,支持圖像和視頻統一輸入。爲了提升模型對視覺信息的感知和視頻理解能力,團隊在架構上進行了升級,包括實現對原生動態分辨率的全面支持和使用多模態旋轉位置嵌入(M-ROPE)方法。
阿里雲百鍊平臺提供了Qwen2-VL-72B的API,用戶可以直接調用。同時,Qwen2-VL-2B和Qwen2-VL-7B的開源代碼已集成到Hugging Face Transformers、vLLM和其他第三方框架中,開發者可以通過這些平臺下載和使用模型。
阿里雲百鍊平臺:
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
GitHub:
https://github.com/QwenLM/Qwen2-VL
HuggingFace:
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
魔搭ModelScope:
https://modelscope.cn/organization/qwen?tab=model
模型體驗:
https://huggingface.co/spaces/Qwen/Qwen2-VL