阿里巴巴的雲計算部門剛剛發佈了一款全新的 AI 模型 ——Qwen2-VL。這款模型的強大之處在於它能夠理解視覺內容,包括圖片和視頻,甚至可以實時分析長達20分鐘的視頻,可以說相當強悍。

image.png

產品入口:https://qwenlm.github.io/blog/qwen2-vl/

與其他領先的先進模型(如 Meta 的 Llama3.1、OpenAI 的 GPT-4o、Anthropic的 Claude3Haiku 和 Google 的 Gemini-1.5Flash)相比,它在第三方基準測試中表現十分優秀。

阿里從六個關鍵維度評估模型的視覺能力:複雜的大學水平問題解決、數學能力、文檔和表格理解、多語言文本圖像理解、一般場景問答、視頻理解和基於代理的交互。其 72B 模型在大多數指標上都展示了頂級性能,甚至超過了 GPT-4o 和 Claude 3.5-Sonnet 等閉源模型。值得注意的是,它在文檔理解方面表現出顯着優勢。

具體如下圖所示:

image.png

超強分析圖像和視頻能力

Qwen2-VL 旨在提升我們對視覺數據的理解和處理能力。它不僅能夠對靜態圖片進行分析,還能總結視頻內容、回答與之相關的問題,甚至可以實時提供在線聊天支持。

正如 Qwen 研究團隊在 GitHub 上關於新 Qwen2-VL 系列模型的博客文章中所寫的那樣:“除了靜態圖像之外,Qwen2-VL 還將其能力擴展到視頻內容分析。它可以總結視頻內容,回答與之相關的問題,並實時保持持續的對話流,提供實時聊天支持。此功能使其能夠充當個人助理,通過提供直接從視頻內容中提取的見解和信息來幫助用戶。

更重要的是,官方稱,可以分析超過20分鐘的視頻並回答有關內容的問題。這意味着,無論是在線學習、技術支持,還是任何需要對視頻內容進行理解的場合,Qwen2-VL 都可以成爲得力助手。官方還展示了一個新模型的例子,正確地分析和描述了以下視頻:

另外,Qwen2-VL 的語言能力也相當強大,支持英語、中文以及多種歐洲語言,日語、韓語、阿拉伯語和越南語等多種語言,讓全球用戶都能輕鬆使用。爲了讓大家更好地理解它的能力,阿里巴巴還在他們的 GitHub 上分享了相關的應用示例。

三個版本

這款新模型有三個不同參數的版本,分別是 Qwen2-VL-72B(720億參數)、Qwen2-VL-7B 和 Qwen2-VL-2B。其中,7B 和2B 版本在開源寬鬆的 Apache2.0許可證下提供,允許企業隨意將它們用於商業目的。

不過,最大的72B 版本目前還沒有公開,只能通過專門的許可證和 API 獲取。

此外,Qwen2-VL 還引入了一些全新的技術特性,比如 Naive Dynamic Resolution 支持,可以處理不同分辨率的圖像,確保視覺解讀的一致性和準確性。還有 Multimodal Rotary Position Embedding(M-ROPE)系統,能夠在文本、圖像和視頻之間同步捕捉和整合位置信息。

Qwen2-VL 的發佈標誌着視覺語言模型技術的又一次突破,阿里巴巴的 Qwen 團隊表示,他們將繼續致力於提升這些模型的功能,探索更多應用場景。

劃重點: 

 🌟 ** 強大的視頻分析能力 **:能夠實時分析20分鐘以上的視頻內容,回答相關問題!

✅ 🌍 ** 多語言支持 **:支持多種語言,讓全球用戶都能輕鬆使用!

✅ 📦 ** 開源版本可用 **:7B 和2B 版本開源,企業可以自由使用,適合創新團隊!