阿里重磅開源超強AI模型Qwen2-VL：能理解超 20 分鐘視頻

阿里巴巴的雲計算部門剛剛發佈了一款全新的 AI 模型 ——Qwen2-VL。這款模型的強大之處在於它能夠理解視覺內容，包括圖片和視頻，甚至可以實時分析長達20分鐘的視頻，可以說相當強悍。

產品入口:https://qwenlm.github.io/blog/qwen2-vl/

與其他領先的先進模型（如 Meta 的 Llama3.1、OpenAI 的 GPT-4o、Anthropic的 Claude3Haiku 和 Google 的 Gemini-1.5Flash）相比，它在第三方基準測試中表現十分優秀。

阿里從六個關鍵維度評估模型的視覺能力：複雜的大學水平問題解決、數學能力、文檔和表格理解、多語言文本圖像理解、一般場景問答、視頻理解和基於代理的交互。其 72B 模型在大多數指標上都展示了頂級性能，甚至超過了 GPT-4o 和 Claude 3.5-Sonnet 等閉源模型。值得注意的是，它在文檔理解方面表現出顯着優勢。

具體如下圖所示：

超強分析圖像和視頻能力

Qwen2-VL 旨在提升我們對視覺數據的理解和處理能力。它不僅能夠對靜態圖片進行分析，還能總結視頻內容、回答與之相關的問題，甚至可以實時提供在線聊天支持。

正如 Qwen 研究團隊在 GitHub 上關於新 Qwen2-VL 系列模型的博客文章中所寫的那樣:“除了靜態圖像之外，Qwen2-VL 還將其能力擴展到視頻內容分析。它可以總結視頻內容，回答與之相關的問題，並實時保持持續的對話流，提供實時聊天支持。此功能使其能夠充當個人助理，通過提供直接從視頻內容中提取的見解和信息來幫助用戶。

更重要的是，官方稱，可以分析超過20分鐘的視頻並回答有關內容的問題。這意味着，無論是在線學習、技術支持，還是任何需要對視頻內容進行理解的場合，Qwen2-VL 都可以成爲得力助手。官方還展示了一個新模型的例子，正確地分析和描述了以下視頻:

另外，Qwen2-VL 的語言能力也相當強大，支持英語、中文以及多種歐洲語言，日語、韓語、阿拉伯語和越南語等多種語言，讓全球用戶都能輕鬆使用。爲了讓大家更好地理解它的能力，阿里巴巴還在他們的 GitHub 上分享了相關的應用示例。

三個版本

這款新模型有三個不同參數的版本，分別是 Qwen2-VL-72B（720億參數）、Qwen2-VL-7B 和 Qwen2-VL-2B。其中，7B 和2B 版本在開源寬鬆的 Apache2.0許可證下提供，允許企業隨意將它們用於商業目的。

不過，最大的72B 版本目前還沒有公開，只能通過專門的許可證和 API 獲取。

此外，Qwen2-VL 還引入了一些全新的技術特性，比如 Naive Dynamic Resolution 支持，可以處理不同分辨率的圖像，確保視覺解讀的一致性和準確性。還有 Multimodal Rotary Position Embedding（M-ROPE）系統，能夠在文本、圖像和視頻之間同步捕捉和整合位置信息。

Qwen2-VL 的發佈標誌着視覺語言模型技術的又一次突破，阿里巴巴的 Qwen 團隊表示，他們將繼續致力於提升這些模型的功能，探索更多應用場景。

劃重點:
🌟 ** 強大的視頻分析能力 **:能夠實時分析20分鐘以上的視頻內容，回答相關問題!
✅ 🌍 ** 多語言支持 **:支持多種語言，讓全球用戶都能輕鬆使用!
✅ 📦 ** 開源版本可用 **:7B 和2B 版本開源，企業可以自由使用，適合創新團隊!

阿里重磅開源超強AI模型Qwen2-VL：能理解超 20 分鐘視頻

相關推薦

Paytm 與 Groq 合作，推動高性能 AI 模型發展

專家揭示數百項 AI 安全測試存在嚴重缺陷

掘金AI基建!Lambda與微軟達成數十億美元GPU部署協議

Canva 推出全新 “創意操作系統”，全面升級數字營銷工具

亞馬遜股價暴漲 13%，人工智能推動雲計算迎來多年最快增長

阿里重磅開源超強AI模型Qwen2-VL：能理解超 20 分鐘視頻

相關推薦

Paytm 與 Groq 合作，推動高性能 AI 模型發展

專家揭示數百項 AI 安全測試存在嚴重缺陷

掘金AI基建!Lambda與微軟達成數十億美元GPU部署協議

Canva 推出全新 “創意操作系統”，全面升級數字營銷工具

​亞馬遜股價暴漲 13%，人工智能推動雲計算迎來多年最快增長

亞馬遜股價暴漲 13%，人工智能推動雲計算迎來多年最快增長