阿里雲通義開源Qwen2.5-VL，視覺AI超越Claude 3.5

阿里雲通義千問開源了全新的視覺模型Qwen2.5-VL，並推出了3B、7B和72B三個尺寸版本。

其中，旗艦版Qwen2.5-VL-72B在13項權威評測中奪得視覺理解冠軍，超越了GPT-4o與Claude3.5。阿里雲官方介紹稱，新的Qwen2.5-VL能夠更準確地解析圖像內容，並突破性地支持超過1小時的視頻理解。該模型可以在視頻中搜索具體事件，並對視頻的不同時間段進行要點總結，從而快速、高效地幫助用戶提取視頻中的關鍵信息。

阿里雲通義開源Qwen2.5-VL：最強視覺AI 超越GPT-4o

此外，Qwen2.5-VL無需微調即可變身爲一個能操控手機和電腦的AI視覺智能體（Visual Agents），實現多步驟複雜操作，如給指定朋友發送祝福、電腦修圖、手機訂票等。Qwen2.5-VL不僅擅長識別常見物體，如花、鳥、魚和昆蟲，還能夠分析圖像中的文本、圖表、圖標、圖形和佈局。阿里雲還提升了Qwen2.5-VL的OCR識別能力，增強了多場景、多語言和多方向的文本識別和文本定位能力。

阿里雲通義開源Qwen2.5-VL：最強視覺AI 超越GPT-4o

同時，在信息抽取能力上進行了大幅度增強，以滿足日益增長的資質審覈、金融商務等數字化、智能化需求。

劃重點:
🌟 阿里雲通義千問開源Qwen2.5-VL，推出3B、7B和72B三個版本。
📈 Qwen2.5-VL-72B在視覺理解評測中超越GPT-4o與Claude3.5。
👀 Qwen2.5-VL支持超1小時視頻理解，增強OCR識別能力。

阿里雲發佈開源工具Meoo CLI:支持本地AI項目一鍵上線部署

阿里雲於6月11日發佈開源命令行工具Meoo CLI，旨在降低開發者構建AI原生應用的門檻。該工具深度適配Claude Code、Codex、Cursor等主流本地AI編程環境，通過無縫調用雲端基礎設施，實現數據庫接入、用戶登錄、文件存儲及項目部署的一體化配置。開發者只需簡單指令，即可將AI生成的本地項目直接部署上線，簡化了從代碼構建到發佈的全流程。

阿里Qoder推出全託管平臺Cloud Agents，實現AI Agent一天內快速上線

阿里雲於2026年5月28日推出全託管AI Agent平臺Cloud Agents，提供從底座到運行環境的全棧能力，企業通過API即可調用。該平臺將Agent開發週期從1個月縮短至1天，加速AI原生應用滲透。當前通用Agent工具雖提升個人效率，但底層基礎設施如推理引擎、運行沙箱等仍需完善。

阿里雲通義開源Qwen2.5-VL，視覺AI超越Claude 3.5

相關推薦

阿里雲QoderWork推出“峯谷Token”:錯峯調用Qwen3.7-Max低至2折

打通AI應用“最後一公里”：阿里雲秒悟Meoo CLI正式開源

一鍵部署上線：阿里雲發佈秒悟 Meoo CLI 開源工具

阿里雲發佈開源工具Meoo CLI:支持本地AI項目一鍵上線部署

阿里Qoder推出全託管平臺Cloud Agents，實現AI Agent一天內快速上線