阿里雲通義千問開源了全新的視覺模型Qwen2.5-VL,並推出了3B、7B和72B三個尺寸版本。

其中,旗艦版Qwen2.5-VL-72B在13項權威評測中奪得視覺理解冠軍,超越了GPT-4o與Claude3.5。阿里雲官方介紹稱,新的Qwen2.5-VL能夠更準確地解析圖像內容,並突破性地支持超過1小時的視頻理解。該模型可以在視頻中搜索具體事件,並對視頻的不同時間段進行要點總結,從而快速、高效地幫助用戶提取視頻中的關鍵信息。

阿里雲通義開源Qwen2.5-VL:最強視覺AI 超越GPT-4o

此外,Qwen2.5-VL無需微調即可變身爲一個能操控手機和電腦的AI視覺智能體(Visual Agents),實現多步驟複雜操作,如給指定朋友發送祝福、電腦修圖、手機訂票等。Qwen2.5-VL不僅擅長識別常見物體,如花、鳥、魚和昆蟲,還能夠分析圖像中的文本、圖表、圖標、圖形和佈局。阿里雲還提升了Qwen2.5-VL的OCR識別能力,增強了多場景、多語言和多方向的文本識別和文本定位能力。

阿里雲通義開源Qwen2.5-VL:最強視覺AI 超越GPT-4o

同時,在信息抽取能力上進行了大幅度增強,以滿足日益增長的資質審覈、金融商務等數字化、智能化需求。

劃重點:

 🌟 阿里雲通義千問開源Qwen2.5-VL,推出3B、7B和72B三個版本。 

📈 Qwen2.5-VL-72B在視覺理解評測中超越GPT-4o與Claude3.5。 

👀 Qwen2.5-VL支持超1小時視頻理解,增強OCR識別能力。