阿里雲通義千問開源了全新的視覺模型Qwen2.5-VL,並推出了3B、7B和72B三個尺寸版本。
其中,旗艦版Qwen2.5-VL-72B在13項權威評測中奪得視覺理解冠軍,超越了GPT-4o與Claude3.5。阿里雲官方介紹稱,新的Qwen2.5-VL能夠更準確地解析圖像內容,並突破性地支持超過1小時的視頻理解。該模型可以在視頻中搜索具體事件,並對視頻的不同時間段進行要點總結,從而快速、高效地幫助用戶提取視頻中的關鍵信息。

此外,Qwen2.5-VL無需微調即可變身爲一個能操控手機和電腦的AI視覺智能體(Visual Agents),實現多步驟複雜操作,如給指定朋友發送祝福、電腦修圖、手機訂票等。Qwen2.5-VL不僅擅長識別常見物體,如花、鳥、魚和昆蟲,還能夠分析圖像中的文本、圖表、圖標、圖形和佈局。阿里雲還提升了Qwen2.5-VL的OCR識別能力,增強了多場景、多語言和多方向的文本識別和文本定位能力。

同時,在信息抽取能力上進行了大幅度增強,以滿足日益增長的資質審覈、金融商務等數字化、智能化需求。
劃重點:
🌟 阿里雲通義千問開源Qwen2.5-VL,推出3B、7B和72B三個版本。
📈 Qwen2.5-VL-72B在視覺理解評測中超越GPT-4o與Claude3.5。
👀 Qwen2.5-VL支持超1小時視頻理解,增強OCR識別能力。
