8月25日,阿里雲推出大規模視覺語言模型Qwen-VL,支持中英文多語種,具備文本和圖像的聯合理解能力。Qwen-VL基於阿里雲此前開源的通用語言模型Qwen-7B,相較其他視覺語言模型,Qwen-VL新增了視覺定位、圖像中文字理解等能力。Qwen-VL已在GitHub獲得3400多星,下載量超過40萬。視覺語言模型被視爲通用AI的重要演進方向。業界認爲,支持多模態輸入的模型能提升對世界的理解能力,拓展使用場景。阿里雲通過Qwen-VL的開源,進一步推動通用AI技術的進步。
相關推薦
百度 PaddleOCR-VL 模型登頂全球 OCR 榜,連續五日領跑 Huggingface 趨勢榜
10月16日,百度飛槳發佈視覺語言模型PaddleOCR-VL,以0.9B參數在權威評測OmniDocBench V1.5中獲92.56分,超越DeepSeek-OCR等主流模型登頂全球OCR榜單。截至10月21日,Huggingface趨勢榜前三均爲OCR模型,百度飛槳位列第一。
Oct 24, 2025
233.3k
通義千問再放大招!Qwen3-VL 家族新增 2B 與 32B 模型,開源矩陣全面升級
阿里雲推出通義千問Qwen3-VL系列兩款新密集模型(2B與32B),使該系列開源模型總數達24個,形成從輕量到超大規模的技術矩陣。目前包含四款密集模型和兩款專家混合模型,強化了模型生態的完整性與競爭力。
Oct 22, 2025
133.0k
字節跳動推出 Sa2VA:結合 LLaVA 與 SAM-2 實現多模態智能分割
字節跳動聯合高校推出Sa2VA模型,結合LLaVA視覺語言模型與SAM-2分割模型,能理解視頻內容並精確追蹤分割角色和物體。LLaVA擅長宏觀敘事,SAM-2精於細節分割,互補提升視頻分析能力。
Oct 21, 2025
165.7k
全面開源的 LLaVA-OneVision-1.5,超越 Qwen2.5-VL 的多模態模型登場
開源社區推出LLaVA-OneVision-1.5多模態模型,實現技術突破。該模型歷經兩年發展,從基礎圖文對齊升級爲能處理圖像、視頻的綜合框架,核心提供開放高效的可復現訓練架構,支持用戶便捷構建高質量視覺語言模型,訓練過程分三個階段推進。
Oct 17, 2025
161.1k
AI助手新突破!通義千問Qwen Chat Memory 正式上線,能 “記住” 你的每一次對話!
阿里雲10月16日宣佈通義千問Qwen Chat Memory正式上線,賦予AI助手“長記憶”能力。它能理解上下文、保留關鍵信息並主動回憶過往對話,提升交互體驗,推動AI助手發展。
Oct 16, 2025
148.0k
