正文

阿里雲通義千問再開源:多模態大模型Qwen-VL

發布於AI新閒資訊

時間 :Aug 25, 2023

閱讀 :1分鐘

8月25日,阿里雲推出大規模視覺語言模型Qwen-VL,支持中英文多語種,具備文本和圖像的聯合理解能力。Qwen-VL基於阿里雲此前開源的通用語言模型Qwen-7B,相較其他視覺語言模型,Qwen-VL新增了視覺定位、圖像中文字理解等能力。Qwen-VL已在GitHub獲得3400多星,下載量超過40萬。視覺語言模型被視爲通用AI的重要演進方向。業界認爲,支持多模態輸入的模型能提升對世界的理解能力,拓展使用場景。阿里雲通過Qwen-VL的開源,進一步推動通用AI技術的進步。

百度 PaddleOCR-VL 模型登頂全球 OCR 榜，連續五日領跑 Huggingface 趨勢榜

10月16日，百度飛槳發佈視覺語言模型PaddleOCR-VL，以0.9B參數在權威評測OmniDocBench V1.5中獲92.56分，超越DeepSeek-OCR等主流模型登頂全球OCR榜單。截至10月21日，Huggingface趨勢榜前三均爲OCR模型，百度飛槳位列第一。

Oct 24, 2025

233.3k

通義千問再放大招！Qwen3-VL 家族新增 2B 與 32B 模型，開源矩陣全面升級

阿里雲推出通義千問Qwen3-VL系列兩款新密集模型（2B與32B），使該系列開源模型總數達24個，形成從輕量到超大規模的技術矩陣。目前包含四款密集模型和兩款專家混合模型，強化了模型生態的完整性與競爭力。

Oct 22, 2025

133.0k

字節跳動推出 Sa2VA：結合 LLaVA 與 SAM-2 實現多模態智能分割

字節跳動聯合高校推出Sa2VA模型，結合LLaVA視覺語言模型與SAM-2分割模型，能理解視頻內容並精確追蹤分割角色和物體。LLaVA擅長宏觀敘事，SAM-2精於細節分割，互補提升視頻分析能力。

Oct 21, 2025

165.7k

全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場

開源社區推出LLaVA-OneVision-1.5多模態模型，實現技術突破。該模型歷經兩年發展，從基礎圖文對齊升級爲能處理圖像、視頻的綜合框架，核心提供開放高效的可復現訓練架構，支持用戶便捷構建高質量視覺語言模型，訓練過程分三個階段推進。

Oct 17, 2025

161.1k

AI助手新突破！通義千問Qwen Chat Memory 正式上線，能 “記住” 你的每一次對話！

阿里雲10月16日宣佈通義千問Qwen Chat Memory正式上線，賦予AI助手“長記憶”能力。它能理解上下文、保留關鍵信息並主動回憶過往對話，提升交互體驗，推動AI助手發展。

Oct 16, 2025

148.0k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

阿里雲通義千問再開源:多模態大模型Qwen-VL

相關推薦

百度 PaddleOCR-VL 模型登頂全球 OCR 榜，連續五日領跑 Huggingface 趨勢榜

通義千問再放大招！Qwen3-VL 家族新增 2B 與 32B 模型，開源矩陣全面升級

​字節跳動推出 Sa2VA：結合 LLaVA 與 SAM-2 實現多模態智能分割

​全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場

AI助手新突破！通義千問Qwen Chat Memory 正式上線，能 “記住” 你的每一次對話！

字節跳動推出 Sa2VA：結合 LLaVA 與 SAM-2 實現多模態智能分割

全面開源的 LLaVA-OneVision-1.5，超越 Qwen2.5-VL 的多模態模型登場