相關推薦
百度 PaddleOCR-VL 模型登頂全球 OCR 榜,連續五日領跑 Huggingface 趨勢榜
10月16日,百度飛槳發佈視覺語言模型PaddleOCR-VL,以0.9B參數在權威評測OmniDocBench V1.5中獲92.56分,超越DeepSeek-OCR等主流模型登頂全球OCR榜單。截至10月21日,Huggingface趨勢榜前三均爲OCR模型,百度飛槳位列第一。
Oct 24, 2025
249.2k
字節跳動推出 Sa2VA:結合 LLaVA 與 SAM-2 實現多模態智能分割
字節跳動聯合高校推出Sa2VA模型,結合LLaVA視覺語言模型與SAM-2分割模型,能理解視頻內容並精確追蹤分割角色和物體。LLaVA擅長宏觀敘事,SAM-2精於細節分割,互補提升視頻分析能力。
Oct 21, 2025
165.7k
全面開源的 LLaVA-OneVision-1.5,超越 Qwen2.5-VL 的多模態模型登場
開源社區推出LLaVA-OneVision-1.5多模態模型,實現技術突破。該模型歷經兩年發展,從基礎圖文對齊升級爲能處理圖像、視頻的綜合框架,核心提供開放高效的可復現訓練架構,支持用戶便捷構建高質量視覺語言模型,訓練過程分三個階段推進。
Oct 17, 2025
161.1k
阿里通義千問推出Qwen3-VL輕量級模型:4B和8B參數版本性能逼近此前72B旗艦
阿里巴巴通義千問團隊推出Qwen3-VL系列兩款輕量級模型,參數規模分別爲4B和8B。該系列是迄今最強的視覺語言模型家族,新增小參數版本旨在降低部署門檻,同時保持強勁性能。每個規模均提供指令遵循和思維鏈推理兩個版本,爲開發者提供更靈活選擇。
Oct 15, 2025
168.6k
阿里巴巴推出緊湊型Qwen3-VL模型,提升多模態AI效率,加速邊緣設備部署
阿里巴巴發佈Qwen3-VL視覺語言模型緊湊版,含4億和8億參數變體,推動多模態AI在邊緣設備應用。模型優化了STEM推理、視覺問答、OCR、視頻理解等核心能力,性能媲美大型模型,實現技術重大突破。
Oct 15, 2025
138.6k
