阿里千問視覺模型在第三方空間推理榜單SpatialBench奪得前兩名:Qwen3-VL13.5分、Qwen2.5-VL12.9分,大幅領先Gemini3.0Pro Preview(9.6分)與GPT-5.1(7.5分),距離人類基線80分再近一步。

image.png

榜單特點  

SpatialBench專注2D/3D空間、結構、路徑推理,含電路分析、CAD工程、分子生物學等複雜任務,被視爲“具身智能試金石”。

模型亮點  

-3D檢測升級:Qwen3-VL新增旋轉框輸出與深度估計頭,遮擋場景AP↑18%,可判斷物體方位、視角變化  

- 視覺編程:輸入草圖或10秒短視頻即可生成可運行Python+OpenCV代碼,實現“所見即所得”  

- 規模多樣:提供2B/4B/8B/32B密集模型及30B-A3B、235B-A22B MoE版本,推理版在32項核心能力測試中平均超越Gemini2.5-Pro6.4分

開源節奏  

Qwen2.5-VL已全量開源;Qwen3-VL預計2025年Q2釋放權重與工具鏈,同步上線千問App免費體驗。

落地進展  

阿里雲透露,Qwen3-VL已在物流機器人、AR裝配、智慧港口等場景POC,空間定位誤差<2cm,2026年將推出“視覺-動作”端到端模型,爲機器人提供實時視覺伺服能力。