多模態大模型最新評測出爐！Gemini-3-Pro斷層第一，豆包、商湯領跑國產陣營，Qwen3-VL成首個開源高分模型

全球多模態大模型競爭格局再更新。近日，權威評測平臺SuperCLUE-VLM發佈2025年12月多模態視覺語言模型綜合榜單，谷歌Gemini-3-Pro以83.64分斷層領先，展現其在視覺理解與推理領域的壓倒性優勢。字節跳動豆包大模型以73.15分強勢躋身前三，商湯科技SenseNova V6.5Pro以75.35分位列第二，國產大模型整體表現亮眼，彰顯中國AI在多模態賽道的快速追趕能力。

評測維度:三大能力全面衡量模型“眼力”

SuperCLUE-VLM從三大核心維度評估模型真實視覺理解能力:

- 基礎認知:識別圖像中的物體、文字、場景等基本元素;

- 視覺推理:理解圖像邏輯、因果關係與隱含信息;

- 視覺應用:完成圖文生成、跨模態問答、工具調用等任務。

Gemini-3-Pro全面碾壓，國產模型奮起直追

谷歌Gemini-3-Pro在三項指標中均遙遙領先:

- 基礎認知:89.01分

- 視覺推理:82.82分

- 視覺應用:79.09分

其綜合表現遠超其他競品，鞏固了谷歌在多模態領域的技術霸主地位。

國產陣營表現搶眼:

- 商湯SenseNova V6.5Pro以75.35分穩居第二，推理與應用能力均衡;

- 字節豆包大模型以73.15分位列第三，基礎認知得分高達82.70，甚至超越部分國際模型，僅在視覺推理環節略有不足;

- 百度ERNIE-5.0-Preview與阿里Qwen3-VL緊隨其後，均進入前五。

尤爲值得關注的是，Qwen3-VL成爲榜單中首個總分突破70分的開源多模態模型，爲全球開發者提供高性能、可商用的開放基座。

國際巨頭表現分化:Claude穩健，GPT-5.2意外落後

國際陣營中，Anthropic的Claude-opus-4-5以71.44分位居中上游，延續其在語言理解上的優勢;而OpenAI的GPT-5.2（high配置）僅得69.16分，排名相對靠後，引發業界對其多模態能力優化方向的討論。

AIbase觀察:多模態競賽進入“實用化”新階段

SuperCLUE-VLM榜單不僅是一份技術排名，更折射出行業趨勢:

- 開源模型崛起:Qwen3-VL證明，開源路線同樣可實現高性能，推動技術民主化;

- 國產聚焦場景落地:豆包、商湯等模型在基礎認知上表現優異，契合中文互聯網圖文理解、短視頻分析等高頻需求;

- 視覺推理仍是瓶頸:多數模型在複雜邏輯、因果推斷等高階任務上仍有差距，這也是Gemini持續領先的關鍵。

隨着多模態能力成爲AI Agent、智能座艙、AR/VR等下一代應用的核心支撐，這場“看圖說話”的競賽，正決定誰將真正“看見”並理解世界。而中國大模型，已在通往全球第一梯隊的路上加速奔跑。

多模態大模型最新評測出爐！Gemini-3-Pro斷層第一，豆包、商湯領跑國產陣營，Qwen3-VL成首個開源高分模型

相關推薦

英偉達推出統一音頻智能模型 Nemotron-Labs-Audex-30B-A3B

AI 視頻賽道格局重塑：谷歌 Gemini Omni Flash 登頂盲測榜首

商湯科技祕密研發多模態模型“U1Pro”:由林達華牽頭，預計7月啓動內測對標OpenAI

重磅開源！原生多模態 LongCat-Next 發佈，讓視覺和語音成爲 AI 的“母語”

先理解再動手！字節開源統一框架 Bernini，讓 AI 視頻編輯告別“碰運氣”