全球多模態大模型競爭格局再更新。近日,權威評測平臺SuperCLUE-VLM發佈2025年12月多模態視覺語言模型綜合榜單,谷歌Gemini-3-Pro以83.64分斷層領先,展現其在視覺理解與推理領域的壓倒性優勢。字節跳動豆包大模型以73.15分強勢躋身前三,商湯科技SenseNova V6.5Pro以75.35分位列第二,國產大模型整體表現亮眼,彰顯中國AI在多模態賽道的快速追趕能力。

 評測維度:三大能力全面衡量模型“眼力”

SuperCLUE-VLM從三大核心維度評估模型真實視覺理解能力:

- 基礎認知:識別圖像中的物體、文字、場景等基本元素;

- 視覺推理:理解圖像邏輯、因果關係與隱含信息;

- 視覺應用:完成圖文生成、跨模態問答、工具調用等任務。

 Gemini-3-Pro全面碾壓,國產模型奮起直追

谷歌Gemini-3-Pro在三項指標中均遙遙領先:

- 基礎認知:89.01分  

- 視覺推理:82.82分  

- 視覺應用:79.09分  

其綜合表現遠超其他競品,鞏固了谷歌在多模態領域的技術霸主地位。

國產陣營表現搶眼:

- 商湯SenseNova V6.5Pro以75.35分穩居第二,推理與應用能力均衡;

- 字節豆包大模型以73.15分位列第三,基礎認知得分高達82.70,甚至超越部分國際模型,僅在視覺推理環節略有不足;

- 百度ERNIE-5.0-Preview與阿里Qwen3-VL緊隨其後,均進入前五。

尤爲值得關注的是,Qwen3-VL成爲榜單中首個總分突破70分的開源多模態模型,爲全球開發者提供高性能、可商用的開放基座。

image.png

 國際巨頭表現分化:Claude穩健,GPT-5.2意外落後

國際陣營中,Anthropic的Claude-opus-4-5以71.44分位居中上游,延續其在語言理解上的優勢;而OpenAI的GPT-5.2(high配置)僅得69.16分,排名相對靠後,引發業界對其多模態能力優化方向的討論。

 AIbase觀察:多模態競賽進入“實用化”新階段

SuperCLUE-VLM榜單不僅是一份技術排名,更折射出行業趨勢:  

- 開源模型崛起:Qwen3-VL證明,開源路線同樣可實現高性能,推動技術民主化;  

- 國產聚焦場景落地:豆包、商湯等模型在基礎認知上表現優異,契合中文互聯網圖文理解、短視頻分析等高頻需求;  

- 視覺推理仍是瓶頸:多數模型在複雜邏輯、因果推斷等高階任務上仍有差距,這也是Gemini持續領先的關鍵。

隨着多模態能力成爲AI Agent、智能座艙、AR/VR等下一代應用的核心支撐,這場“看圖說話”的競賽,正決定誰將真正“看見”並理解世界。而中國大模型,已在通往全球第一梯隊的路上加速奔跑。