近日,由清華大學、騰訊混元、斯坦福大學及卡耐基梅隆大學的研究團隊聯合發佈了一項新評估基準 ——RBench-V,專門針對多模態大模型的視覺推理能力進行測試。該基準的推出,旨在填補當前評估體系中對模型視覺輸出能力的空白,以便更全面地瞭解現有模型的性能。

RBench-V 基準測試包含803道題目,涉及多個領域,包括幾何與圖論、力學與電磁學、多目標識別和路徑規劃等。與以往只要求文字回答的評估不同,這次評測特別要求模型生成或修改圖像內容,以支持推理過程。這意味着,模型不僅需要理解問題,還需要像人類一樣,通過繪製輔助線或觀察圖形結構來進行思考。
測試結果顯示,即便是表現最好的 o3模型,在 RBench-V 上的準確率也僅爲25.8%,遠低於人類專家的82.3%。Google 的 Gemini2.5模型緊隨其後,僅獲得20.2% 的得分。更令人擔憂的是,許多開源模型的準確率在8% 至10% 之間,甚至有些模型的表現接近隨機作答。

RBench-V 的研究表明,當前的多模態大模型在處理複雜的幾何問題時,往往採取了簡化的策略。與人類通過直觀的可視化方法進行思考不同,大部分模型更傾向於將圖形問題抽象爲代數表達,用文本推理代替真實的圖像操作。這一現象反映出它們在深層理解圖像信息上的不足。
研究團隊指出,未來的模型需要在推理過程中主動生成圖像,以幫助思考,才能真正實現 “類人智能”。他們提到,多模態思維鏈和智能體推理等新方法,可能是人工智能發展的一條重要路徑。
如需瞭解更多信息,請訪問項目主頁: [RBench-V 項目主頁](https://evalmodels.github.io/rbenchv/)。
劃重點:
🔍 研究團隊聯合發佈 RBench-V,評估多模態大模型的視覺推理能力。
📉 表現最好的 o3模型僅獲25.8%,遠低於人類82.3% 的準確率。
🧩 當前模型在處理視覺問題時缺乏深層理解,需改進推理方式以推動智能發展。
