在人工智能領域,多模態大模型(MLLM)一直在不斷進化,然而最近一個新發布的基準測試 ——SolidGeo,給這些模型帶來了前所未有的挑戰。由中國科學院自動化研究所的研究團隊推出的 SolidGeo,專注於立體幾何的推理能力,成爲了首個系統評估多模態模型在三維空間理解方面的基準。

與傳統的平面幾何相比,立體幾何的複雜性在於它需要理解三維結構及其空間關係。這不僅要求模型具備高水平的空間推理能力,還要能夠整合視覺與文本信息。SolidGeo 的數據集包含3113個高質量的立體幾何問題,這些問題來源於 K-12教育和高中數學競賽,每道題目都配有圖像和詳細的解答說明,確保了數據的真實性與可靠性。

image.png

在對26個主流多模態模型進行的實驗中,結果顯示,當前最強的 OpenAI-o1模型在 SolidGeo 測試中的準確率僅爲49.5%,與人類的77.5% 相比,仍有明顯差距。其他模型的表現也不容樂觀,許多開源模型的得分均低於30%。尤其在複雜的立體幾何任務中,模型的表現更是大打折扣。例如,在涉及平面摺疊與展開等任務時,OpenAI-o1的準確率僅爲36.1%。相較之下,某些模型在特定難度的任務上卻意外表現出色,這可能表明它們在處理簡單問題時的泛化能力不足。

image.png

該研究還深入分析了模型在不同提示策略、題目難度和推理效率上的表現差異,發現大多數模型在任務難度增加時準確率顯著下降。而推理效率則常常因爲輸出過長而降低,造成 “過度思考” 現象,這給 AI 的實際應用帶來了挑戰。

SolidGeo 的推出,不僅爲 AI 模型在立體幾何推理方面提供了新的評測標準,更是推動了多模態模型在空間智能領域的進一步探索。隨着大模型能力的提升,如何在立體幾何等複雜領域實現突破,將成爲研究者們未來的重要任務。