人類在進行推理時常常會進行繪圖,比如在解決幾何問題時畫輔助線,在地圖上進行標記和圈出,在理清思路時進行草圖。然而,目前的多模式語言模型(LM)缺乏這樣的能力。在最新的研究中,研究人員引入了 “Sketchpad” 的概念,爲多模式 LM 提供了視覺畫板和繪圖工具,使其能夠進行視覺推理。

image.png

產品入口:https://top.aibase.com/tool/visual-sketchpad

運作機制:Sketchpad 使 GPT-4能夠生成中間草圖來推理任務。給定視覺輸入和查詢,例如證明三角形的角等於180°,畫板使模型能夠繪製有助於解決幾何問題的輔助線。對於計算機視覺問題,Sketchpad 可以使用視覺專家來繪製草圖並促進視覺推理。例如,使用“接地 DINO”繪製邊界框,或使用“分割任何內容”繪製蒙版。

與以往使用文本到圖像模型使 LM 能夠繪圖的工作不同,Sketchpad 使 LM 能夠使用線條、框、標記等進行繪圖,這更接近於人類的素描,更方便推理。此外,Sketchpad 還可以在繪圖過程中使用專業視覺模型,比如使用對象檢測模型繪製邊界框,使用分割模型繪製蒙版,以進一步增強視覺感知和推理能力。

實驗結果顯示,Sketchpad 顯著提高了多模態大語言模型 在數學任務(包括幾何、函數、圖形、國際象棋)和複雜的視覺推理任務上的表現。與沒有繪圖的強大基礎模型相比,Sketchpad 使得 LM 的性能平均提升了12.7% 在數學任務和8.6% 在視覺任務。帶有 Sketchpad 的 GPT-4o 在所有任務上均創下了新的技術水平,包括 V*Bench(80.3%)、BLINK 空間推理(83.9%)和視覺對應(80.8%)。

這項研究的成果意味着,通過引入視覺畫板和繪圖工具,多模式 LM 在處理複雜的推理任務時能夠更加接近人類的思維方式,提升了其在數學和視覺推理領域的表現。這一突破有望在語言模型和視覺模型的發展中發揮重要作用,爲人工智能技術的發展開闢了新的可能性。