多模態模型的畫布框架Sketchpad：提升多模態模型數學能力

人類在進行推理時常常會進行繪圖，比如在解決幾何問題時畫輔助線，在地圖上進行標記和圈出，在理清思路時進行草圖。然而，目前的多模式語言模型（LM）缺乏這樣的能力。在最新的研究中，研究人員引入了 “Sketchpad” 的概念，爲多模式 LM 提供了視覺畫板和繪圖工具，使其能夠進行視覺推理。

產品入口：https://top.aibase.com/tool/visual-sketchpad

運作機制:Sketchpad 使 GPT-4能夠生成中間草圖來推理任務。給定視覺輸入和查詢，例如證明三角形的角等於180°，畫板使模型能夠繪製有助於解決幾何問題的輔助線。對於計算機視覺問題，Sketchpad 可以使用視覺專家來繪製草圖並促進視覺推理。例如，使用“接地 DINO”繪製邊界框，或使用“分割任何內容”繪製蒙版。

與以往使用文本到圖像模型使 LM 能夠繪圖的工作不同，Sketchpad 使 LM 能夠使用線條、框、標記等進行繪圖，這更接近於人類的素描，更方便推理。此外，Sketchpad 還可以在繪圖過程中使用專業視覺模型，比如使用對象檢測模型繪製邊界框，使用分割模型繪製蒙版，以進一步增強視覺感知和推理能力。

實驗結果顯示，Sketchpad 顯著提高了多模態大語言模型在數學任務（包括幾何、函數、圖形、國際象棋）和複雜的視覺推理任務上的表現。與沒有繪圖的強大基礎模型相比，Sketchpad 使得 LM 的性能平均提升了12.7% 在數學任務和8.6% 在視覺任務。帶有 Sketchpad 的 GPT-4o 在所有任務上均創下了新的技術水平，包括 V*Bench(80.3%)、BLINK 空間推理(83.9%)和視覺對應(80.8%)。

這項研究的成果意味着，通過引入視覺畫板和繪圖工具，多模式 LM 在處理複雜的推理任務時能夠更加接近人類的思維方式，提升了其在數學和視覺推理領域的表現。這一突破有望在語言模型和視覺模型的發展中發揮重要作用，爲人工智能技術的發展開闢了新的可能性。

Google AI Studio 直接支持 AI 訂閱計劃，按請求付費獨享“所有模型+智能體”？

Google在AI Studio平臺推出對Google AI計劃的支持，方便開發者統一訪問先進AI模型，提高使用限額並整合更多Google產品功能。此舉打通了AI開發工具與訂閱服務壁壘，用戶可直接關聯訂閱，獲得更流暢的文本、圖像、音頻等模型訪問體驗。

多模態模型的畫布框架Sketchpad：提升多模態模型數學能力

相關推薦

Opera 推出瀏覽器連接器功能讓 AI 聊天機器人無縫集成

Anthropic 發佈全新 Claude Opus 4.7，功能顯著提升

字節跳動啓動首輪“豆包股”回購，漲幅達30% 強化 AI 人才激勵

性別天平翻轉!ChatGPT 女性用戶突破5億，AI 正式告別“技術小衆”時代

Google AI Studio 直接支持 AI 訂閱計劃，按請求付費獨享“所有模型+智能體”？

多模態模型的畫布框架Sketchpad：提升多模態模型數學能力

相關推薦

Opera 推出瀏覽器連接器功能 讓 AI 聊天機器人無縫集成

​Anthropic 發佈全新 Claude Opus 4.7，功能顯著提升

字節跳動啓動首輪“豆包股”回購，漲幅達30% 強化 AI 人才激勵

性別天平翻轉!ChatGPT 女性用戶突破5億，AI 正式告別“技術小衆”時代

Google AI Studio 直接支持 AI 訂閱計劃，按請求付費獨享“所有模型+智能體”？

Opera 推出瀏覽器連接器功能讓 AI 聊天機器人無縫集成

Anthropic 發佈全新 Claude Opus 4.7，功能顯著提升