HKU和美團聯手破解AI數學難題：CodePlot-CoT讓大模型學會用代碼畫圖思考，性能飆升21%

大型語言模型在處理數學幾何題時一直存在明顯短板。無論是GPT-4.1還是Gemini-2.5-Pro，在寫作、編程等任務上表現出色，但一旦遇到需要畫輔助線或函數圖像才能解決的數學題，就會頻繁出錯。

問題的根源在於大模型是語言天才，但不是幾何學家。它們擅長純文本思維鏈推理，可以逐步推導公式，但要在腦海中精確畫圖並據此得出結論，卻常常力不從心，甚至給出錯誤答案。

香港大學和美團團隊近日發佈的論文《CODEPLOT-COT: MATHEMATICAL VISUAL REASONING BY THINKING WITH CODE-DRIVEN IMAGES》，爲這一難題提供了創新解決方案。他們找到了讓大模型一邊畫圖一邊思考，而且圖畫得超級精準的方法。

過去的研究曾嘗試視覺思維鏈方法，讓模型直接生成或操作圖像來輔助推理。但這種方法在數學領域效果不佳。自然圖片追求的是紋理和光影等像素級細節，而數學圖形需要絕對的精確性，要保證角度、線段比例、點的位置等嚴格符合幾何約束。讓AI直接生成滿足嚴格幾何約束的圖像，就像讓寫意派畫家畫精確到毫米的工程圖，根本不是一回事。生成模型在處理高維像素分佈時容易失真，無法保證數學所需的精確度和可控性。

這篇論文的核心創新在於，既然直接畫圖不靠譜，爲什麼不讓大模型做它最擅長的事情——寫代碼?團隊提出了CodePlot-CoT代碼驅動思維鏈範式。

具體流程是這樣的。首先，大模型接收數學題目並進行推理。當推理過程需要畫輔助線或函數圖時，模型不會生成圖片，而是生成一段可執行的繪圖代碼，比如Python的Matplotlib代碼。然後這段代碼會在Python渲染器中執行，瞬間生成一張精確的幾何圖形。最後模型將這張代碼渲染的圖像重新輸入回推理鏈中，繼續文本推理直到得出最終答案。

這一方法巧妙地將難以精確控制的圖像生成問題，轉化成了大模型最擅長的語言建模問題。數學圖形最核心的結構屬性，如形狀、位置、角度，恰好能通過結構化代碼完美表達，完美避開了像素級細節的干擾。

爲了訓練這樣的模型，團隊打造了兩件神器。第一件是Math-VR數據集，包含17.8萬個雙語數學問題。與以前的基準測試不同，過去的題目圖都畫好了，只需要看圖說話，而Math-VR要求模型主動畫圖思考。比如一道等腰三角形題目，可能需要考慮三種情況，模型得自己畫出三種圖來分析。在學科分佈上，幾何學佔了約81%的絕對主導地位。

第二件神器是MatplotCode轉換器，這是一個專門用於數學圖形的圖像到代碼翻譯工具，能將數學圖高保真地轉換成Python繪圖代碼。即使是頂級商業模型如Gemini-2.5-Pro和GPT-5在零樣本情況下，也不能可靠地將複雜數學圖形精準轉換成繪圖代碼。實驗證明，這個轉換器的代碼生成成功率和圖像重建保真度都遠超現有模型。

實驗結果證實了這種代碼即思維範式的有效性。在Math-VR基準測試上，CodePlot-CoT相較於基礎模型性能提升高達21%。更值得注意的是，即使是參數量更大的頂級閉源模型如Gemini-2.5-Pro，在這個新基準上仍有約三分之一的題目會做錯。這有力證明，僅僅增加模型規模和文本思維鏈長度是不夠的，想要真正解決視覺數學推理問題，可控、精確、可驗證的代碼驅動視覺推理纔是關鍵。

CodePlot-CoT的成功不僅是又一個先進模型，更爲多模態數學推理開闢了全新方向。它證明在需要高精度和強邏輯的領域，如科學計算、工程設計，大模型不應執着於模仿人類筆觸，而應利用其編程能力構建精確可控的數字世界，再在這個世界裏進行推理和驗證。

該團隊已將所有數據集、代碼和預訓練模型開源，爲整個AI社區提供了寶貴資源。這標誌着大模型在幾何題推理上邁出了重要一步，通過代碼驅動的視覺推理方法，AI終於找到了破解數學幾何難題的有效途徑。

論文地址：https://arxiv.org/pdf/2510.11718

HKU和美團聯手破解AI數學難題：CodePlot-CoT讓大模型學會用代碼畫圖思考，性能飆升21%

相關推薦

OpenAI聯合創始人Andrej Karpathy宣佈加盟Anthropic，發力下一代LLM研發

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

醫療AI新突破！南洋理工發佈首個電子病歷處理評測標準

MIT 推出新方法，顯著提升大型語言模型計算效率

OpenAI 推出 AI “懺悔”框架:旨在訓練模型承認不當行爲，提高誠實度