大型語言模型在處理數學幾何題時一直存在明顯短板。無論是GPT-4.1還是Gemini-2.5-Pro,在寫作、編程等任務上表現出色,但一旦遇到需要畫輔助線或函數圖像才能解決的數學題,就會頻繁出錯。

問題的根源在於大模型是語言天才,但不是幾何學家。它們擅長純文本思維鏈推理,可以逐步推導公式,但要在腦海中精確畫圖並據此得出結論,卻常常力不從心,甚至給出錯誤答案。

香港大學和美團團隊近日發佈的論文《CODEPLOT-COT: MATHEMATICAL VISUAL REASONING BY THINKING WITH CODE-DRIVEN IMAGES》,爲這一難題提供了創新解決方案。他們找到了讓大模型一邊畫圖一邊思考,而且圖畫得超級精準的方法。

image.png

過去的研究曾嘗試視覺思維鏈方法,讓模型直接生成或操作圖像來輔助推理。但這種方法在數學領域效果不佳。自然圖片追求的是紋理和光影等像素級細節,而數學圖形需要絕對的精確性,要保證角度、線段比例、點的位置等嚴格符合幾何約束。讓AI直接生成滿足嚴格幾何約束的圖像,就像讓寫意派畫家畫精確到毫米的工程圖,根本不是一回事。生成模型在處理高維像素分佈時容易失真,無法保證數學所需的精確度和可控性。

這篇論文的核心創新在於,既然直接畫圖不靠譜,爲什麼不讓大模型做它最擅長的事情——寫代碼?團隊提出了CodePlot-CoT代碼驅動思維鏈範式。

具體流程是這樣的。首先,大模型接收數學題目並進行推理。當推理過程需要畫輔助線或函數圖時,模型不會生成圖片,而是生成一段可執行的繪圖代碼,比如Python的Matplotlib代碼。然後這段代碼會在Python渲染器中執行,瞬間生成一張精確的幾何圖形。最後模型將這張代碼渲染的圖像重新輸入回推理鏈中,繼續文本推理直到得出最終答案。

這一方法巧妙地將難以精確控制的圖像生成問題,轉化成了大模型最擅長的語言建模問題。數學圖形最核心的結構屬性,如形狀、位置、角度,恰好能通過結構化代碼完美表達,完美避開了像素級細節的干擾。

image.png

爲了訓練這樣的模型,團隊打造了兩件神器。第一件是Math-VR數據集,包含17.8萬個雙語數學問題。與以前的基準測試不同,過去的題目圖都畫好了,只需要看圖說話,而Math-VR要求模型主動畫圖思考。比如一道等腰三角形題目,可能需要考慮三種情況,模型得自己畫出三種圖來分析。在學科分佈上,幾何學佔了約81%的絕對主導地位。

第二件神器是MatplotCode轉換器,這是一個專門用於數學圖形的圖像到代碼翻譯工具,能將數學圖高保真地轉換成Python繪圖代碼。即使是頂級商業模型如Gemini-2.5-Pro和GPT-5在零樣本情況下,也不能可靠地將複雜數學圖形精準轉換成繪圖代碼。實驗證明,這個轉換器的代碼生成成功率和圖像重建保真度都遠超現有模型。

實驗結果證實了這種代碼即思維範式的有效性。在Math-VR基準測試上,CodePlot-CoT相較於基礎模型性能提升高達21%。更值得注意的是,即使是參數量更大的頂級閉源模型如Gemini-2.5-Pro,在這個新基準上仍有約三分之一的題目會做錯。這有力證明,僅僅增加模型規模和文本思維鏈長度是不夠的,想要真正解決視覺數學推理問題,可控、精確、可驗證的代碼驅動視覺推理纔是關鍵。

CodePlot-CoT的成功不僅是又一個先進模型,更爲多模態數學推理開闢了全新方向。它證明在需要高精度和強邏輯的領域,如科學計算、工程設計,大模型不應執着於模仿人類筆觸,而應利用其編程能力構建精確可控的數字世界,再在這個世界裏進行推理和驗證。

該團隊已將所有數據集、代碼和預訓練模型開源,爲整個AI社區提供了寶貴資源。這標誌着大模型在幾何題推理上邁出了重要一步,通過代碼驅動的視覺推理方法,AI終於找到了破解數學幾何難題的有效途徑。

論文地址:https://arxiv.org/pdf/2510.11718