大規模言語モデルは数学幾何問題を処理する際に明らかに弱点を持っている。GPT-4.1やGemini-2.5-Proなど、文章作成やプログラミングなどのタスクでは優れた性能を発揮するが、補助線を引いたり関数のグラフを描く必要がある数学問題には頻繁に誤答を出す。

その原因は、大規模モデルが言語の天才である一方で、幾何学の専門家ではないからだ。純粋なテキストによる思考プロセスの推論には長けており、公式を段階的に導出できるが、頭の中で正確な図形を描き、それに基づいて結論を導くことは難しく、しばしば間違った答えを出してしまう。

香港大学とメイドゥー(Meituan)のチームが最近公開した論文「CODEPLOT-COT: MATHEMATICAL VISUAL REASONING BY THINKING WITH CODE-DRIVEN IMAGES」は、この問題に対する革新的な解決策を提示している。彼らは、大規模モデルが図形を描きながら考える方法を見つけ、非常に正確な図を描けるようになった。

image.png

以前の研究では視覚的思考プロセスの手法を試みたが、モデルが直接画像を生成したり操作して推論を補助しようとすることだった。しかし、数学分野では効果が薄かった。自然な画像はテクスチャーや光の描写などのピクセルレベルの詳細を求められるが、数学的な図形は絶対的な正確性が求められ、角度、線分の比、点の位置などが厳密な幾何学的制約を満たす必要がある。AIに厳密な幾何学的制約を満たす画像を直接生成させることは、中国画の画家にミリ単位の正確さを持つ工学図を描かせるようなもので、根本的に異なる。

この論文の核心的な革新点は、直接図を描くことが信頼できないなら、なぜ大規模モデルが最も得意とする「コードを書く」ことを活かせないのかという点にある。チームは、「CodePlot-CoT」というコード駆動型の思考プロセスフレームワークを提案した。

具体的な手順は以下の通りである。まず、大規模モデルは数学の問題を受け取り、推論を行う。推論中に補助線や関数のグラフが必要になった場合、モデルは画像を生成せず、実行可能な描画コード、例えばPythonのMatplotlibコードを生成する。その後、このコードはPythonレンダラーで実行され、瞬時に正確な幾何学的図形が生成される。最後に、このコードで描かれた画像を再び推論プロセスに戻し、最終的な答えが出るまでテキストの推論を続ける。

この方法により、難しくて正確に制御するのが難しい画像生成問題を、大規模モデルが最も得意とする言語モデリング問題に変換できた。数学図形の最も重要な構造的属性、例えば形状、位置、角度は、構造化されたコードによって完璧に表現でき、ピクセルレベルの細かい情報の干渉を避けることができた。

image.png

このようなモデルを訓練するために、チームは2つのツールを開発した。1つ目はMath-VRデータセットで、17万8千個の双語数学問題を含んでいる。以前のベンチマークテストとは異なり、過去の問題では図がすでに描かれていたが、Math-VRではモデル自身が図を描いて考えることを要求する。例えば等腰三角形の問題では、3つのケースを考慮する必要があり、モデルはそれぞれの図を自分で描いて分析しなければならない。分野の分布を見ると、幾何学が約81%を占めている。

2つ目のツールはMatplotCodeコンバーターで、数学図形専用の画像からコードへの翻訳ツールであり、数学図を高精度でPython描画コードに変換できる。トップクラスの商用モデルであるGemini-2.5-ProやGPT-5でも、ゼロサンプル状態では複雑な数学図を正確に描画コードに変換することは信頼できない。実験結果によれば、このコンバーターのコード生成成功率および画像復元の保真度は既存のモデルよりもはるかに優れている。

実験結果により、この「コード即思考」の枠組みの有効性が確認された。Math-VRベンチマークテストにおいて、CodePlot-CoTはベースモデルと比較して最大21%の性能向上を達成した。さらに注目すべきは、パラメータ数が多い上位の閉鎖型モデルであるGemini-2.5-Proでも、この新しいベンチマークで約3分の1の問題で間違えることである。これは、単にモデルの規模やテキストの思考プロセスの長さを増やすだけでは不十分であることを有力に示しており、視覚的な数学推論問題を真正に解決するためには、制御可能で正確で検証可能なコード駆動型の視覚推論が鍵であることを示している。

CodePlot-CoTの成功は、また一つの先進的なモデルに過ぎず、マルチモーダル数学推論の新たな方向性を開拓した。それは、科学計算や工学設計などの高精度・強い論理性が求められる分野において、大規模モデルが人間の筆跡を模倣するのではなく、プログラミング能力を利用して正確で制御可能なデジタル世界を構築し、その中で推論と検証を行うべきであることを示している。

このチームはすべてのデータセット、コード、および事前トレーニングモデルをオープンソース化し、AIコミュニティに貴重なリソースを提供した。これは、大規模モデルが幾何問題の推論において重要な一歩を踏み出したことを示しており、コード駆動型の視覚推論方法を通じて、AIが数学幾何の難問を効果的に解く道をようやく見つけたことを意味している。

論文のURL:https://arxiv.org/pdf/2510.11718