近日,谷歌 DeepMind 開發的一款 AI 系統 ——AlphaGeometry2,成功超越了國際數學奧林匹克(IMO)金牌選手的平均水平,在幾何問題解答上表現優異。AlphaGeometry2是 DeepMind 在去年發佈的 AlphaGeometry 系統的升級版,研究團隊在最新的研究中指出,該系統能解決過去25年間 IMO 的84% 幾何問題。

那麼,爲什麼 DeepMind 會關注這樣一個高中的數學競賽呢?研究人員認爲,解決複雜幾何問題的新方法可能是提升 AI 能力的關鍵,尤其是在歐幾里得幾何方面。證明數學定理需要推理能力和選擇合適解決步驟的能力,DeepMind 相信這些問題解決能力可能對未來通用 AI 模型的發展至關重要。

LLM 羊駝 數學大模型

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

今年夏天,DeepMind 還展示了一種結合了 AlphaGeometry2與 AlphaProof(一個用於正式數學推理的 AI 模型)的系統,這個系統在2024年 IMO 的預選賽中解決了六道題中的四道。除了幾何問題,這種方法還可能擴展到數學和科學的其他領域,甚至能夠幫助處理複雜的工程計算。

AlphaGeometry2的核心包括來自谷歌 Gemini 家族的語言模型和一個 “符號引擎”。Gemini 模型幫助符號引擎利用數學規則推導出問題的解決方案。其工作流程是:Gemini 模型預測哪些構造(如點、線、圓)可能對解題有幫助,然後符號引擎根據這些構造進行邏輯推理。經過一系列複雜的搜索,AlphaGeometry2能夠將 Gemini 模型的建議與已知原則結合,從而得出證明。

儘管 AlphaGeometry2在解決 IMO 的50道問題中成功解答了42道,超越了金牌選手的平均得分,但仍有一些侷限性,比如無法解決變量數量不定的點、非線性方程和不等式。此外,在一些更難的題目上,AlphaGeometry2的表現並不理想,僅解決了29道題中20道。

這項研究再次引發了關於 AI 系統究竟應該基於符號操作還是更類腦的神經網絡的討論。AlphaGeometry2採用的是一種混合方法,結合了神經網絡和基於規則的符號引擎。DeepMind 的團隊指出,雖然大型語言模型可能在沒有外部工具的情況下生成部分解決方案,但在當前情況下,符號引擎仍然是數學應用中的重要工具。