美團龍貓發佈開源數學定理證明模型 LongCat-Flash-Prover

2026年3月24日，美團龍貓（LongCat）團隊正式開源專門用於數學形式化與定理證明的深度學習模型——LongCat-Flash-Prover。該模型針對大語言模型在嚴密邏輯推演中的短板，通過將形式化推理拆解爲自動形式化（Auto-Formalization）、草稿生成(Sketching)與證明生成(Proving)三大原子能力，實現了從“概率預測答案”向“嚴謹邏輯證明”的範式轉變。

在結合工具集成推理（TIR）策略下，該模型在 MiniF2F-Test 基準測試中僅需72次推理預算即可達到97.1% 的通過率，刷新了開源 Prover 模型的 SOTA 紀錄。此外，在 MathOlympiad-Bench 與 PutnamBench 等高難度競賽級任務中，其表現亦全面超越現有開源模型。

技術層面，LongCat-Flash-Prover 採用了基於 TIR 的“混合專家迭代”框架。通過集成 Lean4Server 校驗、語義及定理一致性檢測以及針對9種作弊行爲的合法性驗證，模型有效解決了邏輯漏洞與代碼欺騙問題。在訓練階段，團隊引入分層 Masking 策略與 Token 層面 Staleness 控制，顯著提升了 MoE 架構下強化學習的穩定性。

隨着 AI 推理能力從自然語言模糊處理轉向計算機可驗證的形式化語言，此類 Prover 模型正逐漸超越算法跑分範式，轉化爲基礎科學研究的“底座設施”。這一突破預示着 AI 深度參與前沿數學探索與文獻自動化驗證的時代正在加速到來。

GitHub:
https://github.com/meituan-longcat/LongCat-Flash-Prover
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
Report:
https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf

美團龍貓發佈開源數學定理證明模型 LongCat-Flash-Prover

相關推薦

5600 億參數震撼開源！美團 LongCat 登頂：數學證明領域迎來新“天花板”

扎克伯格的“人才拼圖”：收編 AI 智能體新星 Dreamer，老將重返 Meta

阿里達摩院發佈玄鐵C950：單核性能突破 70 分，刷新全球RISC-V紀錄

算力的終局是能源：OpenAI 豪賭核聚變，欲鎖定 5000 萬千瓦“無限電力”

Plaud 中國區 CEO 莫子皓離職：AI 硬件賽道再現重量級“連續創業者”