正文

字节跳动发布 Seed Prover1.5:推动形式化数学推理的新进展

发布于AI新闻资讯

发布时间 :2025年12月24号 14:18

阅读 :1分钟

近日，字节跳动 Seed 团队推出了其最新的形式化数学推理模型 Seed Prover1.5，标志着在数学推理领域的一次重要突破。此次模型的推出，得益于对大规模 Agentic 强化学习的深入探索，使得其在推理能力和效率方面都取得了显著提升。

在参加2025年国际数学奥林匹克（IMO）比赛时，Seed Prover 展现了其强大的性能。在短短三天内，该模型成功解决了六道题目中的四道，并对其中一道进行了部分证明，最终获得了官方认证的银牌成绩。相比之下，Seed Prover1.5在16.5小时内针对 IMO2025的前五道题目生成了完整的可编译验证的 Lean 证明代码，达到金牌分数线的标准。

更值得注意的是，Seed Prover1.5在2025年普特南数学竞赛中的表现同样出色，仅用时9小时便完成了12道题目中的11道生成可编译验证的 Lean 代码。这一成绩刷新了形式化数学推理模型在多个评测集上的最佳表现，特别是在包含硕士和博士生数学难度的评估集上，分别解决了80% 和33% 的问题。

Seed Prover1.5的创新之处在于其全新的 Agentic Prover 架构，这一架构将自然语言推理与形式化证明的优势相结合。与以往的形式化证明器不同，Seed Prover1.5能够在证明过程中灵活调用多种工具，例如主动检索庞大的数学库 Mathlib 和执行 Python 代码来辅助验证。通过增量式引理验证，该模型将复杂问题拆解为若干引理，逐步构建形式化证明。

此外，Seed Prover1.5还引入了 Sketch Model，该模型模拟了人类数学家的解决思路，将自然语言证明转化为高层的证明框架，从而大大降低了复杂定理证明的难度。通过这种 “分而治之” 的策略，Seed Prover1.5能够有效避免生成长文本时的错误累积。

技术报告:

https://arxiv.org/abs/2512.17260

Lean 证明代码:

https://github.com/ByteDance-Seed/Seed-Prover/blob/main/SeedProver-1.5/Putnam2025.zip

OpenAI炮轰AI评测"标杆"： 731 道题近三成有缺陷， 8 个月通过率从23%飙到80%已失灵

OpenAI公开质疑SWE-Bench Pro基准，指出其731个测试任务中约30%存在评测缺陷。该基准由Scale AI推出，是衡量大模型编程能力的行业权威。但OpenAI警示，前沿模型通过率8个月内从23.3%飙升至80.3%，进步速度异常，暗示评测可靠性存疑。

2026年7月9号 16:52

697.1k

AI"按量计费"吓退企业高管：近三分之一承认不懂经济账，算力账单成了黑箱

毕马威针对全球20国2145名高管的调查显示，AI新的按量计费模式正让企业高管们感到不安。过去依赖固定价格合同、由AI公司补贴算力成本的模式难以为继，随着算力价格持续攀升，整个行业被迫转向防守，企业低价使用AI的阶段正走向终结。

2026年7月9号 16:01

180.9k

一个普通摄像头就能自主导航：Mistral发布8B模型Robostral Navigate，性能碾压多摄像头方案

法国AI公司Mistral推出轻量级机器人导航模型Robostral Navigate，参数仅8B。该模型仅凭普通RGB摄像头即可实现复杂环境下的完全自主导航，无需激光雷达或深度传感器，适用于室内外多种场景，显著降低硬件成本与部署复杂度。

2026年7月9号 15:24

179.8k

全球首部AI女演员主演电影开机：没有身体没有童年，却能调取全人类记忆

英国Particle6公司启动长片《Misaligned》，由AI演员蒂莉·诺伍德主演，号称首部AI主角长片。该片为存在主义AI成长喜剧正剧，设定于数字世界“蒂莉宇宙”，主角AI无身体、无童年、无人生。

2026年7月9号 14:17

140.6k

AI编码圈再传重磅：瑞典新星Lovable估值或将翻倍至 132 亿美元

瑞典AI编程公司Lovable正进行新一轮3亿美元融资，估值将达132亿美元，较去年12月翻倍，Menlo Ventures领投。其核心优势“氛围编码”技术大幅降低开发门槛，是资本追捧关键。

2026年7月9号 11:26

165.7k

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご