AI闭卷考IMO得金牌！16.5小时纯思考，成绩超人类。

qimuai 发布于 2025-12-24 18:02 阅读：67 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

你信吗？有个AI，最近悄悄参加了场“闭卷考”——题目是2025年国际数学奥林匹克（IMO）的前五道题。

它没用搜索，没联网求助，纯靠“思考”。

16.5小时后，它交出的答案，经最严苛的计算机验证系统判定，成绩换算过来是35分（满分42）。

这个分数，够得上IMO金牌线。

这不是科幻片段。这是字节跳动Seed团队在去年圣诞节前送出的硬核礼物——Seed Prover 1.5。一个专门用来做“形式化数学证明”的模型。

说白了，它干的活儿，是把人类写的数学命题，变成一行行计算机能读懂、并能100%验证对错的代码。

这有多难？

想象一下，你不仅要理解题目，还要用一套极其精确、毫无歧义的“机器语言”，把推理的每一步逻辑锁死，让计算机心服口服。这曾是AI在数学推理上最难啃的骨头。

但Seed Prover 1.5，把它啃下来了。

凭什么？

关键在它的训练方法：大规模智能体强化学习（Agentic RL）。

你可以把它想象成，模型不再是被动做题的学生，而是成了一个拥有“主观能动性”的解题智能体。它会在一个模拟的证明环境里，自己尝试、自己碰壁、自己反思、自己调整策略。就像个不知疲倦的数学探险家，在巨大的逻辑迷宫里，靠无数次试错，亲手绘制出最高效的路径图。

这种训练，让它的“推理肌肉”异常强悍。

结果呢？

不仅仅是IMO。在另一项以高难度著称的普特南大学生数学竞赛测试集上，它的表现同样惊人。技术报告里写得很清楚：性能大幅超越前代。

这意味着，它解决复杂、抽象数学问题的泛化能力，得到了实质性飞跃。

更有意思的是，Seed团队这次很“敞亮”。技术报告直接公开，后续还打算开放API。这意味着，不只是字节内部的研究员，全球的数学家和AI研究者，很快都能亲手试试这个“数学证明引擎”的威力。

这或许才是更重要的信号：最前沿的AI能力，正从实验室的演示品，变成可供社区使用的工具。

形式化数学，曾经是极少数顶尖学者的小众领域。因为它太难，太耗神。但现在，一个强大的AI协作者已经就位。

它能做什么？帮数学家验证那些长达数百页、人类审稿人看到眼花的复杂证明？辅助教材编写，确保每一个定理推导都毫无瑕疵？甚至，为物理、密码学等依赖严谨数学的领域，提供底层的逻辑安全保障？

想象空间一下子打开了。

回过头看，字节跳动的Seed团队成立不过两年（2023年成立），从最早的BFS-Prover，到如今在MiniF2F测试集上刷新纪录的Seed Prover 1.5，这条技术路线走得很快，也很稳。

他们盯着的，从来不只是“解题”。而是如何让AI真正理解人类最深邃、最严谨的逻辑智慧，并与之协同工作。

当AI能在数学奥林匹克的巅峰赛场摘金，当它开始精通这门人类的“逻辑母语”，变化可能比我们想的来得更快。

数学，或许只是第一个被深刻重塑的领域。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

文章目录

扫描二维码，在手机上阅读