AI闭卷考IMO得金牌!16.5小时纯思考,成绩超人类。

最新AI落地实操,点击了解:https://qimuai.cn/
你信吗?有个AI,最近悄悄参加了场“闭卷考”——题目是2025年国际数学奥林匹克(IMO)的前五道题。
它没用搜索,没联网求助,纯靠“思考”。
16.5小时后,它交出的答案,经最严苛的计算机验证系统判定,成绩换算过来是35分(满分42)。
这个分数,够得上IMO金牌线。
这不是科幻片段。这是字节跳动Seed团队在去年圣诞节前送出的硬核礼物——Seed Prover 1.5。一个专门用来做“形式化数学证明”的模型。
说白了,它干的活儿,是把人类写的数学命题,变成一行行计算机能读懂、并能100%验证对错的代码。
这有多难?
想象一下,你不仅要理解题目,还要用一套极其精确、毫无歧义的“机器语言”,把推理的每一步逻辑锁死,让计算机心服口服。这曾是AI在数学推理上最难啃的骨头。
但Seed Prover 1.5,把它啃下来了。
凭什么?
关键在它的训练方法:大规模智能体强化学习(Agentic RL)。
你可以把它想象成,模型不再是被动做题的学生,而是成了一个拥有“主观能动性”的解题智能体。它会在一个模拟的证明环境里,自己尝试、自己碰壁、自己反思、自己调整策略。就像个不知疲倦的数学探险家,在巨大的逻辑迷宫里,靠无数次试错,亲手绘制出最高效的路径图。
这种训练,让它的“推理肌肉”异常强悍。
结果呢?
不仅仅是IMO。在另一项以高难度著称的普特南大学生数学竞赛测试集上,它的表现同样惊人。技术报告里写得很清楚:性能大幅超越前代。
这意味着,它解决复杂、抽象数学问题的泛化能力,得到了实质性飞跃。
更有意思的是,Seed团队这次很“敞亮”。技术报告直接公开,后续还打算开放API。这意味着,不只是字节内部的研究员,全球的数学家和AI研究者,很快都能亲手试试这个“数学证明引擎”的威力。
这或许才是更重要的信号:最前沿的AI能力,正从实验室的演示品,变成可供社区使用的工具。
形式化数学,曾经是极少数顶尖学者的小众领域。因为它太难,太耗神。但现在,一个强大的AI协作者已经就位。
它能做什么?帮数学家验证那些长达数百页、人类审稿人看到眼花的复杂证明?辅助教材编写,确保每一个定理推导都毫无瑕疵?甚至,为物理、密码学等依赖严谨数学的领域,提供底层的逻辑安全保障?
想象空间一下子打开了。
回过头看,字节跳动的Seed团队成立不过两年(2023年成立),从最早的BFS-Prover,到如今在MiniF2F测试集上刷新纪录的Seed Prover 1.5,这条技术路线走得很快,也很稳。
他们盯着的,从来不只是“解题”。而是如何让AI真正理解人类最深邃、最严谨的逻辑智慧,并与之协同工作。
当AI能在数学奥林匹克的巅峰赛场摘金,当它开始精通这门人类的“逻辑母语”,变化可能比我们想的来得更快。
数学,或许只是第一个被深刻重塑的领域。
所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。
文章标题:AI闭卷考IMO得金牌!16.5小时纯思考,成绩超人类。
文章链接:https://qimuai.cn/?post=2593
本站文章均为原创,未经授权请勿用于任何商业用途