«

AI闭卷考IMO得金牌!16.5小时纯思考,成绩超人类。

qimuai 发布于 阅读:22 AI新闻


AI闭卷考IMO得金牌!16.5小时纯思考,成绩超人类。

最新AI落地实操,点击了解:https://qimuai.cn/


你信吗?有个AI,最近悄悄参加了场“闭卷考”——题目是2025年国际数学奥林匹克(IMO)的前五道题

它没用搜索,没联网求助,纯靠“思考”。

16.5小时后,它交出的答案,经最严苛的计算机验证系统判定,成绩换算过来是35分(满分42)

这个分数,够得上IMO金牌线

这不是科幻片段。这是字节跳动Seed团队在去年圣诞节前送出的硬核礼物——Seed Prover 1.5。一个专门用来做“形式化数学证明”的模型。

说白了,它干的活儿,是把人类写的数学命题,变成一行行计算机能读懂、并能100%验证对错的代码。

这有多难?

想象一下,你不仅要理解题目,还要用一套极其精确、毫无歧义的“机器语言”,把推理的每一步逻辑锁死,让计算机心服口服。这曾是AI在数学推理上最难啃的骨头。

但Seed Prover 1.5,把它啃下来了。

凭什么?

关键在它的训练方法:大规模智能体强化学习(Agentic RL)

你可以把它想象成,模型不再是被动做题的学生,而是成了一个拥有“主观能动性”的解题智能体。它会在一个模拟的证明环境里,自己尝试、自己碰壁、自己反思、自己调整策略。就像个不知疲倦的数学探险家,在巨大的逻辑迷宫里,靠无数次试错,亲手绘制出最高效的路径图。

这种训练,让它的“推理肌肉”异常强悍。

结果呢?

不仅仅是IMO。在另一项以高难度著称的普特南大学生数学竞赛测试集上,它的表现同样惊人。技术报告里写得很清楚:性能大幅超越前代

这意味着,它解决复杂、抽象数学问题的泛化能力,得到了实质性飞跃。

更有意思的是,Seed团队这次很“敞亮”。技术报告直接公开,后续还打算开放API。这意味着,不只是字节内部的研究员,全球的数学家和AI研究者,很快都能亲手试试这个“数学证明引擎”的威力。

这或许才是更重要的信号:最前沿的AI能力,正从实验室的演示品,变成可供社区使用的工具。

形式化数学,曾经是极少数顶尖学者的小众领域。因为它太难,太耗神。但现在,一个强大的AI协作者已经就位。

它能做什么?帮数学家验证那些长达数百页、人类审稿人看到眼花的复杂证明?辅助教材编写,确保每一个定理推导都毫无瑕疵?甚至,为物理、密码学等依赖严谨数学的领域,提供底层的逻辑安全保障?

想象空间一下子打开了。

回过头看,字节跳动的Seed团队成立不过两年(2023年成立),从最早的BFS-Prover,到如今在MiniF2F测试集上刷新纪录的Seed Prover 1.5,这条技术路线走得很快,也很稳。

他们盯着的,从来不只是“解题”。而是如何让AI真正理解人类最深邃、最严谨的逻辑智慧,并与之协同工作。

当AI能在数学奥林匹克的巅峰赛场摘金,当它开始精通这门人类的“逻辑母语”,变化可能比我们想的来得更快。

数学,或许只是第一个被深刻重塑的领域。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读