刚刚开源!这个模型推理成本暴降,性能却超越400亿参数巨头。
最新AI落地实操,点击了解:https://qimuai.cn/
刚刚开源!这个模型让AI推理成本暴降,性能却碾压同级选手
昨晚,科技圈又被一则开源消息刷屏了。
蚂蚁百灵团队正式放出了Ring-flash-2.0,一个被称为“高性能思考模型”的新玩家。别被“思考模型”这个词唬住,你只需要知道:它在数学、代码和逻辑推理上,表现出了超越同级选手的实力。
关键是,它还很省钱。
百亿参数,只激活一个零头
Ring-flash-2.0的总参数量是1000亿(100B),听起来是个庞然大物?但它的巧妙之处在于,每次实际推理时,只有6.1亿(6.1B)参数被激活。
你可以把它想象成一个超大型专家库,里面站满了1000位各领域的顶尖专家。但每次你提问,系统只会精准地叫出最相关的6位专家来为你解答。人海战术?不,这是精准狙击。
这种被称为MoE(混合专家模型)的架构,配合其自研的MTP层,核心目的就一个:用最小的算力代价,办最漂亮的事。单次推理的成本,因此被极大压低。
成绩单亮眼,不只是“够用”
光省钱不够,性能才是硬道理。来看它的成绩单:
- 数学(AIME25):得分86.98。这个成绩已经具备相当的竞争力。
- 代码(CodeForces elo):分数90.23。在编程解题上展现出强大潜力。
- 推理速度:在128K的长上下文窗口中,实测生成速度超过200 token/秒。这意味着处理长文档、复杂代码时,又快又稳。
最关键的是,它的综合性能已经达到甚至超越了某些400亿参数致密模型的顶尖水平。用更少的“劲”,做出了更好的“工”。
秘密武器:“棒冰”算法与长周期训练
性能飞跃的背后,是训练方法的革新。
团队采用了独创的“棒冰(icepop)算法”和长周期强化学习训练。简单理解,这就像是给AI请了一位顶级的私人教练,不是教它死记硬背,而是通过大量、长期的“高难度真题”训练,让它真正学会思考的套路,并且越来越稳定。
这解决了大模型在复杂推理上一直以来的痛点:不是不会答,而是容易在长链条的思考中跑偏或崩溃。现在,Ring-flash-2.0把这条路给走通了、走稳了。
行业风向变了
Ring-flash-2.0的开源,释放了一个强烈的信号。
大模型的竞争,早已不再是单纯攀比参数量的“数字游戏”。战场已经转移到了“高性价比”:谁的推理效率更高?谁的部署成本更低?谁能在实际业务中真正用得起、效果好?
这款模型,正好踩在了这个节拍上。它证明了“MoE架构 + 长链思考 + 强化学习”这条技术路线,不仅能走通,还能走得非常出色,为行业立下了一个新的工程标杆。
目前,模型已在HuggingFace和ModelScope同步开源。无论是研究者还是开发者,都可以立刻上手把玩,亲测它的实力。
所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。
文章标题:刚刚开源!这个模型推理成本暴降,性能却超越400亿参数巨头。
文章链接:https://qimuai.cn/?post=1196
本站文章均为原创,未经授权请勿用于任何商业用途