一万亿参数推理怪兽诞生！阿里模型HLE得分超GPT，中国开源AI份额首超美国。

qimuai 发布于 2026-1-30 18:03 阅读：17 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

中国AI的“春节战役”：阿里用一万亿参数的推理怪兽，叩开了新战场的门

春节将至，你忙着抢票回家，科技巨头们可没闲着。

阿里刚扔出了一枚“深水炸弹”——Qwen3-Max-Thinking，一个参数规模超过一万亿（1T） 的推理旗舰模型。它不是简单的“更大”，而是瞄准了一个更精确的靶心：复杂推理。

什么意思？如果说之前的模型是在比拼谁知道的“事实”多，那现在开始，真正要较量的是谁“想得更深、更准”。

一张榜单，看见真实差距的弥合

参数一万亿，训练数据用了36万亿个Token（36T Tokens）。数字很大，但更值得看的是成绩单。

在一份涵盖事实知识、复杂推理、指令遵循等19项权威基准的综合榜单上，Qwen3-Max-Thinking的整体表现，已经可以并肩GPT-5.2-Thinking、Claude Opus 4.5和Gemini 3 Pro。这意味着在最顶尖的模型竞技场里，中国选手已经拿到了同场竞技的门票。

更关键的一役，发生在一个叫 “人类最后的测试”（HLE） 的评测里。这个测试有个前提：允许模型调用外部工具，比如搜索引擎、计算器。结果，Qwen3-Max-Thinking拿到了58.3分，超过了GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分，创造了目前的最高分。

这不仅仅是一个分数的超越。它验证了一个方向：未来的AI，不是封闭的知识库，而是懂得“借助外力”解决问题的智能体。

两大“心法”：会“外挂”，更会“内省”

性能的跃升，背后是两项核心技术的支撑。

第一招叫 “自适应工具调用”。模型不再是被动回答，而是能主动判断：“这个问题需要查最新资料”，然后调用搜索引擎；或者“这个计算很复杂”，然后启动代码解释器。它学会了“伸手”。

第二招更关键，叫 “测试时扩展技术（Test-Time Scaling）”。你可以理解为，模型在交卷前，自己先打一遍草稿。它会草拟思路、验证假设、优化推理路径，最后才给出笃定的结论。消耗同样的算力（token），却换来了更深的思考和更高的准确率。这像不像一个顶尖学霸的解题过程？

你马上就能用上，战火已经烧到眼前

技术再好，不能落地也是空谈。

好消息是，这个“推理怪兽”已经接入了千问AI助手。你在PC、网页（qianwen.com）或者App上，都能一键切换使用。开发者也可以通过开放的API（qwen3-max-2026-01-23）直接调用。

但阿里的动作还没完。根据消息，春节假期期间，他们还将发布新一代旗舰模型Qwen 3.5，重点强化数学推理和代码能力。

为什么这么急？因为对手也没闲着。几乎同一时间，字节跳动被曝计划在春节前后，推出覆盖语言、图像、视频生成的三款核心模型。

这不是巧合。这是一场心照不宣的 “春节战役”。

争夺的不仅是技术，更是下一个十年的云端王座

巨头们为什么在春节期间“加班”发布模型？因为这场竞争，早已超越了单纯的技术炫技。

一组数据揭示了底层的动力：根据MIT-Hugging Face的数据，在全球22亿次模型下载中，中国开源AI模型的采用份额已达17.1%，首次超过美国的15.8%。生态的土壤正在肥沃。

而云服务市场，是这一切的终极战场。中国的云市场规模预计到2030年将接近900亿美元。谁掌握了最先进、最易用的底层模型，谁就能吸引开发者、企业客户，牢牢绑定在自己的云生态上。

字节和阿里在春节的这场“对台戏”，争的是技术话语权，更是未来十年云服务的主导权。模型的迭代速度，已经成了云市场份额的先行指标。

结语：推理，是AI进化的下一个台阶

当模型的“知识量”竞赛进入平台期，“推理能力”就成了拉开差距的新赛道。谁能像人一样思考、规划、验证，谁就能处理更复杂的现实任务，从写代码、做分析，到管理项目、辅助决策。

阿里的Qwen3-Max-Thinking，用一项HLE测试的最高分，宣告了中国模型在这一赛道的冲击力。而随着Qwen 3.5和字节系新模型的即将登场，这个春节的科技圈，注定硝烟弥漫。

这场始于“推理”的竞赛，最终将重塑我们每个人使用工具的方式。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

AI每日进展

文章目录

📚 推荐阅读

扫描二维码，在手机上阅读