GPT-5.2和Gemini-3.0也没想到：自己被一个开源的‘AI侦探’超车了。

qimuai 发布于 2026-1-30 18:02 阅读：19 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

最近你一定刷到过这样的视频：画面扫过一个生锈的机器零件，AI不仅能认出它是什么，还能分析出它的可能型号、常见故障原因，甚至推荐维修工具购买链接。整个过程，完全自主，无需一步步引导。

这背后，就是AI从“看图说话”到“看图思考并动手”的惊险一跃。

而把这个能力彻底开源，让所有人能免费下载、研究的，是商汤科技。它叫SenseNova-MARS。这不只是一个更强的多模态模型，它可能是你第一次见到真正意义上的“AI侦探”——一个能自主规划、主动调用工具的视觉智能体。

一个“侦探型AI”，是如何思考的？

以前的多模态AI，像是“老实巴交的答题机器”。你问，它答。画面里有啥，它就说啥。

但MARS不一样。商汤给了它一个核心能力：动态视觉推理与自主规划。这是什么感觉？

想象一下，你给它看一张夜间拍摄的、光线模糊的电路板照片。传统的视觉AI可能只能识别出“电路板”、“几个元件”。但MARS会启动它的“侦探模式”：

看见 → 思考 → 行动 → 再思考 → 得出结论

它会先发现一个烧毁的电容（看见），然后自主决定放大那个区域（行动），识别出电容的色环参数（再看见），接着自动调用搜索工具，去查询这个规格电容的常见工作电压和失效原因（再行动），最后综合分析，告诉你：“这是一个16V 100μF的电解电容，在12V电源电路中因电压波动烧毁，建议检查前级稳压模块。”

整个过程，它自己规划步骤，自己决定何时调用“放大镜工具”、何时调用“搜索引擎”。商汤把这种能力，叫做“培养工具使用直觉”。

它不再是回答一个问题，而是在执行一个任务。从理解视觉场景，到进行多跳深度推理，全部自主完成。

三大硬核能力，拉开代差

核心：培养“工具直觉”的Agent
这才是MARS最颠覆的地方。它把“视觉理解”和“规划执行”打通了。面对复杂问题，它自己就是项目经理，拆解任务、调用资源（工具）、整合答案。这意味着，它能无缝接入各种现实工作流——工业质检、内容审核、辅助研究，它不再只是个“观察员”，而是能动手的“协作者”。
看得见，搜得准：动态图文搜索
识别物体，只是第一步。MARS能在瞬间匹配全球相关的图文信息。你拍一个罕见植物，它不仅能认出名字，还能关联出它的养护百科、近期研究论文、甚至市场售价。视觉与知识的边界，被它抹平了。
跑分，赢了GPT-5.2
能力说得再炫，成绩单是硬道理。在HR-MMSearch、FVQA、InfoSeek等多个权威多模态评测中，SenseNova-MARS拿到了开源模型的最高分（SOTA）。最引人注目的是，在部分关键测试集上，它的表现超越了Gemini-3.0-Pro和GPT-5.2等闭源巨头。开源模型在复杂推理上正面超车闭源模型，这个信号，足够强烈。

商汤这次，把“底裤”都开源了

为了让大家能真正用上、并在此基础上创新，商汤这次诚意十足：

模型全开源：提供8B和32B两个版本，适应不同算力需求。
代码、数据全公开：包括构建高难度推理案例的自动化数据合成引擎，以及用于稳定训练的核心算法BN-GSPO的全部细节。
一键获取：所有资源都已上传至Hugging Face和GitHub（github.com/OpenSenseNova），几分钟内你就能让这个“AI侦探”在本地跑起来。

这不仅仅是发布一个模型，更是为整个开发者社区提供了一整套搭建“自主智能体”的工具箱。具身智能、自动化Agent、复杂任务机器人……这些前沿探索的门槛，被大大降低了。

结尾

SenseNova-MARS的出现，清晰地指明了一个趋势：AI的竞争，正在从“知识量”和“准确率”，转向 “自主性”和“执行力” 。未来我们打交道的AI，可能不再是百问百答的百科全书，而是一个个具备特定领域直觉、能主动解决问题的“智能协作者”。

当AI学会了像侦探一样观察、思考和规划行动，每一个需要“眼脑手”配合的领域，都将被重新定义。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

AI每日进展

文章目录

📚 推荐阅读

扫描二维码，在手机上阅读