«

Emu3.5能预知未来!训练数据相当于一个人看790年的内容

qimuai 发布于 阅读:6 AI新闻


Emu3.5能预知未来!训练数据相当于一个人看790年的内容

最新AI落地实操,点击了解:https://qimuai.cn/

你还在用“文生图”?现在AI已经学会“动手”了。

就在最近,智源扔出一颗重磅炸弹——Emu3.5。它不再是那个只会“看图说话”的AI,而是真正开始“动手操作”的智能体。

如果说之前的AI是站在岸上告诉你水里有什么,那Emu3.5就是直接跳进水里,把鱼捞起来递给你。

它到底强在哪?

核心就一句话:它能预测“下一步会发生什么”。

这个叫“下一状态预测”的机制,让Emu3.5像拥有了预知能力。你给它一张图片、一段文字,它不仅能理解现在,还能推演未来——移动这个物体会怎样?调整光线会如何?下一步该做什么?

这不是简单的功能叠加,而是思维模式的彻底改变。

传统多模态AI:看到猫,识别出是猫,生成“一只猫”的描述
Emu3.5:看到猫在桌边,预测它可能跳下桌子,提前发出“扶住花瓶”的指令

差别就在这里。一个在描述世界,一个在干预世界。

具体来说,Emu3.5把文本、图像、动作指令统统打碎,编码成连续的状态流。就像我们看连续剧,不是一帧帧地看,而是理解整个故事脉络。

于是它做到了:

这背后是340亿参数、超10万亿token训练数据的支撑。它的视频训练时长相当于一个人不吃不喝看790年的内容——这种数据量,让它的推理能力有了质的飞跃。

对我们意味着什么?

想象一下:教育领域,AI能动态生成课件,根据学生反应实时调整;医疗场景,它能分析病历后推荐下一步检查方案;娱乐行业,AI导演不是梦;机器人控制,智能体真正具备了在复杂环境中行动的能力。

这已经不是“多模态理解”,而是“多模态操作”。AI正从观察者变成参与者。

现有的扩散模型还在努力让图片更逼真,特征拼接方法还在解决语义断裂问题,而Emu3.5直接换了一条赛道——它要操作这个世界,无论是虚拟的还是真实的。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读