«

为什么AI视频总是‘精神分裂’?因为美团LongCat让它们学会了‘物理规律’。

qimuai 发布于 阅读:3 AI新闻


为什么AI视频总是‘精神分裂’?因为美团LongCat让它们学会了‘物理规律’。

最新AI落地实操,点击了解:https://qimuai.cn/

深夜刷短视频,你是不是也经常划到那些“一眼AI”的诡异画面?上一秒还是蓝天白云,下一秒大楼开始扭曲变色,人物突然多出一只手……

这些让人出戏的bug,终于要被解决了。

最近,美团悄悄放出了一个大招——LongCat-Video。这个开源视频大模型,直接瞄准了行业两大痛点:时序一致性和物理运动合理性。

简单说,它能让AI生成的视频不再“精神分裂”。

你给它一段文字或一张图,它能稳定输出长达5分钟的连贯视频。画面中的人物、场景、色彩,都能保持高度统一,不会中途突变。物体的运动轨迹、光影变化,也都符合真实世界的物理规律。

这背后,是美团在模型架构上的多重创新。

LongCat-Video采用了Diffusion Transformer(DiT)架构,并原生支持视频续写任务。它在训练时就不是只学“单帧画面”,而是直接把长序列生成作为核心目标。

它用上了Block-Causal Attention机制和三阶段训练流程,从预训练到微调,再到引入人类偏好的强化学习,一步步调教模型的“时空感知力”。

更聪明的是它的推理策略:先低分辨率快速生成整体剧情,再高分辨率精细化每一帧。配合块稀疏注意力机制,大幅降低了生成长视频的计算成本,速度提升超过10倍。

这意味着什么?

你不再需要为文生视频、图生视频、视频续写分别训练不同模型。LongCat-Video通过“条件帧数量”自动识别任务类型,一个模型全搞定。输出质量达到720p、30fps,真正达到了可用级别。

但美团的野心不止于此。

LongCat-Video被定位为“世界模型”战略的第一步。它不仅要合成画面,更要理解并模拟真实世界的运行规律——物体如何运动、光影如何变化、场景如何自然演化。

这已经超越了简单的视频生成工具。它为自动驾驶、具身智能等需要高度时空连贯性的领域,提供了基础技术支撑。AI不再只是“画师”,而是开始学习成为“物理世界的观察者和模拟者”。

从刷屏的Sora到如今开源的LongCat,我们正亲眼见证AI从“静态作画”迈向“动态模拟”的关键转折。

当AI生成的视频不再跳戏、不再违背物理规律,它的应用场景将呈指数级扩张。影视创作、广告营销、虚拟现实、工业仿真……每一个需要动态视觉的领域,都会被重新定义。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读