美团开源虚拟人模型，5分钟视频不崩，原因竟是……

qimuai 发布于 2025-12-20 18:02 阅读：41 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

你发现没？
现在的虚拟人，越来越容易“露馅”。

说话时，嘴型对不上。不说话时，人直接“定”住，像个精致木偶。镜头稍长一点，脸就开始悄悄变形，上半段和下半段仿佛不是同一个人。

直到昨天，美团LongCat团队扔出了一个开源炸弹——LongCat-Video-Avatar。

它生成的虚拟人，会让你背后一凉：怎么这么“活”？

视频里，人物会自然眨眼。语音停顿间隙，她的眼神会飘向别处，头微微一侧，仿佛在思考下一句话。连续5分钟，她的脸型、发型、五官纹丝不动，但表情和肢体语言却丰富而协调。

这不是一段精心剪辑的CG，而是一个模型，直接“听”着你的音频，“看”着你的脚本或照片，一气呵成渲染出来的长视频。

过去很多音频驱动模型，本质是“高级对口型机器”。声音一响，嘴巴就动；声音一停，整个人就僵住。

LongCat-Video-Avatar做对的第一件事，就是把声音和动作“拆开”看。

技术上叫“解耦语音与动作的无条件引导”。简单说，模型能区分：哪些动作是语音必须触发的（比如口型、部分表情），哪些动作是人物自然该有的（比如眨眼、微表情、姿势调整）。

所以，你得到一个有“呼吸感”和“小动作”的虚拟人。她不再是被声音操控的木偶，而是一个有自主生命力的数字演员。

这个模型强在“一个框架，干所有事”。官方提供了三种开箱即用的生成模式：

AT2V (音频+文本→视频)：给一段录音和讲稿，直接生成虚拟主播播报视频。
ATI2V (音频+文本+图像→视频)：除了音频和文本，再给一张参考图。你就能定制一个专属形象的虚拟人，让她用你的脸（或任何你设计的脸）来说话、表演。
视频续写：给一段已有的虚拟人视频开头，模型能无缝地、高质量地往后“续拍”下去，生成更长的内容。

这意味着，你既可以凭空创造一个数字人，也可以让已有的数字形象“活”起来，甚至让她一部“电影”拍到底。

长视频是虚拟人技术的“鬼门关”。常见的毛病是画质越来越糊、人脸悄悄变形、动作开始鬼畜。

美团团队用了两个关键技术闯关：

第一，跨块潜在缝合。 你可以理解为，它不是在粗糙的“图像层面”拼接视频，而是在更本质、更稳定的“特征层面”进行无缝衔接。这大大减少了长视频生成中的误差累积和画质损失。

第二，参考跳过注意力。 为了防止虚拟人全程“复制粘贴”同一个僵硬表情和姿势，这个机制会聪明地在“保持形象一致”和“丰富动作神态”之间做动态平衡。所以，你看到的人物动作更自然、更有变化。

正因如此，官方才敢说，它能稳定生成长约5分钟的高质量视频，并在HDTF等多个权威测试集上，指标达到了业界顶尖（SOTA）水平。

想象空间一下子打开了：

是的，你没看错。

美团LongCat团队将它完全开源。这意味着，任何开发者、任何公司，都可以下载这个模型，在自己的数据和算力上跑起来，探索属于自己的虚拟人应用。

技术民主化的浪潮，正变得无比具体。以前大厂密不外宣的“黑科技”，正一件件变成所有人桌上的“工具箱”。

—

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

文章目录

扫描二维码，在手机上阅读