美团开源虚拟人模型,5分钟视频不崩,原因竟是……

最新AI落地实操,点击了解:https://qimuai.cn/
虚拟人技术,这次终于“活”过来了
你发现没?
现在的虚拟人,越来越容易“露馅”。
说话时,嘴型对不上。不说话时,人直接“定”住,像个精致木偶。镜头稍长一点,脸就开始悄悄变形,上半段和下半段仿佛不是同一个人。
直到昨天,美团LongCat团队扔出了一个开源炸弹——LongCat-Video-Avatar。
它生成的虚拟人,会让你背后一凉:怎么这么“活”?
视频里,人物会自然眨眼。语音停顿间隙,她的眼神会飘向别处,头微微一侧,仿佛在思考下一句话。连续5分钟,她的脸型、发型、五官纹丝不动,但表情和肢体语言却丰富而协调。
这不是一段精心剪辑的CG,而是一个模型,直接“听”着你的音频,“看”着你的脚本或照片,一气呵成渲染出来的长视频。
一、不止是“对口型”,它解耦了“灵魂”
过去很多音频驱动模型,本质是“高级对口型机器”。声音一响,嘴巴就动;声音一停,整个人就僵住。
LongCat-Video-Avatar做对的第一件事,就是把声音和动作“拆开”看。
技术上叫“解耦语音与动作的无条件引导”。简单说,模型能区分:哪些动作是语音必须触发的(比如口型、部分表情),哪些动作是人物自然该有的(比如眨眼、微表情、姿势调整)。
所以,你得到一个有“呼吸感”和“小动作”的虚拟人。她不再是被声音操控的木偶,而是一个有自主生命力的数字演员。
二、三大模式,覆盖你所有“造人”需求
这个模型强在“一个框架,干所有事”。官方提供了三种开箱即用的生成模式:
- AT2V (音频+文本→视频):给一段录音和讲稿,直接生成虚拟主播播报视频。
- ATI2V (音频+文本+图像→视频):除了音频和文本,再给一张参考图。你就能定制一个专属形象的虚拟人,让她用你的脸(或任何你设计的脸)来说话、表演。
- 视频续写:给一段已有的虚拟人视频开头,模型能无缝地、高质量地往后“续拍”下去,生成更长的内容。
这意味着,你既可以凭空创造一个数字人,也可以让已有的数字形象“活”起来,甚至让她一部“电影”拍到底。
三、凭什么能拍5分钟“不崩”?
长视频是虚拟人技术的“鬼门关”。常见的毛病是画质越来越糊、人脸悄悄变形、动作开始鬼畜。
美团团队用了两个关键技术闯关:
第一,跨块潜在缝合。 你可以理解为,它不是在粗糙的“图像层面”拼接视频,而是在更本质、更稳定的“特征层面”进行无缝衔接。这大大减少了长视频生成中的误差累积和画质损失。
第二,参考跳过注意力。 为了防止虚拟人全程“复制粘贴”同一个僵硬表情和姿势,这个机制会聪明地在“保持形象一致”和“丰富动作神态”之间做动态平衡。所以,你看到的人物动作更自然、更有变化。
正因如此,官方才敢说,它能稳定生成长约5分钟的高质量视频,并在HDTF等多个权威测试集上,指标达到了业界顶尖(SOTA)水平。
四、这玩意儿,能用在哪儿?
想象空间一下子打开了:
- 永不疲倦的虚拟主播/讲师:输入直播录音和提词稿,几分钟后,一个口型精准、表情生动的讲解视频就出来了。
- 低成本影视制作:补拍镜头、虚拟角色表演、甚至部分替身戏份,都可以用它生成,大幅降低时间和金钱成本。
- 虚拟偶像“营业”:为偶像生成新的唱歌跳舞视频、生日问候、粉丝互动内容,产能直接拉满。
- 个性化营销视频:上传产品经理的照片和讲解音频,就能生成他本人出镜的产品介绍视频。
- 多人虚拟会议:模型支持多流音频输入,能直接生成多个虚拟人对话、辩论的场景。
五、最重要的是:它开源了
是的,你没看错。
美团LongCat团队将它完全开源。这意味着,任何开发者、任何公司,都可以下载这个模型,在自己的数据和算力上跑起来,探索属于自己的虚拟人应用。
技术民主化的浪潮,正变得无比具体。以前大厂密不外宣的“黑科技”,正一件件变成所有人桌上的“工具箱”。
—
所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。