开源！蚂蚁音频大模型3.1Hz实时生成，性能超越谷歌Gemini 2.5 Pro。

qimuai 发布于 2026-2-11 18:02 阅读：4 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

刚刚，全网最野的音频大模型，开源了

想象一下这个场景。

你对手机说：“给我生成一段深夜电台节目，主播声音温柔带点磁性，语速慢一点，背景是稀疏的雨声，角落里放一首极简的钢琴曲。”

然后，它真的给了你一条完整的、无缝融合的音轨。人声、环境音、背景乐，一次成型，浑然一体。

这不是科幻片。就在今天，这个能力被蚂蚁集团开源了出来。

它们甩出了 Ming-Flash-Omni 2.0，一个全新的全模态大模型。而它扔出的第一个“王炸”，就砸在了音频赛道上。

这可能是你目前能在开源世界里找到的，最“野”的音频大模型。

它不仅仅会生成语音。它能在一个模型里，同步搞定语音、环境音效和背景音乐。一句话指令，一条完整音轨直接到位。

更夸张的是控制力。你想让主播从平静叙述，转到略带哽咽？用自然语言告诉它。想让背景音乐在30秒处淡出，只留雨声？描述给它听。它甚至能模仿你提供的短短几秒声音样本，克隆出那个独特的音色。

这就是 “全场景音频统一生成” 。过去需要多个专业模型串联、反复调试对齐的复杂工程，现在被一个模型统一接管了。

为什么说它“野”？

因为简单，粗暴，且高效。它的推理帧率低至 3.1Hz，这意味着生成几分钟的高保真长音频，几乎是实时的。计算成本被大幅拉低，以往不敢想的实时交互音频应用，现在有了落地可能。

当然，它的野心不止于声音。

Ming-Flash-Omni 2.0 本质上是一个全模态模型。视觉理解上，它的“眼神”更毒了，能分辨两种极其相似的蝴蝶，能看出一件青铜器上细微的纹饰差异。

图像编辑上，它听得懂“给这张照片加一束清晨五点的柔光”，或者“把沙发上的人换成正在看书的样子”，并且能保持动态场景的连贯合理。

这一切能力，被整合在一个名为 Ling-2.0 的稀疏MoE架构里。就像一个高效的专家团队，各司其职，协同工作，避免了冗余，也降低了资源消耗。

结果呢？在多项公开基准测试中，它的部分成绩甚至超越了谷歌的 Gemini 2.5 Pro，坐上了开源全模态模型的新标杆位置。

简单说，它想成为多模态应用开发的 “统一入口”。看得准，听得细，生成稳。

现在，所有人都有机会上手把玩这个“超级工具箱”了。

模型权重和推理代码已经上传到 Hugging Face。想在线快速体验，可以去 蚂蚁百灵平台的 LingStudio。

门槛正在消失，创意即将喷涌。当音频创作可以像说话一样简单，当图像编辑可以像描述梦境一样自然，下一波应用爆炸会发生在哪里？

也许，就从你今天的这次尝试开始。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

文章目录

扫描二维码，在手机上阅读