«

开源!蚂蚁音频大模型3.1Hz实时生成,性能超越谷歌Gemini 2.5 Pro。

qimuai 发布于 阅读:4 AI新闻


开源!蚂蚁音频大模型3.1Hz实时生成,性能超越谷歌Gemini 2.5 Pro。

最新AI落地实操,点击了解:https://qimuai.cn/


刚刚,全网最野的音频大模型,开源了

想象一下这个场景。

你对手机说:“给我生成一段深夜电台节目,主播声音温柔带点磁性,语速慢一点,背景是稀疏的雨声,角落里放一首极简的钢琴曲。”

然后,它真的给了你一条完整的、无缝融合的音轨。人声、环境音、背景乐,一次成型,浑然一体。

这不是科幻片。就在今天,这个能力被蚂蚁集团开源了出来。

它们甩出了 Ming-Flash-Omni 2.0,一个全新的全模态大模型。而它扔出的第一个“王炸”,就砸在了音频赛道上。

这可能是你目前能在开源世界里找到的,最“野”的音频大模型。

它不仅仅会生成语音。它能在一个模型里,同步搞定语音、环境音效和背景音乐。一句话指令,一条完整音轨直接到位。

更夸张的是控制力。你想让主播从平静叙述,转到略带哽咽?用自然语言告诉它。想让背景音乐在30秒处淡出,只留雨声?描述给它听。它甚至能模仿你提供的短短几秒声音样本,克隆出那个独特的音色。

这就是 “全场景音频统一生成” 。过去需要多个专业模型串联、反复调试对齐的复杂工程,现在被一个模型统一接管了。

为什么说它“野”?

因为简单,粗暴,且高效。它的推理帧率低至 3.1Hz,这意味着生成几分钟的高保真长音频,几乎是实时的。计算成本被大幅拉低,以往不敢想的实时交互音频应用,现在有了落地可能。

当然,它的野心不止于声音。

Ming-Flash-Omni 2.0 本质上是一个全模态模型。视觉理解上,它的“眼神”更毒了,能分辨两种极其相似的蝴蝶,能看出一件青铜器上细微的纹饰差异。

图像编辑上,它听得懂“给这张照片加一束清晨五点的柔光”,或者“把沙发上的人换成正在看书的样子”,并且能保持动态场景的连贯合理。

这一切能力,被整合在一个名为 Ling-2.0 的稀疏MoE架构里。就像一个高效的专家团队,各司其职,协同工作,避免了冗余,也降低了资源消耗。

结果呢?在多项公开基准测试中,它的部分成绩甚至超越了谷歌的 Gemini 2.5 Pro,坐上了开源全模态模型的新标杆位置。

简单说,它想成为多模态应用开发的 “统一入口”。看得准,听得细,生成稳。

现在,所有人都有机会上手把玩这个“超级工具箱”了。

模型权重和推理代码已经上传到 Hugging Face。想在线快速体验,可以去 蚂蚁百灵平台的 LingStudio

门槛正在消失,创意即将喷涌。当音频创作可以像说话一样简单,当图像编辑可以像描述梦境一样自然,下一波应用爆炸会发生在哪里?

也许,就从你今天的这次尝试开始。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读