仅需6秒音频！MiniMax的Speech 2.6能克隆任何声音，效果对标ElevenLabs。

qimuai 发布于 2025-10-30 18:02 阅读：189 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

你还在为语音助手的“迟钝”抓狂吗？那种问完问题后尴尬的等待，简直能让你数清自己的呼吸次数。

但今天，语音合成的游戏规则彻底变了。

MiniMax 刚刚发布的 Speech 2.6，直接把端到端延迟压到了 250毫秒以内——什么概念？比人类一次自然的眨眼反应还要快。过去那种“你说完，它卡壳”的交互体验，这次可能真的要说再见了。

更狠的是它的 Fluent LoRA 音色复刻。

你只需要提供6秒的音频样本——差不多就是你念一句“今天天气不错”的时间——它就能精准抓取你的音色特征，生成一个高度逼真的“声音分身”。无论是你已故亲人的嗓音，还是你最喜欢的播客主播的语调，它都能给你“克隆”出来，效果直接对标国际顶流产品 ElevenLabs。

而且，这还不是那种冷冰冰的机械复读。它能听懂文字里的情绪：调侃时的轻笑，悲伤时的停顿，甚至戏剧台词里那种夸张的张力，它都能给你自然还原出来。有声书、智能客服、虚拟偶像对话……那些需要“演技”的语音场景，终于有解了。

这背后是一系列硬核技术的支撑：

延迟砍掉30%：通过工程链路的全面优化，整体时延大幅下降，直播连麦、实时语音助手再也不会“掉链子”。
超长文本一口吞：单次语音合成支持1000万字符，一整部《三体》都能一口气给你“读”完，中途不喘气。
多角色、流式输出：它首创了商用多角色配音API，还能边生成边播报（T2A Stream），几乎零等待。想象一下，未来听一本多角色有声小说，每个角色声音各异，还毫无延迟——那种沉浸感，是颠覆性的。
价格直接腰斩：T2A 及流式版本价格比同类产品下调了50%，更多中小团队也能轻松用上顶级语音技术。

这意味着什么？

你的智能车载助手可以实时对话，毫无卡顿；你的网课课件可以用你最喜欢的老师的声音来讲解；甚至，你可以为家里的智能硬件定制家人的声音，让冷冰冰的机器开口说“人话”。

语音合成，不再只是“把文字念出来”。它正在成为有温度、有性格、能即时回应的“声音伴侣”。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

文章目录

扫描二维码，在手机上阅读