«

# 生成八个标题 1. **(特征1:直接引语加犀利观点)** “还在用AI写稿?OUT了!现在流行让AI‘开口说话

qimuai 发布于 阅读:38 AI新闻


# 生成八个标题

1.  **(特征1:直接引语加犀利观点)** “还在用AI写稿?OUT了!现在流行让AI‘开口说话

最新AI落地实操,点击了解:https://qimuai.cn/

别只让AI写稿了,让它开口说!谷歌新功能,情绪、角色、语种都能控

你的一天,是从什么声音开始的?

是手机闹钟千篇一律的“滴滴”声,还是某个音频App里,你订阅的那位主播熟悉的开场白?

声音,是我们获取信息、感受情绪最直接的通道之一。现在,生成这种“声音”的能力,正在以惊人的速度,从专业录音棚飞入每个开发者的工具箱。

就在这两天,谷歌扔下了一枚重磅炸弹:Gemini 2.5 Flash 和 Pro 的原生文本转语音(TTS)功能,正式上线了。

这远不是一次简单的功能更新。它意味着,“有感情、会表演、能分饰多角”的AI语音,已经从实验室的演示视频,变成了人人都能调用的生产级工具。

情绪级语音,来了

以前的AI语音像什么?像一个功底扎实、但毫无感情的播音员。字正腔圆,但听久了容易犯困。

Gemini 2.5 TTS 要打破的就是这种“AI味”。它的核心武器,是 “用自然语言,控制一切”

你想让AI用欢快的语气说“祝你拥有美好的一天”?不再需要调整复杂的音高、节奏参数。你只需要在文本前加上一句自然指令:Say cheerfully: Have a wonderful day!

愤怒、兴奋、平静、阴郁……这些过去需要真人配音演员酝酿良久的情感,现在通过一句简单的文本提示就能实现。它甚至能控制语音的风格、口音、语速和语调

想象一下:你的产品介绍视频,开头是热情洋溢的激昂语调,讲到技术参数时转为沉稳专业,最后呼吁行动时又充满鼓舞。一条音频,情绪起伏全自动。 这对于视频创作者、广告制作、甚至有声书领域,无疑是一次效率革命。

一键生成“广播剧”:让AI演起来

单口相声听腻了?Gemini TTS 这次玩了个更花的:多说话人音频生成。

这功能简直是为播客和对话场景量身定制的。在它的操作界面里,默认就是“说话人1”和“说话人2”的配置。

你写的对话脚本,只需要像这样标注:

主持人: 欢迎收听本期科技前沿播客。
嘉宾: 大家好,今天我们来聊聊谷歌刚发布的新模型……

系统就能自动为“主持人”和“嘉宾”分配不同的、连贯的声音。不是简单变个声调,而是真正意义上的两个独立音色

这意味着什么?个人创作者,不需要再费力寻找搭档,自己就能完成一期多角色对话播客。教育机构,可以轻松生成师生互动的教学音频。它把音频内容的创作,从“录音工程”部分解放成了“文本编剧”工程。

快、省、稳:生产级的底气

技术很炫酷,但能不能用、贵不贵,才是关键。

谷歌这次直接宣布,该功能已 “达到生产就绪状态” ,并且已经进入计费体系。这相当于正式发布了“稳定版”。

它提供了两个档位的模型:

你可以通过三种方式快速上手:

  1. Google AI Studio:最直观,网页上直接输入文本、选择声音和情感,立等可取。它的“Generate Speech”页面已经为多角色对话做好了优化。
  2. Gemini API:开发者最熟悉的路径,模型名称为 gemini-2.5-flash-preview-ttspro 版本,在代码中配置语音参数即可调用。
  3. Cloud Text-to-Speech / Vertex AI:谷歌云平台的原生服务,集成更深入,适合企业级应用。

声音的边界,正在消失

从Siri、小爱同学的机械应答,到如今能承载情感、演绎剧本的AI语音,我们只用了短短几年。

这项技术的普及,将冲刷很多行业:

当AI不仅能写出优美的文字,还能用恰当的情绪将其朗诵出来时,“创作”的形态就被又一次重塑了。

我们正在进入一个时代:声音,作为一种创作素材,变得像“复制粘贴”一样简单可生成。 真正的竞争,将更集中于创意、剧本和情感连接本身。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发,了解加微信:qimugood(读者也可此微信一起交流)。

AI每日进展

文章目录


    扫描二维码,在手机上阅读