# 生成八个标题 1. （特征1：直接引语加犀利观点） “还在用AI写稿？OUT了！现在流行让AI‘开口说话

qimuai 发布于 2025-12-11 18:02 阅读：38 AI新闻

# 生成八个标题

1. **（特征1：直接引语加犀利观点）** “还在用AI写稿？OUT了！现在流行让AI‘开口说话

最新AI落地实操，点击了解：https://qimuai.cn/

别只让AI写稿了，让它开口说！谷歌新功能，情绪、角色、语种都能控

你的一天，是从什么声音开始的？

是手机闹钟千篇一律的“滴滴”声，还是某个音频App里，你订阅的那位主播熟悉的开场白？

声音，是我们获取信息、感受情绪最直接的通道之一。现在，生成这种“声音”的能力，正在以惊人的速度，从专业录音棚飞入每个开发者的工具箱。

就在这两天，谷歌扔下了一枚重磅炸弹：Gemini 2.5 Flash 和 Pro 的原生文本转语音（TTS）功能，正式上线了。

这远不是一次简单的功能更新。它意味着，“有感情、会表演、能分饰多角”的AI语音，已经从实验室的演示视频，变成了人人都能调用的生产级工具。

以前的AI语音像什么？像一个功底扎实、但毫无感情的播音员。字正腔圆，但听久了容易犯困。

Gemini 2.5 TTS 要打破的就是这种“AI味”。它的核心武器，是 “用自然语言，控制一切”。

你想让AI用欢快的语气说“祝你拥有美好的一天”？不再需要调整复杂的音高、节奏参数。你只需要在文本前加上一句自然指令：Say cheerfully: Have a wonderful day!

愤怒、兴奋、平静、阴郁……这些过去需要真人配音演员酝酿良久的情感，现在通过一句简单的文本提示就能实现。它甚至能控制语音的风格、口音、语速和语调。

想象一下：你的产品介绍视频，开头是热情洋溢的激昂语调，讲到技术参数时转为沉稳专业，最后呼吁行动时又充满鼓舞。一条音频，情绪起伏全自动。 这对于视频创作者、广告制作、甚至有声书领域，无疑是一次效率革命。

单口相声听腻了？Gemini TTS 这次玩了个更花的：多说话人音频生成。

这功能简直是为播客和对话场景量身定制的。在它的操作界面里，默认就是“说话人1”和“说话人2”的配置。

你写的对话脚本，只需要像这样标注：

主持人: 欢迎收听本期科技前沿播客。
嘉宾: 大家好，今天我们来聊聊谷歌刚发布的新模型……

系统就能自动为“主持人”和“嘉宾”分配不同的、连贯的声音。不是简单变个声调，而是真正意义上的两个独立音色。

这意味着什么？个人创作者，不需要再费力寻找搭档，自己就能完成一期多角色对话播客。教育机构，可以轻松生成师生互动的教学音频。它把音频内容的创作，从“录音工程”部分解放成了“文本编剧”工程。

技术很炫酷，但能不能用、贵不贵，才是关键。

谷歌这次直接宣布，该功能已 “达到生产就绪状态” ，并且已经进入计费体系。这相当于正式发布了“稳定版”。

它提供了两个档位的模型：

你可以通过三种方式快速上手：

Google AI Studio：最直观，网页上直接输入文本、选择声音和情感，立等可取。它的“Generate Speech”页面已经为多角色对话做好了优化。
Gemini API：开发者最熟悉的路径，模型名称为 gemini-2.5-flash-preview-tts 或 pro 版本，在代码中配置语音参数即可调用。
Cloud Text-to-Speech / Vertex AI：谷歌云平台的原生服务，集成更深入，适合企业级应用。

从Siri、小爱同学的机械应答，到如今能承载情感、演绎剧本的AI语音，我们只用了短短几年。

这项技术的普及，将冲刷很多行业：

当AI不仅能写出优美的文字，还能用恰当的情绪将其朗诵出来时，“创作”的形态就被又一次重塑了。

我们正在进入一个时代：声音，作为一种创作素材，变得像“复制粘贴”一样简单可生成。 真正的竞争，将更集中于创意、剧本和情感连接本身。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

文章目录

扫描二维码，在手机上阅读