AI 语音合成近年来进步飞快,但要让机器说话像真人一样自然、带情绪、有起伏,仍然是个难题。Google DeepMind 最新发布的 Gemini 3.1 Flash TTS 试图解决这个问题——它引入了一套细粒度的音频标签系统,让开发者可以像导演一样精确控制语音的每一个细节。
什么是 Gemini 3.1 Flash TTS?
简单来说,这是 DeepMind 旗下 Gemini 3.1 系列的最新音频模型,专注于高质量、高表现力的 文本转语音。不同于传统 TTS 只能控制语速和音高,Gemini 3.1 Flash TTS 允许通过 音频标签 来指定情感(如开心、悲伤、惊讶)、语调变化、停顿长短、重点强调等。这意味着生成的声音不再“平板”,而是能传达出丰富的语境信息。
核心亮点:细粒度音频标签
音频标签是本次更新的核心。开发者可以在文本中嵌入特定标签,比如 [happy] 表示快乐语调,[pause] 控制停顿时长,甚至 [whisper] 实现耳语效果。这些标签组合起来,可以模拟出接近真人的对话节奏和情感波动。对于内容创作者来说,这相当于拥有了一位随时可用的专业配音演员。
具体来说,标签覆盖了这些维度:
- 情感标签:如兴奋、悲伤、中性、疑惑等
- 韵律标签:语速、音高、重音位置
- 风格标签:朗读、对话、旁白、 whisper 等
- 结构标签:段落停顿、换气声、结束语气
实际影响:谁能从中受益?
这项能力最直接的受益者是 有声书和播客制作。以往制作一个多角色有声书需要录很多次,现在只需用不同标签为每个角色设定独特声音风格,一键生成。此外,虚拟助手和客服系统也能借此变得更有人情味——当用户表达沮丧时,AI 回复可以带有关切的语调,而非冷冰冰的机械音。
对独立开发者而言,这意味着他们不再需要昂贵的录音棚和配音演员,就能为自己的应用添加高质量语音交互。比如一款睡前故事 App,可以为每个角色分配不同情绪标签,自动生成声情并茂的故事。
与竞品的比较
市面上已有不少 TTS 产品,如 OpenAI 的 TTS API、ElevenLabs、微软 Azure 语音等。Gemini 3.1 Flash TTS 的差异化在于标签的精细度和可控性。ElevenLabs 虽然也支持情感调节,但更多依赖预设的口语风格;而 Gemini 的标签系统允许开发者逐句甚至逐词调整,适合对细节要求极高的场景。
不过,这种灵活性也带来学习成本——开发者需要花时间熟悉标签语法和调试。DeepMind 提供了文档和示例,但入门曲线比“一句话生成”要陡一些。
关于模型性能
DeepMind 称该模型在 自然度 和 情感准确性 上优于上一代。虽然官方没有公开具体的 MOS 分数(主观听感评分),但从演示片段来看,生成的语音在气息感、停顿和语调变化上确实非常接近真人。模型支持多种语言,包括中文,这对国内市场也是好消息。
目前 Gemini 3.1 Flash TTS 通过 Google Cloud 的 Vertex AI 平台提供 API 访问,定价尚未完全公开,但预计会延续 Gemini 系列的按量计费模式。
总的来说,Gemini 3.1 Flash TTS 在 AI 语音的“表达力”上迈出了一大步。对于需要精细控制语音情感的应用场景,它提供了前所未有的工具。接下来值得关注的是社区如何利用这些标签创造出更生动的语音体验。











评论
暂无评论
成为第一个评论的人