Google DeepMind 发布 Gemini 3.1 Flash TTS:通过细粒度音频标签实现表现力 AI 语音控制
Google DeepMind 宣布推出最新音频模型 Gemini 3.1 Flash TTS。该模型引入了创新的细粒度音频标签功能,赋予用户对 AI 语音生成的精确控制权。通过这些标签,用户可以更直接地引导 AI 语音的表现力,标志着下一代更具情感和表现力的 AI 语音合成技术正式到来。
核心要点
- 模型发布:Google DeepMind 正式发布了名为 Gemini 3.1 Flash TTS 的新一代音频模型。
- 核心功能:引入了细粒度音频标签(Granular Audio Tags),旨在提升语音生成的表现力。
- 控制精度:用户可以通过这些标签实现对 AI 语音方向的精确控制。
- 技术目标:致力于打造更具表现力和自然感的 AI 语音生成体验。
详细分析
细粒度控制技术的突破
Gemini 3.1 Flash TTS 的核心进步在于其引入的“细粒度音频标签”。在传统的文本转语音(TTS)系统中,用户往往难以对语音的情感起伏、语调重音进行微观层面的干预。DeepMind 通过这种新型标签系统,允许开发者和用户像导演一样,对 AI 生成的每一段音频进行精确引导,从而打破了以往 AI 语音机械、平淡的局限性。
表现力驱动的语音生成
该模型被定位为“下一代表现力 AI 语音”。这意味着 Gemini 3.1 Flash TTS 不仅仅追求语音的清晰度,更注重语音中蕴含的情感表达。通过赋予用户直接干预生成过程的能力,该模型能够产生更符合特定语境、更具感染力的音频内容,满足了从内容创作到人机交互等多种场景对高质量语音的需求。
行业影响
Gemini 3.1 Flash TTS 的发布预示着 AI 语音合成领域正从“可听”向“可感”转变。通过提供更精细的控制工具,DeepMind 正在降低高质量音频内容的制作门槛,同时也将推动智能助手、有声书及游戏配音等行业向更具拟人化和情感化的方向发展。这种对音频生成过程的精确掌控力,可能会成为未来 TTS 技术的新标准。
常见问题
问题 1:Gemini 3.1 Flash TTS 的主要特点是什么?
其主要特点是引入了细粒度音频标签,使用户能够精确控制和引导 AI 语音的生成过程,从而获得更具表现力的音频输出。
问题 2:用户如何控制 AI 语音的表现力?
用户可以通过模型提供的特定音频标签来直接干预语音生成的方向,实现对语气、语调等细节的微调。
问题 3:该模型由哪个团队开发?
该模型由 Google 旗下的 AI 研究实验室 DeepMind 开发并发布。


