返回列表
Google DeepMind 发布 Gemini 3.1 Flash TTS:通过细粒度音频标签实现表现力 AI 语音控制
产品发布人工智能语音合成DeepMind

Google DeepMind 发布 Gemini 3.1 Flash TTS:通过细粒度音频标签实现表现力 AI 语音控制

Google DeepMind 宣布推出最新音频模型 Gemini 3.1 Flash TTS。该模型引入了创新的细粒度音频标签功能,赋予用户对 AI 语音生成的精确控制权。通过这些标签,用户可以更直接地引导 AI 语音的表现力,标志着下一代更具情感和表现力的 AI 语音合成技术正式到来。

DeepMind Blog

核心要点

  • 模型发布:Google DeepMind 正式发布了名为 Gemini 3.1 Flash TTS 的新一代音频模型。
  • 核心功能:引入了细粒度音频标签(Granular Audio Tags),旨在提升语音生成的表现力。
  • 控制精度:用户可以通过这些标签实现对 AI 语音方向的精确控制。
  • 技术目标:致力于打造更具表现力和自然感的 AI 语音生成体验。

详细分析

细粒度控制技术的突破

Gemini 3.1 Flash TTS 的核心进步在于其引入的“细粒度音频标签”。在传统的文本转语音(TTS)系统中,用户往往难以对语音的情感起伏、语调重音进行微观层面的干预。DeepMind 通过这种新型标签系统,允许开发者和用户像导演一样,对 AI 生成的每一段音频进行精确引导,从而打破了以往 AI 语音机械、平淡的局限性。

表现力驱动的语音生成

该模型被定位为“下一代表现力 AI 语音”。这意味着 Gemini 3.1 Flash TTS 不仅仅追求语音的清晰度,更注重语音中蕴含的情感表达。通过赋予用户直接干预生成过程的能力,该模型能够产生更符合特定语境、更具感染力的音频内容,满足了从内容创作到人机交互等多种场景对高质量语音的需求。

行业影响

Gemini 3.1 Flash TTS 的发布预示着 AI 语音合成领域正从“可听”向“可感”转变。通过提供更精细的控制工具,DeepMind 正在降低高质量音频内容的制作门槛,同时也将推动智能助手、有声书及游戏配音等行业向更具拟人化和情感化的方向发展。这种对音频生成过程的精确掌控力,可能会成为未来 TTS 技术的新标准。

常见问题

问题 1:Gemini 3.1 Flash TTS 的主要特点是什么?

其主要特点是引入了细粒度音频标签,使用户能够精确控制和引导 AI 语音的生成过程,从而获得更具表现力的音频输出。

问题 2:用户如何控制 AI 语音的表现力?

用户可以通过模型提供的特定音频标签来直接干预语音生成的方向,实现对语气、语调等细节的微调。

问题 3:该模型由哪个团队开发?

该模型由 Google 旗下的 AI 研究实验室 DeepMind 开发并发布。

相关新闻