返回列表
Google DeepMind 发布 Gemini 3.1 Flash TTS:通过细粒度音频标签实现表现力 AI 语音控制
产品发布人工智能语音合成DeepMind

Google DeepMind 发布 Gemini 3.1 Flash TTS:通过细粒度音频标签实现表现力 AI 语音控制

Google DeepMind 宣布推出最新音频模型 Gemini 3.1 Flash TTS。该模型引入了创新的细粒度音频标签功能,赋予用户对 AI 语音生成的精确控制权。通过这些标签,用户可以更直接地引导 AI 语音的表现力,标志着下一代更具情感和表现力的 AI 语音合成技术正式到来。

DeepMind Blog

核心要点

  • 模型发布:Google DeepMind 正式发布了名为 Gemini 3.1 Flash TTS 的新一代音频模型。
  • 核心功能:引入了细粒度音频标签(Granular Audio Tags),旨在提升语音生成的表现力。
  • 控制精度:用户可以通过这些标签实现对 AI 语音方向的精确控制。
  • 技术目标:致力于打造更具表现力和自然感的 AI 语音生成体验。

详细分析

细粒度控制技术的突破

Gemini 3.1 Flash TTS 的核心进步在于其引入的“细粒度音频标签”。在传统的文本转语音(TTS)系统中,用户往往难以对语音的情感起伏、语调重音进行微观层面的干预。DeepMind 通过这种新型标签系统,允许开发者和用户像导演一样,对 AI 生成的每一段音频进行精确引导,从而打破了以往 AI 语音机械、平淡的局限性。

表现力驱动的语音生成

该模型被定位为“下一代表现力 AI 语音”。这意味着 Gemini 3.1 Flash TTS 不仅仅追求语音的清晰度,更注重语音中蕴含的情感表达。通过赋予用户直接干预生成过程的能力,该模型能够产生更符合特定语境、更具感染力的音频内容,满足了从内容创作到人机交互等多种场景对高质量语音的需求。

行业影响

Gemini 3.1 Flash TTS 的发布预示着 AI 语音合成领域正从“可听”向“可感”转变。通过提供更精细的控制工具,DeepMind 正在降低高质量音频内容的制作门槛,同时也将推动智能助手、有声书及游戏配音等行业向更具拟人化和情感化的方向发展。这种对音频生成过程的精确掌控力,可能会成为未来 TTS 技术的新标准。

常见问题

问题 1:Gemini 3.1 Flash TTS 的主要特点是什么?

其主要特点是引入了细粒度音频标签,使用户能够精确控制和引导 AI 语音的生成过程,从而获得更具表现力的音频输出。

问题 2:用户如何控制 AI 语音的表现力?

用户可以通过模型提供的特定音频标签来直接干预语音生成的方向,实现对语气、语调等细节的微调。

问题 3:该模型由哪个团队开发?

该模型由 Google 旗下的 AI 研究实验室 DeepMind 开发并发布。

相关新闻

Meta推出Forum应用:结合Facebook小组与AI搜索,挑战Reddit与ChatGPT
产品发布

Meta推出Forum应用:结合Facebook小组与AI搜索,挑战Reddit与ChatGPT

Meta近日发布了一款名为“Forum”的iPhone专用应用程序,旨在将Facebook小组(Groups)功能独立化,并深度集成AI聊天机器人。该应用被视为2017年关停的Groups应用的AI升级版,通过结合社区讨论与AI概览功能,试图改变用户依赖ChatGPT或在Google搜索中添加“Reddit”后缀获取信息的习惯,标志着Meta在社交搜索领域的重大布局。

Anker Soundcore Liberty 5 Pro 系列发布:搭载全新 Thus 芯片,通话质量实现突破
产品发布

Anker Soundcore Liberty 5 Pro 系列发布:搭载全新 Thus 芯片,通话质量实现突破

Anker 旗下音频品牌 Soundcore 正式发布 Liberty 5 Pro 与 Liberty 5 Pro Max 两款旗舰级耳机。该系列标志着 Soundcore 从中低端市场向高端市场的战略转型。通过搭载性能更强劲的全新 Thus 芯片,新耳机在处理能力上较前代有显著提升,并被评为拥有极佳的通话质量表现。

安克发布Soundcore Liberty 5 Pro:首款搭载自研Thus AI芯片的降噪耳机
产品发布

安克发布Soundcore Liberty 5 Pro:首款搭载自研Thus AI芯片的降噪耳机

安克创新(Anker)正式推出了其旗舰级耳机Soundcore Liberty Pro系列的最新成员——Liberty 5 Pro。这款耳机的核心突破在于首次搭载了安克上月发布的“Thus”自研AI音频芯片。该芯片专门用于强化主动降噪性能,并利用人工智能算法优化通话质量,确保用户在各种复杂环境下都能获得清晰的语音通话体验。这标志着安克在音频硬件领域正式开启了AI驱动的性能升级之路。