
美团发布LongCat-AudioDiT:抛弃梅尔谱实现零样本TTS音色克隆新突破
美团LongCat团队正式发布LongCat-AudioDiT模型,该模型通过在波形潜空间直接进行基于扩散模型的文本转语音(TTS),彻底抛弃了传统的梅尔谱等中间表示。这一创新从根源上阻断了数据转换带来的级联误差,显著提升了零样本音色克隆的还原度与上限,展示了AI直接学习声音规律的新路径。
核心要点
- 技术架构革新:LongCat-AudioDiT彻底抛弃了梅尔谱(Mel-spectrogram)等传统中间表示环节。
- 波形潜空间建模:模型直接在波形潜空间进行基于扩散模型(Diffusion Model)的文本转语音(TTS)生成。
- 消除级联误差:通过简化流程,从根源上阻断了多级数据转换过程中产生的级联误差。
- 零样本克隆突破:该技术旨在突破零样本(Zero-shot)音色克隆的性能上限,提升声音合成的自然度。
详细分析
告别梅尔谱:重塑TTS生成链路
在传统的语音合成(TTS)系统中,梅尔谱图通常作为连接文本特征与最终音频波形的中间桥梁。然而,这种多级转换模式存在天然的缺陷:每一层级的转换都会引入细微的信息损失,最终累积成明显的级联误差,影响音色的还原度。美团LongCat团队发布的LongCat-AudioDiT模型采取了激进的技术路线,选择“跳过中间环节”,让AI直接学习声音本身的内在规律。这种直接在波形潜空间进行建模的方式,保留了更多原始音频的细节特征。
扩散模型与波形潜空间的融合
LongCat-AudioDiT采用了先进的扩散模型(Diffusion Transformer, DiT)架构。通过在波形潜空间内进行迭代生成,模型能够更精准地捕捉声音的纹理与动态变化。这种方法不仅提高了合成音频的质量,更在零样本音色克隆任务中表现出色。这意味着模型无需针对特定目标音色进行大规模微调,即可通过极短的参考音频实现高保真的音色复刻,极大地提升了语音交互的灵活性和真实感。
行业影响
LongCat-AudioDiT的发布标志着语音合成技术正在从“特征工程驱动”向“端到端潜空间建模”演进。对于AI行业而言,这一突破证明了通过优化底层架构来解决传统级联误差的可行性。这不仅为美团自身的业务场景(如智能客服、外卖配送交互等)提供了更自然的声音支持,也为整个语音生成领域提供了新的研究范式,可能引发行业内对于音频中间表示必要性的重新思考。
常见问题
问题 1:LongCat-AudioDiT与传统TTS模型最大的区别是什么?
答:最大的区别在于它彻底抛弃了梅尔谱等中间表示。传统模型通常先生成梅尔谱再通过声码器还原波形,而LongCat-AudioDiT直接在波形潜空间进行扩散生成,避免了转换过程中的误差累积。
问题 2:为什么消除“级联误差”对音色克隆如此重要?
答:级联误差是导致合成声音“机械感”或“失真”的主要原因之一。在零样本音色克隆中,细微的误差会被放大,导致克隆出的声音不像原作者。通过阻断误差来源,可以显著提升音色的相似度和听感的自然度。
问题 3:该模型主要应用于哪些场景?
答:基于其强大的零样本音色克隆能力,该模型可广泛应用于个性化语音助手、高品质有声内容创作、以及需要快速复刻特定人声的各类交互式AI应用中。

