美团发布LongCat-AudioDiT：基于扩散模型的零样本TTS新突破

美团LongCat团队正式发布LongCat-AudioDiT模型，旨在解决零样本TTS音色克隆中的技术瓶颈。该模型创新性地摒弃了梅尔谱等中间表示，直接在波形潜空间内进行基于扩散模型的文本转语音（TTS）建模。通过这种方式，模型从根源上阻断了数据转换过程中产生的级联误差，使AI能够直接学习声音本身的规律，显著提升了音色克隆的还原度与自然度。

核心要点

技术发布：美团LongCat团队正式推出LongCat-AudioDiT模型，聚焦零样本音色克隆。
架构创新：彻底抛弃了传统的梅尔谱（Mel-spectrogram）等中间表示环节。
建模路径：直接在波形潜空间（Waveform Latent Space）进行基于扩散模型（Diffusion Model）的建模。
核心优势：通过简化流程，从根源上阻断了数据转换带来的级联误差，提升了声音生成的质量。

详细分析

摒弃中间表示：跳过“翻译”误差

在传统的文本转语音（TTS）系统中，通常需要将文本先转换为梅尔谱图，再通过声码器（Vocoder）还原为波形。这种分段式的处理方式往往会带来“级联误差”——即在每一个转换环节中都会丢失一部分原始声音信息。美团LongCat-AudioDiT的突破在于，它让AI直接学会声音本身的规律，跳过了中间环节。这种直接在波形潜空间建模的方式，确保了声音特征在生成过程中的完整性，从而在零样本（Zero-shot）场景下也能实现极高水平的音色克隆。

基于扩散模型的波形潜空间建模

LongCat-AudioDiT采用了先进的扩散模型（Diffusion Model）架构。扩散模型以其强大的生成能力和多样性著称，而将其应用于波形潜空间而非传统的频谱空间，是该模型的核心技术特征。通过在潜空间内进行建模，模型不仅能够捕捉到细微的音色特征，还能有效处理复杂的声学环境。这种方法使得模型在面对从未见过的音色样本时，能够通过极短的参考音频，精准地提取并复现目标人物的声音特质，突破了现有零样本TTS的技术上限。

行业影响

LongCat-AudioDiT的发布标志着语音合成技术正在从“特征工程”向“纯粹的端到端学习”演进。对于AI行业而言，这种直接在波形潜空间建模的思路，为解决长久以来的音质损耗和克隆失真问题提供了新的范式。在应用层面，该技术将极大地提升个性化语音助手、影视内容配音以及虚拟人交互的真实感。美团技术团队的这一贡献，不仅展示了其在音频生成领域的深厚积淀，也为开源社区和工业界提供了高保真语音合成的新标杆。

常见问题

什么是LongCat-AudioDiT中的“级联误差”？

级联误差是指在TTS系统中，由于需要经过文本到频谱、频谱到波形等多个转换步骤，每一步产生的微小错误会不断累积，最终导致合成声音的失真。LongCat-AudioDiT通过直接在波形潜空间建模，消除了这些中间步骤，从而阻断了误差的累积。

为什么抛弃梅尔谱对音色克隆很重要？

梅尔谱虽然是常用的音频特征，但它是一种有损的表示方式。抛弃梅尔谱意味着AI可以直接接触到更接近原始波形的信息，从而能够更细腻地捕捉和还原音色中的微小细节，这对于实现高质量的零样本音色克隆至关重要。

LongCat-AudioDiT适用于哪些场景？

该模型特别适用于需要高精度音色还原的零样本场景，例如仅需几秒钟的参考音频即可生成相同音色的长文本语音，广泛应用于内容创作、智能客服及个性化音频服务中。

突破零样本TTS音色克隆上限：美团LongCat-AudioDiT正式发布