TTS主流模型

语音合成领域经历了从传统方法到深度学习的演进，涌现出多种优秀模型架构。

预计阅读时间：45分钟·难度：中级

自回归模型

自回归模型逐帧生成声学特征，质量高但速度慢，是神经TTS的开创性工作。

Tacotron 2

Google于2017年提出的经典端到端TTS模型，定义了现代TTS的基本范式。

架构组成

编码器：字符嵌入 + 3层卷积 + 双向LSTM
注意力机制：位置敏感注意力（Location-sensitive attention）
解码器：自回归LSTM，逐帧生成梅尔频谱
后处理网络：CBHG模块，优化频谱质量
声码器：WaveNet，频谱转波形

核心创新

• 端到端训练，无需人工对齐
• 位置敏感注意力避免重复/跳过
• Stop Token预测自动结束

Transformer TTS

将Transformer架构应用于TTS，提升并行能力和长序列建模。

优势

更强的长距离依赖建模、训练并行化、注意力可视化。

挑战

注意力对齐不稳定、需要额外时长约束。

非自回归模型

非自回归模型并行生成所有帧，速度大幅提升，是工业应用的主流选择。

FastSpeech 2

微软提出的非自回归TTS模型，速度比Tacotron快约270倍。

架构设计

音素编码器：音素嵌入 + Transformer编码器
时长预测器：预测每个音素的帧数
长度调节器：根据时长扩展音素特征
音高/能量预测器：预测韵律参数
梅尔解码器：Transformer解码器生成频谱

关键改进（相比FastSpeech 1）

• 显式音高/能量预测，提升韵律表现
• 更精准的时长提取（强制对齐器）
• 变分推理增加多样性

Glow-TTS

基于流的生成模型，支持可变时长预测和高质量采样。

核心思想

使用流模型学习文本到频谱的映射，通过单调对齐搜索（MAS）自动对齐。

优势

可逆变换支持反向推理、无需预训练时长模型、高质量语音。

端到端模型

端到端模型直接从文本生成波形，简化了训练流程，提升了推理效率。

VITS

条件变分自编码器 + 对抗学习，实现完全端到端的TTS。

架构特点

后验编码器：从语音提取潜在表示（训练时）
先验编码器：从文本预测潜在分布
流模型：增强先验分布的表达能力
解码器：HiFi-GAN生成器，潜在到波形
判别器：对抗训练提升音质

优势

• 无需单独训练声码器
• 实时推理速度
• 接近真人的音质
• 支持多说话人扩展

Bark

Suno开源的基于GPT的TTS模型，支持多语言和音效生成。

特点

基于Transformer的自回归生成，可产生音乐、背景噪音和语音。

应用场景

创意内容生成、多角色对话、有声书制作。

StyleTTS 2

高质量风格控制TTS模型，通过风格扩散实现多样化表现。

核心创新

使用扩散模型生成风格向量，结合大型语音语言模型提取风格。

声码器模型

声码器将声学特征转换为波形，是TTS系统的重要组成部分。

WaveNet

DeepMind提出的开创性神经声码器，首次实现接近真人的语音合成。

架构：膨胀因果卷积堆叠，感受野覆盖长序列
优点：音质极佳，是神经声码器的标杆
缺点：自回归生成，速度极慢（实时几十倍）

HiFi-GAN

目前最流行的神经声码器，平衡了质量和速度。

核心设计

生成器：转置卷积上采样 + 多感受野残差块
多尺度判别器：在不同分辨率判别
多周期判别器：捕捉不同周期模式
损失函数：对抗损失 + 特征匹配 + 梅尔损失

性能指标

• GPU推理：约150x实时
• CPU推理：约3x实时
• MOS评分：4.0+（接近真人）

扩散模型

扩散模型在TTS领域展现出强大的生成能力，尤其在歌声合成中表现突出。

DiffSinger

基于扩散概率模型的歌声合成系统，质量达到专业水准。

工作原理

前向过程：逐步向频谱添加高斯噪声
反向过程：学习去噪，逐步恢复频谱
条件控制：音高、时长作为条件输入
快速采样：DDIM、PNDM等加速推理

Grad-TTS

将扩散模型应用于语音合成，结合时长模型实现高质量TTS。

架构

文本编码器 + 扩散解码器 + 基于单调对齐的时长模型。

优势

生成多样性强、音质高、支持可控生成。

模型对比

不同类型TTS模型的全面对比，帮助选择合适的技术方案。

模型	类型	音质	速度	训练难度
Tacotron 2	自回归	高	慢	中
FastSpeech 2	非自回归	中高	极快	中
Glow-TTS	流模型	高	快	中
VITS	端到端	高	实时	高
StyleTTS 2	端到端	极高	较快	高
Bark	GPT	高	慢	低
DiffSinger	扩散	极高	慢	高
CosyVoice	端到端	极高	实时	中

性能基准

模型	MOS	RTF (GPU)	参数量
Tacotron 2 + WaveNet	4.53	~10	~60M
FastSpeech 2 + HiFi-GAN	4.10	0.004	~45M
VITS	4.35	0.067	~45M
StyleTTS 2	4.50+	0.15	~80M

* RTF: 实时因子，越小越快

选型指南

根据不同场景需求选择合适的TTS模型。

追求最高音质

StyleTTS 2、DiffSinger。适合专业音频制作、歌声合成。

生产环境实时合成

FastSpeech 2 + HiFi-GAN、VITS。适合语音助手、实时播报。

多说话人/声音克隆

VITS（多说话人版）、GPT-SoVITS、CosyVoice。支持零样本或少样本克隆。

创意内容生成

Bark、Tortoise TTS。支持多语言、音效、情感表达。

边缘设备部署

FastSpeech 2 + MB-MelGAN、Piper。模型小、速度快。

研究学习

Tacotron 2（理解基础架构）、VITS（端到端范式）、Glow-TTS（流模型）。

开源推荐

• VITS：jaywalnut310/vits
• FastSpeech 2：ming024/FastSpeech2
• StyleTTS 2：yl4579/StyleTTS2
• CosyVoice：FunAudioLLM/CosyVoice
• GPT-SoVITS：RVC-Boss/GPT-SoVITS

← TTS基础

多说话人合成 →