TTS主流模型
语音合成领域经历了从传统方法到深度学习的演进,涌现出多种优秀模型架构。
自回归模型
自回归模型逐帧生成声学特征,质量高但速度慢,是神经TTS的开创性工作。
Tacotron 2
Google于2017年提出的经典端到端TTS模型,定义了现代TTS的基本范式。
架构组成
- 编码器:字符嵌入 + 3层卷积 + 双向LSTM
- 注意力机制:位置敏感注意力(Location-sensitive attention)
- 解码器:自回归LSTM,逐帧生成梅尔频谱
- 后处理网络:CBHG模块,优化频谱质量
- 声码器:WaveNet,频谱转波形
核心创新
- • 端到端训练,无需人工对齐
- • 位置敏感注意力避免重复/跳过
- • Stop Token预测自动结束
Transformer TTS
将Transformer架构应用于TTS,提升并行能力和长序列建模。
优势
更强的长距离依赖建模、训练并行化、注意力可视化。
挑战
注意力对齐不稳定、需要额外时长约束。
非自回归模型
非自回归模型并行生成所有帧,速度大幅提升,是工业应用的主流选择。
FastSpeech 2
微软提出的非自回归TTS模型,速度比Tacotron快约270倍。
架构设计
- 音素编码器:音素嵌入 + Transformer编码器
- 时长预测器:预测每个音素的帧数
- 长度调节器:根据时长扩展音素特征
- 音高/能量预测器:预测韵律参数
- 梅尔解码器:Transformer解码器生成频谱
关键改进(相比FastSpeech 1)
- • 显式音高/能量预测,提升韵律表现
- • 更精准的时长提取(强制对齐器)
- • 变分推理增加多样性
Glow-TTS
基于流的生成模型,支持可变时长预测和高质量采样。
核心思想
使用流模型学习文本到频谱的映射,通过单调对齐搜索(MAS)自动对齐。
优势
可逆变换支持反向推理、无需预训练时长模型、高质量语音。
端到端模型
端到端模型直接从文本生成波形,简化了训练流程,提升了推理效率。
VITS
条件变分自编码器 + 对抗学习,实现完全端到端的TTS。
架构特点
- 后验编码器:从语音提取潜在表示(训练时)
- 先验编码器:从文本预测潜在分布
- 流模型:增强先验分布的表达能力
- 解码器:HiFi-GAN生成器,潜在到波形
- 判别器:对抗训练提升音质
优势
- • 无需单独训练声码器
- • 实时推理速度
- • 接近真人的音质
- • 支持多说话人扩展
Bark
Suno开源的基于GPT的TTS模型,支持多语言和音效生成。
特点
基于Transformer的自回归生成,可产生音乐、背景噪音和语音。
应用场景
创意内容生成、多角色对话、有声书制作。
StyleTTS 2
高质量风格控制TTS模型,通过风格扩散实现多样化表现。
核心创新
使用扩散模型生成风格向量,结合大型语音语言模型提取风格。
声码器模型
声码器将声学特征转换为波形,是TTS系统的重要组成部分。
WaveNet
DeepMind提出的开创性神经声码器,首次实现接近真人的语音合成。
- 架构:膨胀因果卷积堆叠,感受野覆盖长序列
- 优点:音质极佳,是神经声码器的标杆
- 缺点:自回归生成,速度极慢(实时几十倍)
HiFi-GAN
目前最流行的神经声码器,平衡了质量和速度。
核心设计
- 生成器:转置卷积上采样 + 多感受野残差块
- 多尺度判别器:在不同分辨率判别
- 多周期判别器:捕捉不同周期模式
- 损失函数:对抗损失 + 特征匹配 + 梅尔损失
性能指标
- • GPU推理:约150x实时
- • CPU推理:约3x实时
- • MOS评分:4.0+(接近真人)
扩散模型
扩散模型在TTS领域展现出强大的生成能力,尤其在歌声合成中表现突出。
DiffSinger
基于扩散概率模型的歌声合成系统,质量达到专业水准。
工作原理
- 前向过程:逐步向频谱添加高斯噪声
- 反向过程:学习去噪,逐步恢复频谱
- 条件控制:音高、时长作为条件输入
- 快速采样:DDIM、PNDM等加速推理
Grad-TTS
将扩散模型应用于语音合成,结合时长模型实现高质量TTS。
架构
文本编码器 + 扩散解码器 + 基于单调对齐的时长模型。
优势
生成多样性强、音质高、支持可控生成。
模型对比
不同类型TTS模型的全面对比,帮助选择合适的技术方案。
| 模型 | 类型 | 音质 | 速度 | 训练难度 |
|---|---|---|---|---|
| Tacotron 2 | 自回归 | 高 | 慢 | 中 |
| FastSpeech 2 | 非自回归 | 中高 | 极快 | 中 |
| Glow-TTS | 流模型 | 高 | 快 | 中 |
| VITS | 端到端 | 高 | 实时 | 高 |
| StyleTTS 2 | 端到端 | 极高 | 较快 | 高 |
| Bark | GPT | 高 | 慢 | 低 |
| DiffSinger | 扩散 | 极高 | 慢 | 高 |
| CosyVoice | 端到端 | 极高 | 实时 | 中 |
性能基准
| 模型 | MOS | RTF (GPU) | 参数量 |
|---|---|---|---|
| Tacotron 2 + WaveNet | 4.53 | ~10 | ~60M |
| FastSpeech 2 + HiFi-GAN | 4.10 | 0.004 | ~45M |
| VITS | 4.35 | 0.067 | ~45M |
| StyleTTS 2 | 4.50+ | 0.15 | ~80M |
* RTF: 实时因子,越小越快
选型指南
根据不同场景需求选择合适的TTS模型。
追求最高音质
StyleTTS 2、DiffSinger。适合专业音频制作、歌声合成。
生产环境实时合成
FastSpeech 2 + HiFi-GAN、VITS。适合语音助手、实时播报。
多说话人/声音克隆
VITS(多说话人版)、GPT-SoVITS、CosyVoice。支持零样本或少样本克隆。
创意内容生成
Bark、Tortoise TTS。支持多语言、音效、情感表达。
边缘设备部署
FastSpeech 2 + MB-MelGAN、Piper。模型小、速度快。
研究学习
Tacotron 2(理解基础架构)、VITS(端到端范式)、Glow-TTS(流模型)。
开源推荐
- • VITS:jaywalnut310/vits
- • FastSpeech 2:ming024/FastSpeech2
- • StyleTTS 2:yl4579/StyleTTS2
- • CosyVoice:FunAudioLLM/CosyVoice
- • GPT-SoVITS:RVC-Boss/GPT-SoVITS