TTS主流模型

语音合成领域经历了从传统方法到深度学习的演进,涌现出多种优秀模型架构。

预计阅读时间:45分钟·难度:中级

自回归模型

自回归模型逐帧生成声学特征,质量高但速度慢,是神经TTS的开创性工作。

Tacotron 2

Google于2017年提出的经典端到端TTS模型,定义了现代TTS的基本范式。

架构组成

  • 编码器:字符嵌入 + 3层卷积 + 双向LSTM
  • 注意力机制:位置敏感注意力(Location-sensitive attention)
  • 解码器:自回归LSTM,逐帧生成梅尔频谱
  • 后处理网络:CBHG模块,优化频谱质量
  • 声码器:WaveNet,频谱转波形

核心创新

  • • 端到端训练,无需人工对齐
  • • 位置敏感注意力避免重复/跳过
  • • Stop Token预测自动结束

Transformer TTS

将Transformer架构应用于TTS,提升并行能力和长序列建模。

优势

更强的长距离依赖建模、训练并行化、注意力可视化。

挑战

注意力对齐不稳定、需要额外时长约束。

非自回归模型

非自回归模型并行生成所有帧,速度大幅提升,是工业应用的主流选择。

FastSpeech 2

微软提出的非自回归TTS模型,速度比Tacotron快约270倍。

架构设计

  • 音素编码器:音素嵌入 + Transformer编码器
  • 时长预测器:预测每个音素的帧数
  • 长度调节器:根据时长扩展音素特征
  • 音高/能量预测器:预测韵律参数
  • 梅尔解码器:Transformer解码器生成频谱

关键改进(相比FastSpeech 1)

  • • 显式音高/能量预测,提升韵律表现
  • • 更精准的时长提取(强制对齐器)
  • • 变分推理增加多样性

Glow-TTS

基于流的生成模型,支持可变时长预测和高质量采样。

核心思想

使用流模型学习文本到频谱的映射,通过单调对齐搜索(MAS)自动对齐。

优势

可逆变换支持反向推理、无需预训练时长模型、高质量语音。

端到端模型

端到端模型直接从文本生成波形,简化了训练流程,提升了推理效率。

VITS

条件变分自编码器 + 对抗学习,实现完全端到端的TTS。

架构特点

  • 后验编码器:从语音提取潜在表示(训练时)
  • 先验编码器:从文本预测潜在分布
  • 流模型:增强先验分布的表达能力
  • 解码器:HiFi-GAN生成器,潜在到波形
  • 判别器:对抗训练提升音质

优势

  • • 无需单独训练声码器
  • • 实时推理速度
  • • 接近真人的音质
  • • 支持多说话人扩展

Bark

Suno开源的基于GPT的TTS模型,支持多语言和音效生成。

特点

基于Transformer的自回归生成,可产生音乐、背景噪音和语音。

应用场景

创意内容生成、多角色对话、有声书制作。

StyleTTS 2

高质量风格控制TTS模型,通过风格扩散实现多样化表现。

核心创新

使用扩散模型生成风格向量,结合大型语音语言模型提取风格。

声码器模型

声码器将声学特征转换为波形,是TTS系统的重要组成部分。

WaveNet

DeepMind提出的开创性神经声码器,首次实现接近真人的语音合成。

  • 架构:膨胀因果卷积堆叠,感受野覆盖长序列
  • 优点:音质极佳,是神经声码器的标杆
  • 缺点:自回归生成,速度极慢(实时几十倍)

HiFi-GAN

目前最流行的神经声码器,平衡了质量和速度。

核心设计

  • 生成器:转置卷积上采样 + 多感受野残差块
  • 多尺度判别器:在不同分辨率判别
  • 多周期判别器:捕捉不同周期模式
  • 损失函数:对抗损失 + 特征匹配 + 梅尔损失

性能指标

  • • GPU推理:约150x实时
  • • CPU推理:约3x实时
  • • MOS评分:4.0+(接近真人)

扩散模型

扩散模型在TTS领域展现出强大的生成能力,尤其在歌声合成中表现突出。

DiffSinger

基于扩散概率模型的歌声合成系统,质量达到专业水准。

工作原理

  • 前向过程:逐步向频谱添加高斯噪声
  • 反向过程:学习去噪,逐步恢复频谱
  • 条件控制:音高、时长作为条件输入
  • 快速采样:DDIM、PNDM等加速推理

Grad-TTS

将扩散模型应用于语音合成,结合时长模型实现高质量TTS。

架构

文本编码器 + 扩散解码器 + 基于单调对齐的时长模型。

优势

生成多样性强、音质高、支持可控生成。

模型对比

不同类型TTS模型的全面对比,帮助选择合适的技术方案。

模型类型音质速度训练难度
Tacotron 2自回归
FastSpeech 2非自回归中高极快
Glow-TTS流模型
VITS端到端实时
StyleTTS 2端到端极高较快
BarkGPT
DiffSinger扩散极高
CosyVoice端到端极高实时

性能基准

模型MOSRTF (GPU)参数量
Tacotron 2 + WaveNet4.53~10~60M
FastSpeech 2 + HiFi-GAN4.100.004~45M
VITS4.350.067~45M
StyleTTS 24.50+0.15~80M

* RTF: 实时因子,越小越快

选型指南

根据不同场景需求选择合适的TTS模型。

追求最高音质

StyleTTS 2、DiffSinger。适合专业音频制作、歌声合成。

生产环境实时合成

FastSpeech 2 + HiFi-GAN、VITS。适合语音助手、实时播报。

多说话人/声音克隆

VITS(多说话人版)、GPT-SoVITS、CosyVoice。支持零样本或少样本克隆。

创意内容生成

Bark、Tortoise TTS。支持多语言、音效、情感表达。

边缘设备部署

FastSpeech 2 + MB-MelGAN、Piper。模型小、速度快。

研究学习

Tacotron 2(理解基础架构)、VITS(端到端范式)、Glow-TTS(流模型)。

开源推荐

  • VITS:jaywalnut310/vits
  • FastSpeech 2:ming024/FastSpeech2
  • StyleTTS 2:yl4579/StyleTTS2
  • CosyVoice:FunAudioLLM/CosyVoice
  • GPT-SoVITS:RVC-Boss/GPT-SoVITS
----