TTS基础

语音合成(Text-to-Speech, TTS)是将文本转换为自然语音的技术,是人机交互的核心技术之一。

预计阅读时间:45分钟·难度:入门

什么是TTS

TTS系统的目标是将输入文本转换为自然、流畅、可理解的语音输出。它是人工智能、自然语言处理和语音信号处理的交叉领域。

核心挑战

  • 自然度:语音需要听起来自然流畅,接近真人发音
  • 表现力:能够表达情感、语气和韵律变化
  • 可控性:支持控制语速、音调、音量等参数
  • 实时性:支持低延迟实时合成,满足交互场景
  • 泛化性:能够处理各种领域的文本,包括专业术语

应用价值

TTS技术广泛应用于智能助手、有声读物、导航播报、无障碍服务、游戏配音、教育学习等场景, 让机器能够"开口说话",极大地丰富了人机交互体验。

发展历程

语音合成技术经历了漫长的发展过程,从机械装置到深度学习,每一次革新都带来了质的飞跃。

时期技术特点
18-19世纪机械合成Von Kempelen说话机器
1930s电子合成Voder、早期合成器
1960s-1980s共振峰合成规则驱动,音质机械
1990s拼接合成语音库拼接,自然度高
2000s统计参数合成HMM建模,灵活可扩展
2016至今神经网络合成端到端,接近真人

重要里程碑

2016 - WaveNet

DeepMind提出WaveNet,首次用深度学习生成接近真人的语音,开启神经TTS时代。

2017 - Tacotron 2

Google提出端到端TTS架构,简化了传统多阶段流程,成为后续研究的基础。

2020 - VITS

提出完全端到端的TTS模型,直接从文本生成波形,质量和速度兼得。

合成流程

现代TTS系统通常包含以下处理阶段:

1
文本输入
2
文本分析
3
声学建模
4
声码器
5
音频输出

各阶段说明

1. 文本分析(Text Analysis)

对输入文本进行规范化处理,包括文本清洗、分词、词性标注、韵律预测、G2P转换等, 将原始文本转换为可发音的音素序列。

2. 声学建模(Acoustic Modeling)

将音素序列转换为声学特征(如梅尔频谱),预测每个音素的时长、基频、能量等参数, 决定语音的韵律和音质。

3. 声码器(Vocoder)

将声学特征转换为最终的音频波形,是决定音质的关键组件。 现代神经声码器如HiFi-GAN能生成高质量音频。

核心组件

文本前端(Text Frontend)

处理文本规范化、分词、G2P(字素到音素转换)、韵律预测等。 是决定合成准确性的第一步,不同语言需要不同的前端处理。

声学模型(Acoustic Model)

预测梅尔频谱或其他声学特征,如Tacotron、FastSpeech系列。 是TTS系统的核心,决定语音的韵律和自然度。

声码器(Vocoder)

将声学特征转换为波形,如WaveNet、HiFi-GAN、MB-MelGAN。 直接影响最终音频的音质和生成速度。

文本前端详解

文本前端是TTS系统的入口,负责将原始文本转换为可合成发音的内部表示。

文本规范化

将各种特殊格式的文本转换为标准形式:

类型原始规范化后
数字2024年二零二四年
时间15:30十五点三十
日期2024/1/1二零二四年一月一日
金额¥128.5一百二十八点五元
缩写AIA I

G2P转换

字素到音素(Grapheme-to-Phoneme)转换是将文字转换为发音符号的关键步骤:

  • 中文:汉字 → 拼音(考虑多音字消歧)
  • 英文:单词 → IPA音标(处理不规律拼写)
  • 混合文本:识别语言边界,分别处理

韵律预测

韵律预测决定语句的停顿、重音和语调模式:

停顿预测

预测语句中的停顿位置和时长,与句法结构密切相关。

重音预测

预测词组和句子的重音位置,影响语音的表现力。

声学模型详解

声学模型负责将文本特征转换为声学特征,是TTS系统的核心组件。

常见声学特征

梅尔频谱(Mel Spectrogram)

模拟人耳感知的频谱表示,是现代TTS最常用的中间表示。

基频(F0)

声带振动的基本频率,决定语音的音高和语调。

时长(Duration)

每个音素的持续帧数,决定语音的节奏。

模型架构演进

类型代表模型特点
自回归Tacotron 2质量高,速度慢
非自回归FastSpeech 2速度快,需时长模型
流模型Glow-TTS可逆变换,支持采样
扩散模型DiffSinger高质量,迭代慢
端到端VITS一步到位,质量好

声码器详解

声码器(Vocoder)将声学特征转换为音频波形,是决定最终音质的关键。

声码器类型

传统声码器

基于信号处理的声码器,计算效率高但音质有限:

  • Griffin-Lim:迭代相位重建,快速但音质一般
  • WORLD:高质量歌声合成,支持F0编辑
  • STRAIGHT:高质量语音分析和合成
神经声码器

基于深度学习的声码器,音质接近真人:

  • WaveNet:自回归模型,质量最高但速度慢
  • WaveRNN:优化的自回归,速度提升
  • Parallel WaveNet:知识蒸馏实现并行
  • HiFi-GAN:GAN架构,实时高质量
  • MB-MelGAN:多频带并行生成

HiFi-GAN 架构

HiFi-GAN是目前最流行的神经声码器,平衡了质量和速度:

  • 生成器:转置卷积上采样,残差块
  • 判别器:多尺度判别 + 多周期判别
  • 损失函数:对抗损失 + 特征匹配损失
  • 推理速度:CPU实时,GPU超实时

质量评估

TTS系统的质量评估分为主观评估和客观评估两类。

主观评估

方法说明评分范围
MOS平均意见分,自然度评分1-5分
CMOS比较MOS,相对评价-3到+3
AB测试两两比较偏好百分比
MUSHRA多条件隐参考评估0-100分

客观评估

频谱失真

MCD(Mel Cepstral Distortion)测量预测与真实频谱的距离。

基频误差

F0 RMSE测量预测与真实基频的误差。

时长准确度

预测与真实音素时长的相关系数和误差。

技术挑战

尽管TTS技术已取得巨大进展,仍面临诸多挑战:

长文本一致性

长篇文本合成时保持音色和韵律一致性,避免段落间风格突变。

情感表现力

生成富有情感的语音,表达喜怒哀乐等复杂情绪。

罕见词处理

正确处理专业术语、人名地名、新词等未登录词。

低资源语言

在数据稀缺的语言上构建高质量TTS系统。

边缘部署

在资源受限设备上实现实时高质量合成。

----