TTS基础
语音合成(Text-to-Speech, TTS)是将文本转换为自然语音的技术,是人机交互的核心技术之一。
什么是TTS
TTS系统的目标是将输入文本转换为自然、流畅、可理解的语音输出。它是人工智能、自然语言处理和语音信号处理的交叉领域。
核心挑战
- 自然度:语音需要听起来自然流畅,接近真人发音
- 表现力:能够表达情感、语气和韵律变化
- 可控性:支持控制语速、音调、音量等参数
- 实时性:支持低延迟实时合成,满足交互场景
- 泛化性:能够处理各种领域的文本,包括专业术语
应用价值
TTS技术广泛应用于智能助手、有声读物、导航播报、无障碍服务、游戏配音、教育学习等场景, 让机器能够"开口说话",极大地丰富了人机交互体验。
发展历程
语音合成技术经历了漫长的发展过程,从机械装置到深度学习,每一次革新都带来了质的飞跃。
| 时期 | 技术 | 特点 |
|---|---|---|
| 18-19世纪 | 机械合成 | Von Kempelen说话机器 |
| 1930s | 电子合成 | Voder、早期合成器 |
| 1960s-1980s | 共振峰合成 | 规则驱动,音质机械 |
| 1990s | 拼接合成 | 语音库拼接,自然度高 |
| 2000s | 统计参数合成 | HMM建模,灵活可扩展 |
| 2016至今 | 神经网络合成 | 端到端,接近真人 |
重要里程碑
2016 - WaveNet
DeepMind提出WaveNet,首次用深度学习生成接近真人的语音,开启神经TTS时代。
2017 - Tacotron 2
Google提出端到端TTS架构,简化了传统多阶段流程,成为后续研究的基础。
2020 - VITS
提出完全端到端的TTS模型,直接从文本生成波形,质量和速度兼得。
合成流程
现代TTS系统通常包含以下处理阶段:
各阶段说明
1. 文本分析(Text Analysis)
对输入文本进行规范化处理,包括文本清洗、分词、词性标注、韵律预测、G2P转换等, 将原始文本转换为可发音的音素序列。
2. 声学建模(Acoustic Modeling)
将音素序列转换为声学特征(如梅尔频谱),预测每个音素的时长、基频、能量等参数, 决定语音的韵律和音质。
3. 声码器(Vocoder)
将声学特征转换为最终的音频波形,是决定音质的关键组件。 现代神经声码器如HiFi-GAN能生成高质量音频。
核心组件
文本前端(Text Frontend)
处理文本规范化、分词、G2P(字素到音素转换)、韵律预测等。 是决定合成准确性的第一步,不同语言需要不同的前端处理。
声学模型(Acoustic Model)
预测梅尔频谱或其他声学特征,如Tacotron、FastSpeech系列。 是TTS系统的核心,决定语音的韵律和自然度。
声码器(Vocoder)
将声学特征转换为波形,如WaveNet、HiFi-GAN、MB-MelGAN。 直接影响最终音频的音质和生成速度。
文本前端详解
文本前端是TTS系统的入口,负责将原始文本转换为可合成发音的内部表示。
文本规范化
将各种特殊格式的文本转换为标准形式:
| 类型 | 原始 | 规范化后 |
|---|---|---|
| 数字 | 2024年 | 二零二四年 |
| 时间 | 15:30 | 十五点三十 |
| 日期 | 2024/1/1 | 二零二四年一月一日 |
| 金额 | ¥128.5 | 一百二十八点五元 |
| 缩写 | AI | A I |
G2P转换
字素到音素(Grapheme-to-Phoneme)转换是将文字转换为发音符号的关键步骤:
- • 中文:汉字 → 拼音(考虑多音字消歧)
- • 英文:单词 → IPA音标(处理不规律拼写)
- • 混合文本:识别语言边界,分别处理
韵律预测
韵律预测决定语句的停顿、重音和语调模式:
停顿预测
预测语句中的停顿位置和时长,与句法结构密切相关。
重音预测
预测词组和句子的重音位置,影响语音的表现力。
声学模型详解
声学模型负责将文本特征转换为声学特征,是TTS系统的核心组件。
常见声学特征
梅尔频谱(Mel Spectrogram)
模拟人耳感知的频谱表示,是现代TTS最常用的中间表示。
基频(F0)
声带振动的基本频率,决定语音的音高和语调。
时长(Duration)
每个音素的持续帧数,决定语音的节奏。
模型架构演进
| 类型 | 代表模型 | 特点 |
|---|---|---|
| 自回归 | Tacotron 2 | 质量高,速度慢 |
| 非自回归 | FastSpeech 2 | 速度快,需时长模型 |
| 流模型 | Glow-TTS | 可逆变换,支持采样 |
| 扩散模型 | DiffSinger | 高质量,迭代慢 |
| 端到端 | VITS | 一步到位,质量好 |
声码器详解
声码器(Vocoder)将声学特征转换为音频波形,是决定最终音质的关键。
声码器类型
传统声码器
基于信号处理的声码器,计算效率高但音质有限:
- • Griffin-Lim:迭代相位重建,快速但音质一般
- • WORLD:高质量歌声合成,支持F0编辑
- • STRAIGHT:高质量语音分析和合成
神经声码器
基于深度学习的声码器,音质接近真人:
- • WaveNet:自回归模型,质量最高但速度慢
- • WaveRNN:优化的自回归,速度提升
- • Parallel WaveNet:知识蒸馏实现并行
- • HiFi-GAN:GAN架构,实时高质量
- • MB-MelGAN:多频带并行生成
HiFi-GAN 架构
HiFi-GAN是目前最流行的神经声码器,平衡了质量和速度:
- • 生成器:转置卷积上采样,残差块
- • 判别器:多尺度判别 + 多周期判别
- • 损失函数:对抗损失 + 特征匹配损失
- • 推理速度:CPU实时,GPU超实时
质量评估
TTS系统的质量评估分为主观评估和客观评估两类。
主观评估
| 方法 | 说明 | 评分范围 |
|---|---|---|
| MOS | 平均意见分,自然度评分 | 1-5分 |
| CMOS | 比较MOS,相对评价 | -3到+3 |
| AB测试 | 两两比较偏好 | 百分比 |
| MUSHRA | 多条件隐参考评估 | 0-100分 |
客观评估
频谱失真
MCD(Mel Cepstral Distortion)测量预测与真实频谱的距离。
基频误差
F0 RMSE测量预测与真实基频的误差。
时长准确度
预测与真实音素时长的相关系数和误差。
技术挑战
尽管TTS技术已取得巨大进展,仍面临诸多挑战:
长文本一致性
长篇文本合成时保持音色和韵律一致性,避免段落间风格突变。
情感表现力
生成富有情感的语音,表达喜怒哀乐等复杂情绪。
罕见词处理
正确处理专业术语、人名地名、新词等未登录词。
低资源语言
在数据稀缺的语言上构建高质量TTS系统。
边缘部署
在资源受限设备上实现实时高质量合成。