TTS基础

语音合成（Text-to-Speech, TTS）是将文本转换为自然语音的技术，是人机交互的核心技术之一。

预计阅读时间：45分钟·难度：入门

什么是TTS

TTS系统的目标是将输入文本转换为自然、流畅、可理解的语音输出。它是人工智能、自然语言处理和语音信号处理的交叉领域。

核心挑战

自然度：语音需要听起来自然流畅，接近真人发音
表现力：能够表达情感、语气和韵律变化
可控性：支持控制语速、音调、音量等参数
实时性：支持低延迟实时合成，满足交互场景
泛化性：能够处理各种领域的文本，包括专业术语

应用价值

TTS技术广泛应用于智能助手、有声读物、导航播报、无障碍服务、游戏配音、教育学习等场景，让机器能够"开口说话"，极大地丰富了人机交互体验。

发展历程

语音合成技术经历了漫长的发展过程，从机械装置到深度学习，每一次革新都带来了质的飞跃。

时期	技术	特点
18-19世纪	机械合成	Von Kempelen说话机器
1930s	电子合成	Voder、早期合成器
1960s-1980s	共振峰合成	规则驱动，音质机械
1990s	拼接合成	语音库拼接，自然度高
2000s	统计参数合成	HMM建模，灵活可扩展
2016至今	神经网络合成	端到端，接近真人

重要里程碑

2016 - WaveNet

DeepMind提出WaveNet，首次用深度学习生成接近真人的语音，开启神经TTS时代。

2017 - Tacotron 2

Google提出端到端TTS架构，简化了传统多阶段流程，成为后续研究的基础。

2020 - VITS

提出完全端到端的TTS模型，直接从文本生成波形，质量和速度兼得。

合成流程

现代TTS系统通常包含以下处理阶段：

文本输入

→

文本分析

→

声学建模

→

声码器

→

音频输出

各阶段说明

1. 文本分析（Text Analysis）

对输入文本进行规范化处理，包括文本清洗、分词、词性标注、韵律预测、G2P转换等，将原始文本转换为可发音的音素序列。

2. 声学建模（Acoustic Modeling）

将音素序列转换为声学特征（如梅尔频谱），预测每个音素的时长、基频、能量等参数，决定语音的韵律和音质。

3. 声码器（Vocoder）

将声学特征转换为最终的音频波形，是决定音质的关键组件。现代神经声码器如HiFi-GAN能生成高质量音频。

核心组件

文本前端（Text Frontend）

处理文本规范化、分词、G2P（字素到音素转换）、韵律预测等。是决定合成准确性的第一步，不同语言需要不同的前端处理。

声学模型（Acoustic Model）

预测梅尔频谱或其他声学特征，如Tacotron、FastSpeech系列。是TTS系统的核心，决定语音的韵律和自然度。

声码器（Vocoder）

将声学特征转换为波形，如WaveNet、HiFi-GAN、MB-MelGAN。直接影响最终音频的音质和生成速度。

文本前端详解

文本前端是TTS系统的入口，负责将原始文本转换为可合成发音的内部表示。

文本规范化

将各种特殊格式的文本转换为标准形式：

类型	原始	规范化后
数字	2024年	二零二四年
时间	15:30	十五点三十
日期	2024/1/1	二零二四年一月一日
金额	¥128.5	一百二十八点五元
缩写	AI	A I

G2P转换

字素到音素（Grapheme-to-Phoneme）转换是将文字转换为发音符号的关键步骤：

• 中文：汉字 → 拼音（考虑多音字消歧）
• 英文：单词 → IPA音标（处理不规律拼写）
• 混合文本：识别语言边界，分别处理

韵律预测

韵律预测决定语句的停顿、重音和语调模式：

停顿预测

预测语句中的停顿位置和时长，与句法结构密切相关。

重音预测

预测词组和句子的重音位置，影响语音的表现力。

声学模型详解

声学模型负责将文本特征转换为声学特征，是TTS系统的核心组件。

常见声学特征

梅尔频谱（Mel Spectrogram）

模拟人耳感知的频谱表示，是现代TTS最常用的中间表示。

基频（F0）

声带振动的基本频率，决定语音的音高和语调。

时长（Duration）

每个音素的持续帧数，决定语音的节奏。

模型架构演进

类型	代表模型	特点
自回归	Tacotron 2	质量高，速度慢
非自回归	FastSpeech 2	速度快，需时长模型
流模型	Glow-TTS	可逆变换，支持采样
扩散模型	DiffSinger	高质量，迭代慢
端到端	VITS	一步到位，质量好

声码器详解

声码器（Vocoder）将声学特征转换为音频波形，是决定最终音质的关键。

声码器类型

传统声码器

基于信号处理的声码器，计算效率高但音质有限：

• Griffin-Lim：迭代相位重建，快速但音质一般
• WORLD：高质量歌声合成，支持F0编辑
• STRAIGHT：高质量语音分析和合成

神经声码器

基于深度学习的声码器，音质接近真人：

• WaveNet：自回归模型，质量最高但速度慢
• WaveRNN：优化的自回归，速度提升
• Parallel WaveNet：知识蒸馏实现并行
• HiFi-GAN：GAN架构，实时高质量
• MB-MelGAN：多频带并行生成

HiFi-GAN 架构

HiFi-GAN是目前最流行的神经声码器，平衡了质量和速度：

• 生成器：转置卷积上采样，残差块
• 判别器：多尺度判别 + 多周期判别
• 损失函数：对抗损失 + 特征匹配损失
• 推理速度：CPU实时，GPU超实时

质量评估

TTS系统的质量评估分为主观评估和客观评估两类。

主观评估

方法	说明	评分范围
MOS	平均意见分，自然度评分	1-5分
CMOS	比较MOS，相对评价	-3到+3
AB测试	两两比较偏好	百分比
MUSHRA	多条件隐参考评估	0-100分

客观评估

频谱失真

MCD（Mel Cepstral Distortion）测量预测与真实频谱的距离。

基频误差

F0 RMSE测量预测与真实基频的误差。

时长准确度

预测与真实音素时长的相关系数和误差。

技术挑战

尽管TTS技术已取得巨大进展，仍面临诸多挑战：

长文本一致性

长篇文本合成时保持音色和韵律一致性，避免段落间风格突变。

情感表现力

生成富有情感的语音，表达喜怒哀乐等复杂情绪。

罕见词处理

正确处理专业术语、人名地名、新词等未登录词。

低资源语言

在数据稀缺的语言上构建高质量TTS系统。

边缘部署

在资源受限设备上实现实时高质量合成。

← 音频处理

主流模型 →