ASR基础
自动语音识别(Automatic Speech Recognition,ASR)是将语音信号转换为文本的技术,是人机语音交互的核心能力。
什么是ASR
ASR系统的目标是将音频信号转换为对应的文本序列。这是一个复杂的模式识别问题,涉及信号处理、声学建模、语言建模等多个领域。
核心定义
ASR是在给定音频信号A的情况下,找到最可能的文本序列W,即求解 argmax P(W|A)。这是一个典型的序列到序列映射问题。
应用场景
语音助手
Siri、小爱同学、Alexa等智能语音助手,通过ASR理解用户语音指令。
会议转写
自动生成会议记录,提高会议效率。支持多人识别和说话人分离。
字幕生成
为视频内容自动生成字幕,广泛应用于短视频、在线教育等领域。
客服系统
语音菜单导航、智能客服,提升客户服务效率。
发展历程
| 时期 | 技术 | 特点 |
|---|---|---|
| 1950s-1970s | 模板匹配 | 孤立词识别,词汇量小 |
| 1980s-2000s | HMM-GMM | 连续语音,统计模型 |
| 2010s | 深度学习 | DNN-HMM混合模型 |
| 2015至今 | 端到端 | 直接音频到文本 |
识别流程
现代ASR系统通常采用端到端架构,简化了传统多模块的复杂性。
标准处理流程
- 1. 音频预处理:分帧、加窗、特征提取(MFCC/Fbank)
- 2. 声学编码:将音频特征编码为高层表示(Encoder)
- 3. 解码:将编码结果转换为文本序列(Decoder)
- 4. 后处理:添加标点、逆文本正则化(ITN)
端到端架构
编码器-解码器结构
编码器将音频特征压缩为隐层表示,解码器根据隐层表示生成文本序列。这是最基础的端到端架构。
CTC模型
连接时序分类(CTC)解决了音频和文本对齐问题,无需帧级别的标注。
Attention模型
使用注意力机制自动学习音频和文本之间的对齐关系。
Transducer模型
结合CTC和Attention的优点,支持流式解码。
系统架构
传统架构 vs 端到端架构
| 维度 | 传统架构 | 端到端架构 |
|---|---|---|
| 模块数 | 多个独立模块 | 单一模型 |
| 训练 | 各模块独立训练 | 联合优化 |
| 数据需求 | 需要专业标注 | 只需音频-文本对 |
| 部署复杂度 | 高 | 低 |
| 可解释性 | 较好 | 较差 |
传统架构组成
声学模型
预测每个音频帧对应的音素状态。传统方法使用HMM-GMM,现代方法使用DNN。
发音词典
定义词汇到音素序列的映射。需要语言学专家维护,新词需要人工添加。
语言模型
评估文本序列的概率,帮助消除歧义。常用N-gram或神经网络语言模型。
解码器
在搜索空间中找到最优的词序列,通常使用Viterbi算法或束搜索。
特征提取
特征提取是ASR的第一步,将原始音频信号转换为适合模型处理的特征向量。
常用特征
| 特征 | 描述 | 维度 |
|---|---|---|
| MFCC | 梅尔频率倒谱系数 | 13-40维 |
| Fbank | 梅尔滤波器组特征 | 40-80维 |
| PLP | 感知线性预测 | 13维 |
| Wav2Vec特征 | 自监督学习特征 | 768-1024维 |
预处理步骤
- 1. 预加重:补偿高频衰减
- 2. 分帧:将连续信号分为短时帧(通常25ms)
- 3. 加窗:使用汉明窗减少频谱泄漏
- 4. FFT:计算快速傅里叶变换
- 5. 梅尔滤波:应用梅尔滤波器组
- 6. 对数变换:取对数能量
- 7. DCT:离散余弦变换得到MFCC
核心挑战
主要技术挑战
噪声鲁棒性
在噪声环境下保持识别准确率是ASR的核心挑战。解决方案包括:数据增强、前端降噪、鲁棒特征。
口音和方言
处理不同地区、不同口音的语音。需要多样化的训练数据和口音自适应技术。
长语音识别
处理长时语音和上下文依赖。需要有效的上下文建模和注意力机制。
实时性
低延迟流式识别,要求毫秒级响应。需要特殊的流式架构设计。
多说话人场景
识别多人对话并区分说话人。需要说话人分离和重叠语音处理。
评估指标
核心指标
词错误率(WER)
WER = (S + D + I) / N,其中S为替换数,D为删除数,I为插入数,N为参考词数。是ASR最常用的评估指标。
字错误率(CER)
中文场景下常用的指标,基于字符计算错误率。
实时率(RTF)
处理时间与音频时长的比值,RTF < 1 表示可以实时处理。
延迟
从说话结束到结果输出的时间,实时系统要求延迟 < 500ms。
典型性能水平
| 场景 | WER范围 | 说明 |
|---|---|---|
| 朗读语音 | 2-5% | 高质量、无噪声 |
| 对话语音 | 5-10% | 自然口语、偶有噪声 |
| 会议场景 | 10-20% | 多人、噪声、重叠 |
| 电话信道 | 10-15% | 低带宽、背景噪声 |