语音识别 ASR
自动语音识别(ASR)将语音转换为文本,是实现人机语音交互的基础技术。
共 13 篇文章·阅读时间:约55分钟
01ASR 基础
ASR系统将连续的语音信号转换为离散的文字序列。
识别原理
ASR流程
- 预处理:分帧、加窗、特征提取
- 声学建模:音频特征到音素概率
- 语言建模:词序列的概率估计
- 解码:搜索最优词序列
声学模型
模型演进
- HMM-GMM:传统方法,可解释性强
- DNN-HMM:深度学习替代GMM
- CTC模型:端到端,无需对齐
- Attention模型:序列到序列学习
语言模型
N-gram
统计语言模型,简单高效
适合资源受限场景
神经网络语言模型
LSTM、Transformer
建模长距离依赖,效果好
02主流模型
现代ASR模型多采用端到端架构,性能优异。
代表性模型
- Whisper:OpenAI开源,多语言支持强大
- Wav2Vec:自监督预训练,少样本学习
- Conformer:CNN+Transformer混合架构
- WeNet:生产级端到端方案
03实时识别
实时语音识别需要处理流式输入,保证低延迟。
核心技术
- 流式识别:边输入边识别,增量输出
- 端点检测(VAD):检测语音起止点
- 低延迟方案:模型裁剪、知识蒸馏
04ASR 服务
云服务提供成熟的ASR能力,支持多种场景。
主流服务
- Azure Speech:微软服务,支持实时转写
- 阿里ASR:中文效果好,价格实惠
- 腾讯ASR:多场景支持,音视频处理
- 讯飞ASR:中文语音技术领先