语音识别 ASR

自动语音识别(ASR)将语音转换为文本,是实现人机语音交互的基础技术。

共 13 篇文章·阅读时间:约55分钟

01ASR 基础

ASR系统将连续的语音信号转换为离散的文字序列。

识别原理

ASR流程

  • 预处理:分帧、加窗、特征提取
  • 声学建模:音频特征到音素概率
  • 语言建模:词序列的概率估计
  • 解码:搜索最优词序列

声学模型

模型演进

  • HMM-GMM:传统方法,可解释性强
  • DNN-HMM:深度学习替代GMM
  • CTC模型:端到端,无需对齐
  • Attention模型:序列到序列学习

语言模型

N-gram

统计语言模型,简单高效
适合资源受限场景

神经网络语言模型

LSTM、Transformer
建模长距离依赖,效果好

02主流模型

现代ASR模型多采用端到端架构,性能优异。

代表性模型

  • Whisper:OpenAI开源,多语言支持强大
  • Wav2Vec:自监督预训练,少样本学习
  • Conformer:CNN+Transformer混合架构
  • WeNet:生产级端到端方案

03实时识别

实时语音识别需要处理流式输入,保证低延迟。

核心技术

  • 流式识别:边输入边识别,增量输出
  • 端点检测(VAD):检测语音起止点
  • 低延迟方案:模型裁剪、知识蒸馏

04ASR 服务

云服务提供成熟的ASR能力,支持多种场景。

主流服务

  • Azure Speech:微软服务,支持实时转写
  • 阿里ASR:中文效果好,价格实惠
  • 腾讯ASR:多场景支持,音视频处理
  • 讯飞ASR:中文语音技术领先
AI音频知识
← 返回目录
----