语音识别 ASR

自动语音识别(ASR)将语音转换为文本，是实现人机语音交互的基础技术。

共 13 篇文章·阅读时间：约55分钟

01ASR 基础

ASR系统将连续的语音信号转换为离散的文字序列。

识别原理

ASR流程

预处理：分帧、加窗、特征提取
声学建模：音频特征到音素概率
语言建模：词序列的概率估计
解码：搜索最优词序列

声学模型

模型演进

HMM-GMM：传统方法，可解释性强
DNN-HMM：深度学习替代GMM
CTC模型：端到端，无需对齐
Attention模型：序列到序列学习

语言模型

N-gram

统计语言模型，简单高效
适合资源受限场景

神经网络语言模型

LSTM、Transformer
建模长距离依赖，效果好

02主流模型

现代ASR模型多采用端到端架构，性能优异。

代表性模型

Whisper：OpenAI开源，多语言支持强大
Wav2Vec：自监督预训练，少样本学习
Conformer：CNN+Transformer混合架构
WeNet：生产级端到端方案

03实时识别

实时语音识别需要处理流式输入，保证低延迟。

核心技术

流式识别：边输入边识别，增量输出
端点检测(VAD)：检测语音起止点
低延迟方案：模型裁剪、知识蒸馏

04ASR 服务

云服务提供成熟的ASR能力，支持多种场景。

主流服务

Azure Speech：微软服务，支持实时转写
阿里ASR：中文效果好，价格实惠
腾讯ASR：多场景支持，音视频处理
讯飞ASR：中文语音技术领先

AI音频知识

← 返回目录

下一篇

音乐生成 →

----