唤醒词检测
唤醒词检测(Keyword Spotting, KWS)技术让设备通过特定词汇被语音激活,如"小爱同学"。
预计阅读时间:30分钟·难度:中级
功能概述
唤醒词检测是语音助手的入口技术,设备持续监听,检测到唤醒词后激活语音交互。
常见唤醒词
- 小爱同学 - 小米
- 天猫精灵 - 阿里
- 小度小度 - 百度
- Hey Siri - Apple
- OK Google - Google
技术原理
音频流 → 特征提取 → 唤醒词模型 → 后处理 → 唤醒决策
↓
MFCC/Filterbank- • 特征提取:提取MFCC或Filterbank特征
- • 模型推理:神经网络判断是否为唤醒词
- • 后处理:平滑、置信度阈值判断
- • 误唤醒抑制:减少非唤醒词的误触发
核心技术
轻量级模型
DS-CNN、TC-ResNet等轻量模型,适合端侧部署。
端到端模型
从音频直接到唤醒判断的端到端训练。
流式处理
实时处理音频流,低延迟响应。
自适应学习
在线学习适应特定用户发音。
性能要求
| 指标 | 要求 | 说明 |
|---|---|---|
| 唤醒率 | >95% | 正确识别唤醒词的概率 |
| 误唤醒率 | <1次/小时 | 非唤醒词误触发频率 |
| 延迟 | <500ms | 从说完到唤醒的时间 |
| 功耗 | <10mW | 待机状态功耗 |
技术挑战
噪声环境
远场、噪声、回声等复杂环境下的鲁棒性。
低功耗要求
始终在线但功耗需要极低。
个性化适配
适应不同用户的发音差异。
误唤醒控制
平衡唤醒率和误唤醒率。
常用方案
| 方案 | 特点 |
|---|---|
| Porcupine | 跨平台唤醒词引擎 |
| Snowboy | 开源唤醒词检测(已停止维护) |
| Picovoice | 企业级语音AI平台 |
| TensorFlow Lite | 端侧模型部署 |