唤醒词检测

唤醒词检测(Keyword Spotting, KWS)技术让设备通过特定词汇被语音激活,如"小爱同学"。

预计阅读时间:30分钟·难度:中级

功能概述

唤醒词检测是语音助手的入口技术,设备持续监听,检测到唤醒词后激活语音交互。

常见唤醒词

  • 小爱同学 - 小米
  • 天猫精灵 - 阿里
  • 小度小度 - 百度
  • Hey Siri - Apple
  • OK Google - Google

技术原理

音频流 → 特征提取 → 唤醒词模型 → 后处理 → 唤醒决策
              ↓
         MFCC/Filterbank
  • 特征提取:提取MFCC或Filterbank特征
  • 模型推理:神经网络判断是否为唤醒词
  • 后处理:平滑、置信度阈值判断
  • 误唤醒抑制:减少非唤醒词的误触发

核心技术

轻量级模型

DS-CNN、TC-ResNet等轻量模型,适合端侧部署。

端到端模型

从音频直接到唤醒判断的端到端训练。

流式处理

实时处理音频流,低延迟响应。

自适应学习

在线学习适应特定用户发音。

性能要求

指标要求说明
唤醒率>95%正确识别唤醒词的概率
误唤醒率<1次/小时非唤醒词误触发频率
延迟<500ms从说完到唤醒的时间
功耗<10mW待机状态功耗

技术挑战

噪声环境

远场、噪声、回声等复杂环境下的鲁棒性。

低功耗要求

始终在线但功耗需要极低。

个性化适配

适应不同用户的发音差异。

误唤醒控制

平衡唤醒率和误唤醒率。

常用方案

方案特点
Porcupine跨平台唤醒词引擎
Snowboy开源唤醒词检测(已停止维护)
Picovoice企业级语音AI平台
TensorFlow Lite端侧模型部署
----