音频降噪
音频降噪是提升音频质量的基础技术,AI技术带来了革命性的质量提升。
降噪概述
降噪是指从音频中去除不需要的噪声成分,保留目标信号。
降噪目标
- 提升语音质量:提高语音可懂度和清晰度
- 改善听感:去除干扰,提升用户体验
- 增强识别:为下游ASR任务提供干净输入
- 通信质量:改善语音通话清晰度
问题建模
经典加性噪声模型:
y(t) = s(t) + n(t)
其中 y 是观测信号,s 是目标信号,n 是噪声。目标是从 y 中恢复 s。
噪声类型
不同类型的噪声需要不同的处理策略。
| 类型 | 特点 | 示例 | 难度 |
|---|---|---|---|
| 稳态噪声 | 统计特性恒定 | 空调、风扇 | 低 |
| 非稳态噪声 | 统计特性时变 | 街道、人群 | 中 |
| 脉冲噪声 | 短时突发 | 门声、敲击 | 中 |
| 混响 | 房间反射 | 室内录音 | 高 |
| 卷积噪声 | 信道失真 | 电话信道 | 高 |
| 竞争语音 | 干扰说话人 | 鸡尾酒会 | 高 |
噪声特性分析
频谱特性
白噪声各频率能量相等,粉红噪声低频能量高,实际噪声多为混合类型。
时间特性
稳态噪声统计特性稳定,非稳态噪声随时间变化,需要自适应处理。
空间特性
噪声和目标可能来自不同方向,多麦克风可利用空间信息。
传统方法
谱减法
原理
估计噪声频谱,从信号频谱中减去:
|S(f)|² = |Y(f)|² - α|N(f)|²
α是过减因子,用于补偿噪声估计误差。
优点
实现简单,计算量小,对稳态噪声效果不错。
缺点
可能产生"音乐噪声",非稳态噪声效果差。
维纳滤波
原理
最小均方误差准则下的最优估计:
H(f) = Pₛ(f) / (Pₛ(f) + Pₙ(f))
Pₛ和Pₙ分别是信号和噪声的功率谱。
MMSE-STSA
最小均方误差短时谱幅度估计器,结合了统计模型和先验信噪比估计, 是传统方法中最有效的之一。
传统方法对比
| 方法 | 原理 | 适用场景 |
|---|---|---|
| 谱减法 | 频谱相减 | 稳态噪声 |
| 维纳滤波 | 最优估计 | 已知噪声统计 |
| MMSE-STSA | 统计估计 | 一般场景 |
| 门限降噪 | 阈值处理 | 简单噪声 |
AI降噪
深度学习为降噪带来了质的飞跃,能够处理更复杂的噪声场景。
学习范式
监督学习
使用配对的干净语音和噪声语音训练。 需要大量标注数据,效果最好。
自监督学习
先在大量无标注数据上预训练,再微调。 数据效率高,泛化能力强。
无监督学习
不需要干净语音作为目标,学习噪声模式。 适合实际部署场景。
处理域
频域方法
在STFT域处理,学习频谱掩蔽或映射。 计算效率高,是主流方法。
时域方法
直接处理波形,端到端学习。 避免相位问题,但模型更复杂。
时频联合
结合时域和频域的优势,当前最佳方法。
主流模型
DCCRN
深度复数卷积循环网络,处理复数频谱。
- • 复数卷积保留相位信息
- • ConvLSTM建模时序依赖
- • DNS Challenge冠军方案
DTLN
双信号变换LSTM网络,轻量实时。
- • 双阶段处理:频域掩蔽 + 时域映射
- • 参数量小(约1MB)
- • 适合边缘部署
RNNoise
基于GRU的轻量降噪,开源可用。
- • 传统特征 + 神经网络混合
- • CPU实时运行
- • 广泛应用于实时通信
FullSubNet
全带和子带融合网络。
- • 全带建模全局依赖
- • 子带建模局部细节
- • 复数掩蔽输出
Conv-TasNet变体
时域端到端降噪,适合语音分离场景复用。
实时降噪
实时降噪需要平衡效果和延迟,广泛用于语音通话和直播。
延迟要求
| 场景 | 可接受延迟 | 挑战 |
|---|---|---|
| 实时通话 | < 50ms | 极高实时性 |
| 直播 | < 200ms | 实时+质量 |
| 录音后处理 | 无限制 | 追求最高质量 |
实时优化策略
流式处理
使用因果模型,不依赖未来帧。帧长通常20ms。
模型压缩
知识蒸馏、量化、剪枝减小模型大小和计算量。
硬件加速
GPU、DSP、NPU加速推理,降低CPU占用。
实时降噪产品
- • NVIDIA RTX Voice:GPU加速,PC端
- • Krisp:跨平台,订阅制
- • 腾讯会议降噪:内置实时降噪
- • Zoom噪音抑制:多级降噪选项
- • Discord降噪:Krisp技术支持
效果评估
客观指标
| 指标 | 含义 | 范围 |
|---|---|---|
| PESQ | 语音质量感知评估 | -0.5 ~ 4.5 |
| STOI | 短时客观可懂度 | 0 ~ 1 |
| SDR | 信号失真比 | dB,越高越好 |
| SI-SDR | 尺度不变SDR | dB,标准指标 |
| DNSMOS | 深度学习MOS预测 | 1 ~ 5 |
主观评估
MOS(Mean Opinion Score)
- • 5分:优秀,无噪声感知
- • 4分:良好,轻微噪声
- • 3分:一般,可接受噪声
- • 2分:较差,明显噪声
- • 1分:很差,不可用
工具推荐
开源工具
| 工具 | 特点 | 适用 |
|---|---|---|
| RNNoise | 轻量实时 | 实时通话 |
| DTLN | 小模型 | 边缘部署 |
| DeepFilterNet | 高质量 | 通用降噪 |
| SpeechBrain | 工具包全 | 研究开发 |
在线服务
- • Adobe Podcast:免费语音增强,效果出众
- • Auphonic:自动音频后处理
- • Podcastle:一站式播客制作
- • Cleanvoice:自动清理播客音频