音频降噪

音频降噪是提升音频质量的基础技术,AI技术带来了革命性的质量提升。

预计阅读时间:45分钟·难度:中级

降噪概述

降噪是指从音频中去除不需要的噪声成分,保留目标信号。

降噪目标

  • 提升语音质量:提高语音可懂度和清晰度
  • 改善听感:去除干扰,提升用户体验
  • 增强识别:为下游ASR任务提供干净输入
  • 通信质量:改善语音通话清晰度

问题建模

经典加性噪声模型:

y(t) = s(t) + n(t)

其中 y 是观测信号,s 是目标信号,n 是噪声。目标是从 y 中恢复 s。

噪声类型

不同类型的噪声需要不同的处理策略。

类型特点示例难度
稳态噪声统计特性恒定空调、风扇
非稳态噪声统计特性时变街道、人群
脉冲噪声短时突发门声、敲击
混响房间反射室内录音
卷积噪声信道失真电话信道
竞争语音干扰说话人鸡尾酒会

噪声特性分析

频谱特性

白噪声各频率能量相等,粉红噪声低频能量高,实际噪声多为混合类型。

时间特性

稳态噪声统计特性稳定,非稳态噪声随时间变化,需要自适应处理。

空间特性

噪声和目标可能来自不同方向,多麦克风可利用空间信息。

传统方法

谱减法

原理

估计噪声频谱,从信号频谱中减去:

|S(f)|² = |Y(f)|² - α|N(f)|²

α是过减因子,用于补偿噪声估计误差。

优点

实现简单,计算量小,对稳态噪声效果不错。

缺点

可能产生"音乐噪声",非稳态噪声效果差。

维纳滤波

原理

最小均方误差准则下的最优估计:

H(f) = Pₛ(f) / (Pₛ(f) + Pₙ(f))

Pₛ和Pₙ分别是信号和噪声的功率谱。

MMSE-STSA

最小均方误差短时谱幅度估计器,结合了统计模型和先验信噪比估计, 是传统方法中最有效的之一。

传统方法对比

方法原理适用场景
谱减法频谱相减稳态噪声
维纳滤波最优估计已知噪声统计
MMSE-STSA统计估计一般场景
门限降噪阈值处理简单噪声

AI降噪

深度学习为降噪带来了质的飞跃,能够处理更复杂的噪声场景。

学习范式

监督学习

使用配对的干净语音和噪声语音训练。 需要大量标注数据,效果最好。

自监督学习

先在大量无标注数据上预训练,再微调。 数据效率高,泛化能力强。

无监督学习

不需要干净语音作为目标,学习噪声模式。 适合实际部署场景。

处理域

频域方法

在STFT域处理,学习频谱掩蔽或映射。 计算效率高,是主流方法。

时域方法

直接处理波形,端到端学习。 避免相位问题,但模型更复杂。

时频联合

结合时域和频域的优势,当前最佳方法。

主流模型

DCCRN

深度复数卷积循环网络,处理复数频谱。

  • • 复数卷积保留相位信息
  • • ConvLSTM建模时序依赖
  • • DNS Challenge冠军方案
DTLN

双信号变换LSTM网络,轻量实时。

  • • 双阶段处理:频域掩蔽 + 时域映射
  • • 参数量小(约1MB)
  • • 适合边缘部署
RNNoise

基于GRU的轻量降噪,开源可用。

  • • 传统特征 + 神经网络混合
  • • CPU实时运行
  • • 广泛应用于实时通信
FullSubNet

全带和子带融合网络。

  • • 全带建模全局依赖
  • • 子带建模局部细节
  • • 复数掩蔽输出
Conv-TasNet变体

时域端到端降噪,适合语音分离场景复用。

实时降噪

实时降噪需要平衡效果和延迟,广泛用于语音通话和直播。

延迟要求

场景可接受延迟挑战
实时通话< 50ms极高实时性
直播< 200ms实时+质量
录音后处理无限制追求最高质量

实时优化策略

流式处理

使用因果模型,不依赖未来帧。帧长通常20ms。

模型压缩

知识蒸馏、量化、剪枝减小模型大小和计算量。

硬件加速

GPU、DSP、NPU加速推理,降低CPU占用。

实时降噪产品

  • NVIDIA RTX Voice:GPU加速,PC端
  • Krisp:跨平台,订阅制
  • 腾讯会议降噪:内置实时降噪
  • Zoom噪音抑制:多级降噪选项
  • Discord降噪:Krisp技术支持

效果评估

客观指标

指标含义范围
PESQ语音质量感知评估-0.5 ~ 4.5
STOI短时客观可懂度0 ~ 1
SDR信号失真比dB,越高越好
SI-SDR尺度不变SDRdB,标准指标
DNSMOS深度学习MOS预测1 ~ 5

主观评估

MOS(Mean Opinion Score)

  • • 5分:优秀,无噪声感知
  • • 4分:良好,轻微噪声
  • • 3分:一般,可接受噪声
  • • 2分:较差,明显噪声
  • • 1分:很差,不可用

工具推荐

开源工具

工具特点适用
RNNoise轻量实时实时通话
DTLN小模型边缘部署
DeepFilterNet高质量通用降噪
SpeechBrain工具包全研究开发

在线服务

  • Adobe Podcast:免费语音增强,效果出众
  • Auphonic:自动音频后处理
  • Podcastle:一站式播客制作
  • Cleanvoice:自动清理播客音频
----