音频降噪

音频降噪是提升音频质量的基础技术，AI技术带来了革命性的质量提升。

预计阅读时间：45分钟·难度：中级

降噪概述

降噪是指从音频中去除不需要的噪声成分，保留目标信号。

降噪目标

提升语音质量：提高语音可懂度和清晰度
改善听感：去除干扰，提升用户体验
增强识别：为下游ASR任务提供干净输入
通信质量：改善语音通话清晰度

问题建模

经典加性噪声模型：

y(t) = s(t) + n(t)

其中 y 是观测信号，s 是目标信号，n 是噪声。目标是从 y 中恢复 s。

噪声类型

不同类型的噪声需要不同的处理策略。

类型	特点	示例	难度
稳态噪声	统计特性恒定	空调、风扇	低
非稳态噪声	统计特性时变	街道、人群	中
脉冲噪声	短时突发	门声、敲击	中
混响	房间反射	室内录音	高
卷积噪声	信道失真	电话信道	高
竞争语音	干扰说话人	鸡尾酒会	高

噪声特性分析

频谱特性

白噪声各频率能量相等，粉红噪声低频能量高，实际噪声多为混合类型。

时间特性

稳态噪声统计特性稳定，非稳态噪声随时间变化，需要自适应处理。

空间特性

噪声和目标可能来自不同方向，多麦克风可利用空间信息。

传统方法

谱减法

原理

估计噪声频谱，从信号频谱中减去：

|S(f)|² = |Y(f)|² - α|N(f)|²

α是过减因子，用于补偿噪声估计误差。

优点

实现简单，计算量小，对稳态噪声效果不错。

缺点

可能产生"音乐噪声"，非稳态噪声效果差。

维纳滤波

原理

最小均方误差准则下的最优估计：

H(f) = Pₛ(f) / (Pₛ(f) + Pₙ(f))

Pₛ和Pₙ分别是信号和噪声的功率谱。

MMSE-STSA

最小均方误差短时谱幅度估计器，结合了统计模型和先验信噪比估计，是传统方法中最有效的之一。

传统方法对比

方法	原理	适用场景
谱减法	频谱相减	稳态噪声
维纳滤波	最优估计	已知噪声统计
MMSE-STSA	统计估计	一般场景
门限降噪	阈值处理	简单噪声

AI降噪

深度学习为降噪带来了质的飞跃，能够处理更复杂的噪声场景。

学习范式

监督学习

使用配对的干净语音和噪声语音训练。需要大量标注数据，效果最好。

自监督学习

先在大量无标注数据上预训练，再微调。数据效率高，泛化能力强。

无监督学习

不需要干净语音作为目标，学习噪声模式。适合实际部署场景。

处理域

频域方法

在STFT域处理，学习频谱掩蔽或映射。计算效率高，是主流方法。

时域方法

直接处理波形，端到端学习。避免相位问题，但模型更复杂。

时频联合

结合时域和频域的优势，当前最佳方法。

主流模型

DCCRN

深度复数卷积循环网络，处理复数频谱。

• 复数卷积保留相位信息
• ConvLSTM建模时序依赖
• DNS Challenge冠军方案

DTLN

双信号变换LSTM网络，轻量实时。

• 双阶段处理：频域掩蔽 + 时域映射
• 参数量小（约1MB）
• 适合边缘部署

RNNoise

基于GRU的轻量降噪，开源可用。

• 传统特征 + 神经网络混合
• CPU实时运行
• 广泛应用于实时通信

FullSubNet

全带和子带融合网络。

• 全带建模全局依赖
• 子带建模局部细节
• 复数掩蔽输出

Conv-TasNet变体

时域端到端降噪，适合语音分离场景复用。

实时降噪

实时降噪需要平衡效果和延迟，广泛用于语音通话和直播。

延迟要求

场景	可接受延迟	挑战
实时通话	< 50ms	极高实时性
直播	< 200ms	实时+质量
录音后处理	无限制	追求最高质量

实时优化策略

流式处理

使用因果模型，不依赖未来帧。帧长通常20ms。

模型压缩

知识蒸馏、量化、剪枝减小模型大小和计算量。

硬件加速

GPU、DSP、NPU加速推理，降低CPU占用。

实时降噪产品

• NVIDIA RTX Voice：GPU加速，PC端
• Krisp：跨平台，订阅制
• 腾讯会议降噪：内置实时降噪
• Zoom噪音抑制：多级降噪选项
• Discord降噪：Krisp技术支持

效果评估

客观指标

指标	含义	范围
PESQ	语音质量感知评估	-0.5 ~ 4.5
STOI	短时客观可懂度	0 ~ 1
SDR	信号失真比	dB，越高越好
SI-SDR	尺度不变SDR	dB，标准指标
DNSMOS	深度学习MOS预测	1 ~ 5

主观评估

MOS（Mean Opinion Score）

• 5分：优秀，无噪声感知
• 4分：良好，轻微噪声
• 3分：一般，可接受噪声
• 2分：较差，明显噪声
• 1分：很差，不可用

工具推荐

开源工具

工具	特点	适用
RNNoise	轻量实时	实时通话
DTLN	小模型	边缘部署
DeepFilterNet	高质量	通用降噪
SpeechBrain	工具包全	研究开发

在线服务

• Adobe Podcast：免费语音增强，效果出众
• Auphonic：自动音频后处理
• Podcastle：一站式播客制作
• Cleanvoice：自动清理播客音频

← 伦理合规

音频分离 →