音频分离

音频分离是将混合音频分离为独立音源的技术，AI带来了革命性的突破。

预计阅读时间：45分钟·难度：中级

音频分离概述

音频分离是音频处理的经典难题，目标是从混合信号中恢复原始音源。

问题定义

给定混合信号 y = Σsᵢ，目标是估计各个源信号 sᵢ。

这是一个病态问题（ill-posed problem），因为有无穷多组解。需要利用信号先验知识和深度学习来求解。

历史发展

传统方法（2000年前）

ICA、NMF等统计方法，效果有限，依赖强假设。

深度学习早期（2015-2019）

U-Net、Conv-TasNet等模型，效果大幅提升。

当前SOTA（2020至今）

Demucs、HTDemucs、Band-Split RNN，接近商用质量。

分离类型

按分离目标分类

类型	输入	输出
人声分离	歌曲/混合音频	人声 + 伴奏
乐器分离	音乐	鼓、贝斯、吉他等
说话人分离	多人对话	各说话人语音
音效分离	混合音频	语音 + 背景音效

按输入数量分类

单通道分离（Mono）

最常见的场景，只有一个混合信号。难度最高，依赖学习先验。

双通道分离（Stereo）

利用声道差异辅助分离，效果通常优于单通道。

多通道分离

使用麦克风阵列，空间信息丰富，分离效果最好。

技术方法

频域方法

频谱掩蔽

学习每个音源的时频掩蔽，应用到混合频谱上：

• IRM：理想比值掩蔽
• IBM：理想二值掩蔽
• cIRM：复数比值掩蔽

频谱映射

直接学习混合频谱到目标频谱的映射，不使用掩蔽。

时域方法

波形直接分离

直接在时域处理波形，如Conv-TasNet、Demucs。优点是避免相位重建问题。

混合域方法

结合时域和频域的优势，如Demucs同时在波形和频谱上建模。当前最佳模型大多采用混合域架构。

主流模型

音乐分离模型

Demucs / HTDemucs

Facebook开源的混合域分离模型，当前SOTA之一。

• U-Net架构，编码器-解码器
• 时域和频域双分支
• HTDemucs添加Hybrid Transformer
• 支持4轨分离（人声、鼓、贝斯、其他）

Spleeter

Deezer开源的频域分离模型，速度快效果好。

• 纯频域U-Net架构
• 支持2/4/5轨分离
• 实时分离能力

Band-Split RNN (BSRNN)

按频带分割处理的RNN模型，音乐分离效果好。

语音分离模型

Conv-TasNet

时域语音分离的经典模型，开创端到端分离范式。

• 编码器-分离器-解码器架构
• 时域卷积网络（TCN）
• 无需STFT/ISTFT

DPRNN-TasNet

使用双路径RNN替代TCN，长序列建模更好。

SepFormer

Transformer架构的语音分离，当前最优。

模型性能对比

模型	SDR (dB)	速度	应用
HTDemucs	~9.0	中	音乐分离
Spleeter	~6.0	快	音乐分离
SepFormer	~20.0	快	语音分离
Conv-TasNet	~15.0	快	语音分离

* SDR: Signal-to-Distortion Ratio，越高越好

技术挑战

音源重叠

多个音源在时频域重叠时，分离难度急剧增加。相似音色乐器分离尤其困难。

相位重建

频域方法需要重建相位，相位估计不准确会影响音质。时域方法避免了这个问题但模型更复杂。

泛化能力

模型对未见过的音乐风格或音色可能效果下降。数据多样性和模型容量是关键。

实时处理

实时分离需要平衡质量和速度，边缘设备部署是挑战。

应用场景

KTV/卡拉OK

从原曲中提取伴奏，制作卡拉OK音轨。人声分离技术的最大应用之一。

音乐制作

从现有音乐中采样，提取特定乐器音轨进行混音。版权问题需要注意。

会议记录

分离不同说话人，便于转录和分析。智能会议系统必备功能。

音频修复

从历史录音中去除不需要的声音，如从旧电影中去除背景噪声。

听力辅助

增强语音清晰度，帮助听力障碍人士理解对话。

工具与资源

开源工具

工具	功能	特点
Demucs	音乐分离	SOTA质量
Spleeter	音乐分离	速度快
Asteroid	语音分离	工具包全
SpeechBrain	语音分离	综合工具

在线服务

• LALAL.AI：高质量在线分离
• Vocal Remover：免费在线人声分离
• Splitter.ai：AI音乐分离
• Moises.ai：音乐人专用分离工具

数据集

数据集	内容	规模
MUSDB18	音乐分离基准	150曲
WHAM!	噪声增强版MUSDB	150曲
LibriMix	语音分离	大
WSJ0-2mix	语音分离基准	中

← 音频降噪

音频增强 →