音频分离

音频分离是将混合音频分离为独立音源的技术,AI带来了革命性的突破。

预计阅读时间:45分钟·难度:中级

音频分离概述

音频分离是音频处理的经典难题,目标是从混合信号中恢复原始音源。

问题定义

给定混合信号 y = Σsᵢ,目标是估计各个源信号 sᵢ。

这是一个病态问题(ill-posed problem),因为有无穷多组解。 需要利用信号先验知识和深度学习来求解。

历史发展

传统方法(2000年前)

ICA、NMF等统计方法,效果有限,依赖强假设。

深度学习早期(2015-2019)

U-Net、Conv-TasNet等模型,效果大幅提升。

当前SOTA(2020至今)

Demucs、HTDemucs、Band-Split RNN,接近商用质量。

分离类型

按分离目标分类

类型输入输出
人声分离歌曲/混合音频人声 + 伴奏
乐器分离音乐鼓、贝斯、吉他等
说话人分离多人对话各说话人语音
音效分离混合音频语音 + 背景音效

按输入数量分类

单通道分离(Mono)

最常见的场景,只有一个混合信号。难度最高,依赖学习先验。

双通道分离(Stereo)

利用声道差异辅助分离,效果通常优于单通道。

多通道分离

使用麦克风阵列,空间信息丰富,分离效果最好。

技术方法

频域方法

频谱掩蔽

学习每个音源的时频掩蔽,应用到混合频谱上:

  • IRM:理想比值掩蔽
  • IBM:理想二值掩蔽
  • cIRM:复数比值掩蔽
频谱映射

直接学习混合频谱到目标频谱的映射,不使用掩蔽。

时域方法

波形直接分离

直接在时域处理波形,如Conv-TasNet、Demucs。 优点是避免相位重建问题。

混合域方法

结合时域和频域的优势,如Demucs同时在波形和频谱上建模。 当前最佳模型大多采用混合域架构。

主流模型

音乐分离模型

Demucs / HTDemucs

Facebook开源的混合域分离模型,当前SOTA之一。

  • • U-Net架构,编码器-解码器
  • • 时域和频域双分支
  • • HTDemucs添加Hybrid Transformer
  • • 支持4轨分离(人声、鼓、贝斯、其他)
Spleeter

Deezer开源的频域分离模型,速度快效果好。

  • • 纯频域U-Net架构
  • • 支持2/4/5轨分离
  • • 实时分离能力
Band-Split RNN (BSRNN)

按频带分割处理的RNN模型,音乐分离效果好。

语音分离模型

Conv-TasNet

时域语音分离的经典模型,开创端到端分离范式。

  • • 编码器-分离器-解码器架构
  • • 时域卷积网络(TCN)
  • • 无需STFT/ISTFT
DPRNN-TasNet

使用双路径RNN替代TCN,长序列建模更好。

SepFormer

Transformer架构的语音分离,当前最优。

模型性能对比

模型SDR (dB)速度应用
HTDemucs~9.0音乐分离
Spleeter~6.0音乐分离
SepFormer~20.0语音分离
Conv-TasNet~15.0语音分离

* SDR: Signal-to-Distortion Ratio,越高越好

技术挑战

音源重叠

多个音源在时频域重叠时,分离难度急剧增加。 相似音色乐器分离尤其困难。

相位重建

频域方法需要重建相位,相位估计不准确会影响音质。 时域方法避免了这个问题但模型更复杂。

泛化能力

模型对未见过的音乐风格或音色可能效果下降。 数据多样性和模型容量是关键。

实时处理

实时分离需要平衡质量和速度,边缘设备部署是挑战。

应用场景

KTV/卡拉OK

从原曲中提取伴奏,制作卡拉OK音轨。 人声分离技术的最大应用之一。

音乐制作

从现有音乐中采样,提取特定乐器音轨进行混音。 版权问题需要注意。

会议记录

分离不同说话人,便于转录和分析。 智能会议系统必备功能。

音频修复

从历史录音中去除不需要的声音, 如从旧电影中去除背景噪声。

听力辅助

增强语音清晰度,帮助听力障碍人士理解对话。

工具与资源

开源工具

工具功能特点
Demucs音乐分离SOTA质量
Spleeter音乐分离速度快
Asteroid语音分离工具包全
SpeechBrain语音分离综合工具

在线服务

  • LALAL.AI:高质量在线分离
  • Vocal Remover:免费在线人声分离
  • Splitter.ai:AI音乐分离
  • Moises.ai:音乐人专用分离工具

数据集

数据集内容规模
MUSDB18音乐分离基准150曲
WHAM!噪声增强版MUSDB150曲
LibriMix语音分离
WSJ0-2mix语音分离基准
----