音频分离
音频分离是将混合音频分离为独立音源的技术,AI带来了革命性的突破。
音频分离概述
音频分离是音频处理的经典难题,目标是从混合信号中恢复原始音源。
问题定义
给定混合信号 y = Σsᵢ,目标是估计各个源信号 sᵢ。
这是一个病态问题(ill-posed problem),因为有无穷多组解。 需要利用信号先验知识和深度学习来求解。
历史发展
传统方法(2000年前)
ICA、NMF等统计方法,效果有限,依赖强假设。
深度学习早期(2015-2019)
U-Net、Conv-TasNet等模型,效果大幅提升。
当前SOTA(2020至今)
Demucs、HTDemucs、Band-Split RNN,接近商用质量。
分离类型
按分离目标分类
| 类型 | 输入 | 输出 |
|---|---|---|
| 人声分离 | 歌曲/混合音频 | 人声 + 伴奏 |
| 乐器分离 | 音乐 | 鼓、贝斯、吉他等 |
| 说话人分离 | 多人对话 | 各说话人语音 |
| 音效分离 | 混合音频 | 语音 + 背景音效 |
按输入数量分类
单通道分离(Mono)
最常见的场景,只有一个混合信号。难度最高,依赖学习先验。
双通道分离(Stereo)
利用声道差异辅助分离,效果通常优于单通道。
多通道分离
使用麦克风阵列,空间信息丰富,分离效果最好。
技术方法
频域方法
频谱掩蔽
学习每个音源的时频掩蔽,应用到混合频谱上:
- • IRM:理想比值掩蔽
- • IBM:理想二值掩蔽
- • cIRM:复数比值掩蔽
频谱映射
直接学习混合频谱到目标频谱的映射,不使用掩蔽。
时域方法
波形直接分离
直接在时域处理波形,如Conv-TasNet、Demucs。 优点是避免相位重建问题。
混合域方法
结合时域和频域的优势,如Demucs同时在波形和频谱上建模。 当前最佳模型大多采用混合域架构。
主流模型
音乐分离模型
Demucs / HTDemucs
Facebook开源的混合域分离模型,当前SOTA之一。
- • U-Net架构,编码器-解码器
- • 时域和频域双分支
- • HTDemucs添加Hybrid Transformer
- • 支持4轨分离(人声、鼓、贝斯、其他)
Spleeter
Deezer开源的频域分离模型,速度快效果好。
- • 纯频域U-Net架构
- • 支持2/4/5轨分离
- • 实时分离能力
Band-Split RNN (BSRNN)
按频带分割处理的RNN模型,音乐分离效果好。
语音分离模型
Conv-TasNet
时域语音分离的经典模型,开创端到端分离范式。
- • 编码器-分离器-解码器架构
- • 时域卷积网络(TCN)
- • 无需STFT/ISTFT
DPRNN-TasNet
使用双路径RNN替代TCN,长序列建模更好。
SepFormer
Transformer架构的语音分离,当前最优。
模型性能对比
| 模型 | SDR (dB) | 速度 | 应用 |
|---|---|---|---|
| HTDemucs | ~9.0 | 中 | 音乐分离 |
| Spleeter | ~6.0 | 快 | 音乐分离 |
| SepFormer | ~20.0 | 快 | 语音分离 |
| Conv-TasNet | ~15.0 | 快 | 语音分离 |
* SDR: Signal-to-Distortion Ratio,越高越好
技术挑战
音源重叠
多个音源在时频域重叠时,分离难度急剧增加。 相似音色乐器分离尤其困难。
相位重建
频域方法需要重建相位,相位估计不准确会影响音质。 时域方法避免了这个问题但模型更复杂。
泛化能力
模型对未见过的音乐风格或音色可能效果下降。 数据多样性和模型容量是关键。
实时处理
实时分离需要平衡质量和速度,边缘设备部署是挑战。
应用场景
KTV/卡拉OK
从原曲中提取伴奏,制作卡拉OK音轨。 人声分离技术的最大应用之一。
音乐制作
从现有音乐中采样,提取特定乐器音轨进行混音。 版权问题需要注意。
会议记录
分离不同说话人,便于转录和分析。 智能会议系统必备功能。
音频修复
从历史录音中去除不需要的声音, 如从旧电影中去除背景噪声。
听力辅助
增强语音清晰度,帮助听力障碍人士理解对话。
工具与资源
开源工具
| 工具 | 功能 | 特点 |
|---|---|---|
| Demucs | 音乐分离 | SOTA质量 |
| Spleeter | 音乐分离 | 速度快 |
| Asteroid | 语音分离 | 工具包全 |
| SpeechBrain | 语音分离 | 综合工具 |
在线服务
- • LALAL.AI:高质量在线分离
- • Vocal Remover:免费在线人声分离
- • Splitter.ai:AI音乐分离
- • Moises.ai:音乐人专用分离工具
数据集
| 数据集 | 内容 | 规模 |
|---|---|---|
| MUSDB18 | 音乐分离基准 | 150曲 |
| WHAM! | 噪声增强版MUSDB | 150曲 |
| LibriMix | 语音分离 | 大 |
| WSJ0-2mix | 语音分离基准 | 中 |