音频原理
音频是声音的电子表示形式,理解其物理基础和数字化原理是掌握AI音频处理的前提。
声学基础
声音是空气中的压力波,由物体振动产生。理解声学基础是音频处理的第一步。
核心概念
- 声波:空气中的压力波,由物体振动产生,通过介质传播
- 频率:决定音调高低,单位Hz,人耳可听范围20Hz-20kHz
- 振幅:决定音量大小,单位dB,反映声波能量
- 相位:波形的起始位置,影响波的叠加和干涉
- 波长:声波的空间周期,频率越高波长越短
声波传播
声波在介质中传播时会发生多种现象:
反射
声波遇到障碍物会反射,形成回声或混响。这是房间声学设计的基础。
衍射
低频声波更容易绕过障碍物,这是为什么低频声音传播更远的原因。
吸收
材料会吸收部分声波能量,不同材料对不同频率的吸收能力不同。
声音的物理特性
频率与音调
频率是声音最基本的特征,决定了我们感知的音调:
| 频率范围 | 描述 | 示例 |
|---|---|---|
| 20-60Hz | 超低频(Sub-bass) | 地震感、震撼效果 |
| 60-250Hz | 低频(Bass) | 鼓声、贝斯 |
| 250-2kHz | 中频 | 人声基频 |
| 2k-6kHz | 中高频 | 语音清晰度 |
| 6k-20kHz | 高频 | 齿音、泛音 |
振幅与响度
声压级(Sound Pressure Level, SPL)用分贝(dB)表示:
常见声压级
- • 0 dB:听觉阈值
- • 30 dB:图书馆
- • 60 dB:正常对话
- • 85 dB:长期暴露可能损伤听力
- • 100 dB:摩托车
- • 120 dB:疼痛阈值
人耳听觉
人耳对声音的感知是非线性的,这对音频编码和处理有重要影响。
等响度曲线
人耳对不同频率的敏感度不同,对中频(1-4kHz)最为敏感。 相同声压级下,低频和高频需要更大音量才能感知到相同的响度。 这就是为什么在低音量下音乐听起来"单薄"的原因。
听觉掩蔽
频域掩蔽
强音会掩蔽附近的弱音,这是MP3等有损编码的核心原理。
时域掩蔽
强音会掩蔽前后短时间内的弱音,前掩蔽约5-20ms,后掩蔽可达200ms。
双耳效应
人耳通过以下线索判断声源方位:
- • ITD:双耳时间差,低频定位主要依赖
- • ILD:双耳声级差,高频定位主要依赖
- • HRTF:头部相关传递函数,个性化空间音频
数字音频
数字音频是将模拟声波转换为数字信号的过程,是现代音频处理的基础。
模拟 vs 数字
- 模拟音频:连续的电压信号,易受干扰但温暖自然
- 数字音频:离散的数字序列,抗干扰、易于处理和存储
- 转换过程:ADC(模数转换)和DAC(数模转换)
核心参数
| 参数 | 说明 | 常见值 |
|---|---|---|
| 采样率 | 每秒采样次数 | 44.1kHz, 48kHz, 96kHz |
| 位深度 | 每个样本的位数 | 16bit, 24bit, 32bit |
| 声道数 | 音频通道数量 | 单声道、立体声、5.1 |
| 比特率 | 单位时间数据量 | 128kbps - 320kbps |
采样与量化
采样定理
奈奎斯特采样定理
为了无失真地重建信号,采样频率必须至少是信号最高频率的两倍。 例如:44.1kHz采样率可以表示最高22.05kHz的信号。
量化误差
量化是将连续幅度映射到离散级别的过程,会产生量化噪声:
16-bit量化
65536个级别,信噪比约98dB,CD音质标准。
24-bit量化
约1677万个级别,信噪比约146dB,专业录音标准。
32-bit浮点
几乎无限的动态范围,后期处理首选。
抗混叠滤波
在采样前必须滤除高于奈奎斯特频率的成分,否则会产生混叠失真。
音频编码
音频编码决定了音频文件的大小和质量。
无损编码
PCM
脉冲编码调制,最基础的数字音频表示,WAV文件的原始格式。
FLAC
无损压缩,压缩率约50-60%,开源免费,流媒体支持好。
ALAC
Apple无损编码,苹果生态原生支持。
有损编码
MP3
最流行的有损格式,利用听觉掩蔽压缩数据,320kbps接近无损。
AAC
高级音频编码,比MP3效率更高,Apple和YouTube标准格式。
Opus
最新的开源编码,语音和音乐都有出色表现,WebRTC标准。
音频格式
选择合适的音频格式需要平衡质量、大小和兼容性。
| 格式 | 类型 | 适用场景 |
|---|---|---|
| WAV | 无损 | 专业制作、音频处理 |
| FLAC | 无损压缩 | 音乐收藏、发烧友 |
| MP3 | 有损 | 通用播放、播客 |
| AAC | 有损 | 流媒体、iOS |
| Opus | 有损 | 实时通信、语音 |
| OGG | 有损 | 游戏、开源项目 |
信号类型
周期信号与非周期信号
周期信号
有固定重复模式,如正弦波、方波、锯齿波。乐器的持续音近似周期信号。
非周期信号
无固定重复模式,如噪声、语音中的辅音。需要用频谱密度描述。
确定性信号与随机信号
确定性信号
可以用数学公式精确描述,如 sin(2πft)。
随机信号
只能用统计方法描述,如白噪声、粉红噪声。
常见噪声类型
| 类型 | 频谱特性 | 应用 |
|---|---|---|
| 白噪声 | 各频率能量相等 | 测试、声学测量 |
| 粉红噪声 | 每倍频程能量相等 | 声学校准、听觉测试 |
| 棕色噪声 | 低频为主 | 放松、助眠 |