音频原理

音频是声音的电子表示形式,理解其物理基础和数字化原理是掌握AI音频处理的前提。

预计阅读时间:45分钟·难度:入门

声学基础

声音是空气中的压力波,由物体振动产生。理解声学基础是音频处理的第一步。

核心概念

  • 声波:空气中的压力波,由物体振动产生,通过介质传播
  • 频率:决定音调高低,单位Hz,人耳可听范围20Hz-20kHz
  • 振幅:决定音量大小,单位dB,反映声波能量
  • 相位:波形的起始位置,影响波的叠加和干涉
  • 波长:声波的空间周期,频率越高波长越短

声波传播

声波在介质中传播时会发生多种现象:

反射

声波遇到障碍物会反射,形成回声或混响。这是房间声学设计的基础。

衍射

低频声波更容易绕过障碍物,这是为什么低频声音传播更远的原因。

吸收

材料会吸收部分声波能量,不同材料对不同频率的吸收能力不同。

声音的物理特性

频率与音调

频率是声音最基本的特征,决定了我们感知的音调:

频率范围描述示例
20-60Hz超低频(Sub-bass)地震感、震撼效果
60-250Hz低频(Bass)鼓声、贝斯
250-2kHz中频人声基频
2k-6kHz中高频语音清晰度
6k-20kHz高频齿音、泛音

振幅与响度

声压级(Sound Pressure Level, SPL)用分贝(dB)表示:

常见声压级

  • • 0 dB:听觉阈值
  • • 30 dB:图书馆
  • • 60 dB:正常对话
  • • 85 dB:长期暴露可能损伤听力
  • • 100 dB:摩托车
  • • 120 dB:疼痛阈值

人耳听觉

人耳对声音的感知是非线性的,这对音频编码和处理有重要影响。

等响度曲线

人耳对不同频率的敏感度不同,对中频(1-4kHz)最为敏感。 相同声压级下,低频和高频需要更大音量才能感知到相同的响度。 这就是为什么在低音量下音乐听起来"单薄"的原因。

听觉掩蔽

频域掩蔽

强音会掩蔽附近的弱音,这是MP3等有损编码的核心原理。

时域掩蔽

强音会掩蔽前后短时间内的弱音,前掩蔽约5-20ms,后掩蔽可达200ms。

双耳效应

人耳通过以下线索判断声源方位:

  • ITD:双耳时间差,低频定位主要依赖
  • ILD:双耳声级差,高频定位主要依赖
  • HRTF:头部相关传递函数,个性化空间音频

数字音频

数字音频是将模拟声波转换为数字信号的过程,是现代音频处理的基础。

模拟 vs 数字

  • 模拟音频:连续的电压信号,易受干扰但温暖自然
  • 数字音频:离散的数字序列,抗干扰、易于处理和存储
  • 转换过程:ADC(模数转换)和DAC(数模转换)

核心参数

参数说明常见值
采样率每秒采样次数44.1kHz, 48kHz, 96kHz
位深度每个样本的位数16bit, 24bit, 32bit
声道数音频通道数量单声道、立体声、5.1
比特率单位时间数据量128kbps - 320kbps

采样与量化

采样定理

奈奎斯特采样定理

为了无失真地重建信号,采样频率必须至少是信号最高频率的两倍。 例如:44.1kHz采样率可以表示最高22.05kHz的信号。

量化误差

量化是将连续幅度映射到离散级别的过程,会产生量化噪声:

16-bit量化

65536个级别,信噪比约98dB,CD音质标准。

24-bit量化

约1677万个级别,信噪比约146dB,专业录音标准。

32-bit浮点

几乎无限的动态范围,后期处理首选。

抗混叠滤波

在采样前必须滤除高于奈奎斯特频率的成分,否则会产生混叠失真。

音频编码

音频编码决定了音频文件的大小和质量。

无损编码

PCM

脉冲编码调制,最基础的数字音频表示,WAV文件的原始格式。

FLAC

无损压缩,压缩率约50-60%,开源免费,流媒体支持好。

ALAC

Apple无损编码,苹果生态原生支持。

有损编码

MP3

最流行的有损格式,利用听觉掩蔽压缩数据,320kbps接近无损。

AAC

高级音频编码,比MP3效率更高,Apple和YouTube标准格式。

Opus

最新的开源编码,语音和音乐都有出色表现,WebRTC标准。

音频格式

选择合适的音频格式需要平衡质量、大小和兼容性。

格式类型适用场景
WAV无损专业制作、音频处理
FLAC无损压缩音乐收藏、发烧友
MP3有损通用播放、播客
AAC有损流媒体、iOS
Opus有损实时通信、语音
OGG有损游戏、开源项目

信号类型

周期信号与非周期信号

周期信号

有固定重复模式,如正弦波、方波、锯齿波。乐器的持续音近似周期信号。

非周期信号

无固定重复模式,如噪声、语音中的辅音。需要用频谱密度描述。

确定性信号与随机信号

确定性信号

可以用数学公式精确描述,如 sin(2πft)。

随机信号

只能用统计方法描述,如白噪声、粉红噪声。

常见噪声类型

类型频谱特性应用
白噪声各频率能量相等测试、声学测量
粉红噪声每倍频程能量相等声学校准、听觉测试
棕色噪声低频为主放松、助眠
----