音频基础
理解音频技术的基础原理是掌握AI音频处理的关键,包括声学、数字信号处理和音频特征提取。
共 9 篇文章·阅读时间:约45分钟
01音频原理
音频是声音的电子表示形式,理解其物理基础有助于掌握后续的数字处理技术。
声学基础
核心概念
- 声波:空气中的压力波,由物体振动产生
- 频率:决定音调高低,单位Hz
- 振幅:决定音量大小,单位dB
- 相位:波形的起始位置
数字音频
数字化参数
- 采样率:每秒采样次数,常见44.1kHz、48kHz
- 位深度:每个样本的位数,常见16bit、24bit
- 声道数:单声道、立体声、多声道
- 比特率:单位时间数据量
音频编码
无损编码
WAV、FLAC、ALAC
保留完整音频信息,文件较大
有损编码
MP3、AAC、OGG
压缩音频数据,文件较小,有一定质量损失
02音频特征
音频特征提取是AI音频处理的核心环节,决定了模型对音频的理解能力。
时域特征
常用特征
- 能量:信号的平方和
- 过零率:信号穿过零点的次数
- 自相关:信号的周期性特征
- 包络:信号的幅度变化
频域特征
核心特征
- 频谱:FFT变换后的频率分布
- 频谱质心:频谱的"重心"
- 频谱带宽:频谱的分散程度
- 频谱对比度:峰值与谷值的差异
梅尔频谱
梅尔尺度
梅尔频谱模拟人耳对频率的感知,低频分辨率高、高频分辨率低。
梅尔频率倒谱系数(MFCC)是语音识别的经典特征。
03音频处理
音频处理技术包括信号处理、降噪和音频增强,是音频应用的基础。
处理技术
- 信号处理:滤波、均衡、混响
- 降噪处理:谱减法、维纳滤波、深度学习
- 音频增强:音质提升、响度均衡