音频基础

理解音频技术的基础原理是掌握AI音频处理的关键,包括声学、数字信号处理和音频特征提取。

共 9 篇文章·阅读时间:约45分钟

01音频原理

音频是声音的电子表示形式,理解其物理基础有助于掌握后续的数字处理技术。

声学基础

核心概念

  • 声波:空气中的压力波,由物体振动产生
  • 频率:决定音调高低,单位Hz
  • 振幅:决定音量大小,单位dB
  • 相位:波形的起始位置

数字音频

数字化参数

  • 采样率:每秒采样次数,常见44.1kHz、48kHz
  • 位深度:每个样本的位数,常见16bit、24bit
  • 声道数:单声道、立体声、多声道
  • 比特率:单位时间数据量

音频编码

无损编码

WAV、FLAC、ALAC
保留完整音频信息,文件较大

有损编码

MP3、AAC、OGG
压缩音频数据,文件较小,有一定质量损失

02音频特征

音频特征提取是AI音频处理的核心环节,决定了模型对音频的理解能力。

时域特征

常用特征

  • 能量:信号的平方和
  • 过零率:信号穿过零点的次数
  • 自相关:信号的周期性特征
  • 包络:信号的幅度变化

频域特征

核心特征

  • 频谱:FFT变换后的频率分布
  • 频谱质心:频谱的"重心"
  • 频谱带宽:频谱的分散程度
  • 频谱对比度:峰值与谷值的差异

梅尔频谱

梅尔尺度

梅尔频谱模拟人耳对频率的感知,低频分辨率高、高频分辨率低。
梅尔频率倒谱系数(MFCC)是语音识别的经典特征。

03音频处理

音频处理技术包括信号处理、降噪和音频增强,是音频应用的基础。

处理技术

  • 信号处理:滤波、均衡、混响
  • 降噪处理:谱减法、维纳滤波、深度学习
  • 音频增强:音质提升、响度均衡
----