情感分类

语音情感识别（SER）技术分析语音信号中的情感信息，识别说话人的情感状态。

预计阅读时间：30分钟·难度：中级

功能概述

语音情感识别（Speech Emotion Recognition, SER）通过分析语音的声学特征判断说话人的情感状态。

核心价值

客服质检：识别客户情绪，提升服务质量
人机交互：理解用户情感，智能响应
心理健康：辅助情感状态监测
市场调研：分析消费者情感反馈

情感类别

基本情感

😊

快乐

Happy

😢

悲伤

Sad

😠

愤怒

Angry

😨

恐惧

Fear

😲

惊讶

Surprise

🤢

厌恶

Disgust

😐

中性

Neutral

维度模型

• 效价(Valence)：正面-负面情感维度
• 唤醒度(Arousal)：平静-激动维度
• 支配度(Dominance)：被动-主动维度

核心技术

声学特征提取

MFCC、语谱图、韵律特征（音高、能量、时长）。

深度学习模型

CNN、LSTM、Transformer等模型用于情感分类。

多模态融合

结合语音、文本、面部表情的多模态情感识别。

预训练模型

Wav2Vec、HuBERT等预训练模型的微调应用。

应用场景

呼叫中心

识别客户情绪，智能路由和预警。

智能座舱

根据驾驶员情绪调整交互策略。

教育评估

分析学生听课状态和情绪反应。

心理健康

辅助抑郁症等心理疾病的筛查。

技术挑战

挑战	说明
主观性	情感标注主观性强，一致性难保证
跨文化	不同文化情感表达方式不同
复杂情感	混合情感、微妙情感难以识别
数据稀缺	高质量情感语音数据难以获取

常用工具

工具/数据集	说明
pyworld	语音特征提取
opensmile	音频特征提取工具
IEMOCAP	情感语音数据集
RAVDESS	情感语音数据集

← 唤醒词检测

游戏音频 →