基于ASGRU-CNN时空双通道的语音情感识别 |
| |
引用本文: | 高鹏淇,黄鹤鸣.基于ASGRU-CNN时空双通道的语音情感识别[J].计算机仿真,2024(4):180-186. |
| |
作者姓名: | 高鹏淇 黄鹤鸣 |
| |
作者单位: | 1. 青海师范大学计算机学院;2. 藏语智能信息处理及应用国家重点实验室 |
| |
基金项目: | 国家自然科学基金(620660039);;青海省自然科学基金(2022-ZJ-925); |
| |
摘 要: | 语音情感识别是实现人机交互的关键,如何提升语音情感识别的准确率以及更有效地提取具有情感代表性的特征是语音情感识别所面临的问题之一。针对以上问题,构建了一种包含空间特征提取模块和时序特征提取模块的双通道时空语音情感识别模型ASGRU-CNN。模型总体框架由两条并行分支组成:第一分支为空间特征提取模块,由三维卷积、二维卷积及池化操作共同构成级联结构;第二分支为时序特征提取模块,由切片循环神经网络内嵌门控循环单元及注意力机制构成。模型以韵律特征及谱特征的融合特征作为输入特征,经过双分支处理后,进入全连接层进行语音情感分类。在CASIA与EMO-DB数据库上进行相关实验,并通过数据扩充增加训练样本,与其它语音情感识别模型实验结果相比,所提出的模型具有较好的鲁棒性和泛化性。
|
关 键 词: | 语音情感识别 融合特征 切片循环神经网络 注意力机制 数据扩充 |
|