融合多特征的语音情感识别方法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

融合多特征的语音情感识别方法

作者姓名：	王怡王黎明柴玉梅

作者单位：	郑州大学信息工程学院

基金项目：	国家自然科学基金项目(U1636111)资助；

摘要：	语音情感识别已经成为下一代人机交互技术的重要组成部分，从语音信号中提取与情感相关的特征是语音情感识别的重要挑战.针对单一特征在情感识别中准确度不高的问题，该文提出了特征级-决策级融合的方法融合声学特征和语义特征进行情感识别.首先提取声学特征，包括：1)低层次手工特征集，包括基于谱相关、音质、能量、基频等相关特征，以及基于低层次特征的高级统计特征；2)DNN提取的谱相关特征的深度特征；3)CNN提取的基于Filter＿bank特征的深度特征.并且使用基于Listen-Attend-Spell(LAS)模型的语音识别模块提取语义特征.然后将声学特征中的3类特征与语义特征进行特征级融合，在确定融合特征的先后顺序时引入了构造哈夫曼树的方法.最后得到融合后特征和原始4类特征各自的情感识别结果，在结果之上进行决策级融合，使用此方法在IEMOCAP数据集中分类准确度可达76.2%.
关键词：	语音情感识别声学特征语义特征特征级-决策级融合