首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 46 毫秒
1.
从人类自然语言中提取和准确分类语音中的情感状态一直是人机交互的一个难点,同时相关研究在人工智能领域发挥着至关重要的作用.为了使语音情感识别系统有更好的鲁棒性,本文提出新的语音情感识别算法结构,主要包括PZCPA特征的提取方法,并且使用该特征进行基于深度学习的时域和频域特征融合,最后使用KNN进行语音情感识别.该算法在德...  相似文献   

2.
基于特征空间分解与融合的语音情感识别   总被引:1,自引:0,他引:1  
黄程韦  金赟  王青云  赵艳  赵力 《信号处理》2010,26(6):835-842
提出了一种语音情感识别中特征空间的优化方法。针对情感类别两两之间的区分度,优化了情感对各自的特征空间,考察了多类分类器分解为两类分类器的方法,采用置信度判决融合的方法进行两类分类器组的重组,实验中比较了单个多类分类器和两类分类器组的识别性能。结果表明,在同等条件下性能提升了8个百分点以上,对多类分类器进行分解,优化每个情感对各自的特征空间,并进行融合的方法适合语音情感识别,对特征空间的优化效果显著。   相似文献   

3.
韩文静  李海峰  马琳 《信号处理》2011,27(11):1658-1663
维度语音情感识别(Dim-SER)是情感计算领域的一个新兴分支,它从多维、连续的角度看待情感,将SER问题建模为连续值的预测回归任务。当前的Dim-SER系统在进行情感预测时缺少对语料间情感程度相对顺序的考虑,严重影响了人机交互系统对说话人情感变化趋势的把握。从该需求出发,本文以人类情感认知特性为参照,构建了一个对情感程度相对顺序敏感的Dim-SER系统,并引入Gamma统计对SER系统性能评价标准加以完善。系统构建过程中,本文构造了Top-rank概率分布对语料间的情感顺序进行描述,并使用Kullback-Leibler距离对预测造成的顺序一致性损失进行度量,最后提出顺序敏感的神经网络算法实现系统预测损失的最小化。情感预测实验结果表明,同常用的k近邻算法和支持向量回归算法相比,该系统有效地提高了语料间情感程度相对顺序的正确性。   相似文献   

4.
语音情感识别是人工智能的重要研究领域之一,特征参数提取的准确性直接影响识别的效果。分析了发音持续时间、平均振幅、基音频率,第一共振峰和Mel频率倒谱参数,并基于模糊熵理论提取了各参数的权重。再利用模糊熵进行有效的度量融合.最后通过改进后综合判决对情感语句做出识别判定。研究发现融合后的参数增强了情感识别的效果。  相似文献   

5.
为提高智能语音情感识别系统的准确性,提出了一种基于卷积神经网络CNN(Convolution Neural Network)特征表征的语音情感识别模型,该卷积模型以 Lenet-5模型为基础,增加了一层卷积层和池化层,并将二维卷积核改为一维卷积核,将一维特征预处理后,输送进该模型中,对特征变换表征。最后利用SoftMax分类器实现情感分类,CASIA与 EMO-DB开数据库上的识别结果显示:与Lenet-5网络相比,所设计网络模型的准确率分别提升了1.3%与2%,与SoftMax分类器相比,准确率分别提升了3.8%与6.1%,仿真结果验证了网络模型的有效性。  相似文献   

6.
近年来,情感识别成为了人机交互领域的研究热点问题,而多模态维度情感识别能够检测出细微情感变化,得到了越来越多的关注多模态维度情感识别中需要考虑如何进行不同模态情感信息的有效融合.针对特征层融合存在有效特征提取和模态同步的问题、决策层融合存在不同模态特征信息的关联问题,本文采用模型层融合策略,提出了基于多头注意力机制的多...  相似文献   

7.
藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机(SVM)、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集(TBSEC001)上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。  相似文献   

8.
语音情感识别的主要目的是对语音信号按照不同的情感进行分类,比如生气、恐惧、厌恶、高兴等,探究语音情感识别的任务,使用的方法是在小的语音区间上计算的一系列声学特征训练的深度递归神经网络。同时,使用CTC损失函数考虑到了同时包含情绪化和中性成分的长话语,在IEMOCAAP语料库上设置对照实验,验证了该方法的高性能。  相似文献   

9.
语音信号中情感特征的分析和识别   总被引:5,自引:0,他引:5  
余华  王治平  赵力 《电声技术》2004,(3):30-34,38
随着信息技术的发展,对人机交互能力的要求不断提高,情感信息处理已成为提高人机交互能力的一个重要课题。文中介绍了近年来国内外在语音信号中的情感特征分析和识别的研究概况,讨论了存在的一些问题和今后需要进一步研究的课题。  相似文献   

10.
黄程韦  金赟  包永强  余华  赵力 《信号处理》2013,29(1):98-106
本文中我们提出了一种将高斯混合模型同马尔可夫网络结合的时域多尺度语音情感识别框架,并将其应用在耳语音情感识别中。针对连续语音信号的特点,分别在耳语音信号的短句尺度上和长句尺度上进行了基于高斯混合模型的情感识别。根据情绪的维度空间论,耳语音信号中的情感信息具有时间上的连续性,因此利用三阶的马尔可夫网络对多尺度的耳语音情感分析进行了上下文的情感依赖关系的建模。采用了一种弹簧模型来定义二维情感维度空间中的高阶形变,并且利用模糊熵评价将高斯混合模型的似然度转化为马尔可夫网络中的一阶能量。实验结果显示,本文提出的情感识别算法在连续耳语音数据上获得了较好的识别结果,对愤怒的识别率达到了64.3%。实验结果进一步显示,与正常音的研究结论不同,耳语音中的喜悦情感的识别相对困难,而愤怒与悲伤之间的区分度较高,与Cirillo等人进行的人耳听辨研究结果一致。   相似文献   

11.
基于多粒度特征融合网络的行人重识别   总被引:2,自引:0,他引:2  
匡澄  陈莹 《电子学报》2021,49(8):1541-1550
行人重识别旨在跨监控设备下检索出特定的行人目标.为捕捉行人图像的多粒度特征进而提高识别精度,基于OSNet基准网络提出一种多粒度特征融合网络(Multi-granularity Feature Fusion Network for Person Re-Identi-fication,MFN)进行端对端的学习.MFN由全...  相似文献   

12.
实用语音情感的特征分析与识别的研究   总被引:2,自引:0,他引:2  
 该文针对语音情感识别在实际中的应用,研究了烦躁等实用语音情感的分析与识别。通过计算机游戏诱发的方式采集了高自然度的语音情感数据,提取了74种情感特征,分析了韵律特征、音质特征与情感维度之间的关系,对烦躁等实用语音情感的声学特征进行了评价与选择,提出了针对实际应用环境的可拒判的实用语音情感识别方法。实验结果表明,文中采用的语音情感特征,能较好识别烦躁等实用语音情感,平均识别率达到75%以上。可拒判的实用语音情感识别方法,对模糊的和未知的情感类别的分类进行了合理的决策,在语音情感的实际应用中具有重要的意义。  相似文献   

13.
语音情感识别是利用计算机建立语音信息载体与情感度量之间的关系,并赋予计算机识别、理解人类情感的能力,语音情感识别在人机交互中起着重要作用,是人工智能领域重要发展方向。本文从语音情感识别在国内外发展历史以及开展的一系列会议、期刊和竞赛入手,分别从6个方面对语音情感识别的研究现状进行了梳理与归纳:首先,针对情感表达从离散、维度模型进行了阐述;其次,针对现有的情感数据库进行了统计与总结;然后,回顾了近20年部分代表性语音情感识别发展历程,并分别阐述了基于人工设计的语音情感特征的情感识别技术和基于端到端的语音情感识别技术;在此基础之上,总结了近几年的语音情感识别性能,尤其是近两年在语音领域的重要会议和期刊上的语音情感识别相关工作;介绍了语音情感识别在驾驶、智能交互领域、医疗健康,安全等领域的应用;最后,总结与阐述了语音情感识别领域仍面临的挑战与未来发展方向。本文旨在对语音情感识别相关工作进行深入分析与总结,为语音情感识别相关研究者提供有价值的参考。  相似文献   

14.
赵子平  高天  王欢 《信号处理》2023,39(4):667-677
为提升人机交互时的用户体验以及满足多元化用途的需求,交互设备正逐步引入情感智能技术,其中,实现产业和技术有效融合的前提是可以对人类情感状态进行正确的识别,然而,这仍然是一个具有挑战性的话题。随着多媒体时代的快速发展,越来越多可利用的模态信息便逐步被应用到情感识别系统中。因此,本文提出一种基于特征蒸馏的多模态情感识别模型。考虑到情感表达往往与音频信号的全局信息密切相关,提出了适应性全局卷积(Adaptive Global Convolution, AGC)来提升有效感受野的范围,特征图重要性分析(Feature Map Importance Analysis,FMIA)模块进一步强化情感关键特征。音频亲和度融合(Audio Affinity Fusion, AAF)模块通过音频-文本模态间的内在相关性建模亲和度融合权重,使两种模态的情感信息得到有效融合。此外,为了提升模型泛化能力,有效利用教师模型中概率分布所携带的隐藏知识,帮助学生模型获取更高级别的语义特征,提出了在多模态模型上使用特征蒸馏。最后,在交互式情感二元动作捕捉(Interactive Emotional Dyadic Mot...  相似文献   

15.
邵洁  汪伟鸣 《电视技术》2018,(1):73-76,83
为了从视频数据判断人的情绪,首先提取视频数据中的时空特征,并用其表征情绪特征,然后分别用典型相关分析算法和稀疏保持典型相关分析算法融合面部情绪特征和肢体动作情绪特征,最后用最近邻分类和支持向量机分类分别对情绪分类识别.实验结果表明,稀疏保持典型相关分析融合算法优于典型相关分析融合算法,能得到90.48%的情绪识别率.  相似文献   

16.
针对实际情况下训练和测试数据来自不同领域数据库导致识别性能下降的问题,提出了一种基于迁移判别回归的跨域语音情感识别方法。首先,引入最大均值差异和图拉普拉斯项作为域间联合距离度量,在减小概率分布差异的同时,很好地保留数据的局部几何结构,从而学习到一个可迁移的公共特征表示。其次,本文采用一种能量保持策略,以避免迁移过程中目标域信息的丢失。此外,通过引入判别回归项,利用已标记的源域样本在公共子空间中训练一个可迁移的判别回归模型。最后,为了使学习到的模型具有特征选择能力和鲁棒性,分别对投影矩阵和回归项施加L2,1范数约束。在3个公开数据集上的实验结果表明,本文提出的算法相较于其他几种迁移学习方法具有更好的识别性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号