首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
语音情感识别在人机交互过程中发挥极为重要的作用, 近年来备受关注. 目前, 大多数的语音情感识别方法主要在单一情感数据库上进行训练和测试 . 然而, 在实际应用中训练集和测试集可能来自不同的情感数据库. 由于这种不同情感数据库的分布存在巨大差异性, 导致大多数的语音情感识别方法取得的跨库识别性能不尽人意. 为此, 近年来不少研究者开始聚焦跨库语音情感识别方法的研究. 本文系统性综述了近年来跨库语音情感识别方法的研究现状与进展, 尤其对新发展起来的深度学习技术在跨库语音情感识别中的应用进行了重点分析与归纳. 首先, 介绍了语音情感识别中常用的情感数据库, 然后结合深度学习技术, 从监督、无监督和半监督学习角度出发, 总结和比较了现有基于手工特征和深度特征的跨库语音情感识别方法的研究进展情况, 最后对当前跨库语音情感识别领域存在的挑战和机遇进行了讨论与展望.  相似文献   

2.
针对小数据集下单纯使用深度学习方法的草图特征提取可分辨性低下的问题,提出一种融合稀疏编码和深度学习的草图特征表示方法.该算法首先对草图进行语义分割;然后迁移深度学习方法,分别提取草图特征和草图部件特征,之后将部件特征降维聚类,获取聚类中心;最后利用部件聚类中心向量初始化稀疏编码中的字典,交替迭代求取获得最终的草图特征.不同于以往的草图特征表示方法,将迁移深度学习获得的草图部件特征引入到稀疏编码中,作为字典的初始基向量,将语义信息融入到稀疏编码,在提升草图特征表示性能的同时,使得稀疏表示具有更好的可解释性.实验结果显示,所提方法下的草图识别率高于采用传统非深度学习和深度学习方法提取的草图特征的草图识别率.  相似文献   

3.
针对目前稀疏表示字典学习的惩罚函数版本不一且各有优势的问题,提出基于子编码和全编码联合惩罚的稀疏表示字典学习方法,该方法在字典学习的目标函数中同时加入子编码惩罚函数和全编码惩罚函数。子编码惩罚函数使得学习后的字典在稀疏表示识别时可以用子字典的重构误差和子字典上编码系数的大小来识别,全编码惩罚函数则能直接利用整个字典上的编码系数来识别,通过联合这两个惩罚函数可以获得非常好的识别效果。为了验证所提方法的有效性,在语音情感库和人脸库上与最新的基于字典学习的稀疏表示识别方法 DKSVD和FDDL进行对比,并与著名的识别方法SVM和SRC进行比较,实验结果显示所提方法具有更好的识别性能。  相似文献   

4.
加权稀疏表示分类(WSRC)在声频传感器网络下的车辆识别中取得了不错的效果。但是稀疏表示分类(SRC)中实际上起较大作用的是字典中所有类的协同表示,因此协同表示分类(CRC)被提出用来提升算法效率,CRC框架还改进了残差计算方式来提高识别精度。在WSRC中发现保局性对提升识别率起到很好的作用,因此在CRC中引入加权编码,提出了声频传感器网络下基于加权协同表示分类(WCRC)的车辆识别方法,取得了明显的速度(相比WSRC、SRC)以及不错的精度(对比WSRC、CRC、SRC)提升。同时针对欧氏距离对样本相似性判断的不足,将曼哈顿距离引入加权编码,进一步地提出了基于曼哈顿距离加权协同表示分类(Manhattan-WCRC)的车辆识别方法,取得了最高的识别率,而运算速度与WCRC接近。  相似文献   

5.
语音情感识别任务的训练数据和测试数据往往来源于不同的数据库,二者特征空间存在明显差异,导致识别率很低。针对该问题,本文提出新的构图方法表示源和目标数据库之间的拓扑结构,利用图卷积神经网络进行跨语料库的情感识别。针对单一情感特征识别率不高的问题,提出一种新的特征融合方法。首先利用OpenSMILE提取浅层声学特征,然后利用图卷积神经网络提取深层特征。随着卷积层的不断深入,节点的特征信息被传递给其他节点,使得深层特征包含更明确的节点特征信息和更详细的语义信息,然后将浅层特征和深层特征进行特征融合。采用两组实验进行验证,第1组用eNTERFACE库训练测试Berlin库,识别率为59.4%;第2组用Berlin库训练测试eNTERFACE库,识别率为36.1%。实验结果高于基线系统和文献中最优的研究成果,证明本文提出方法的有效性。  相似文献   

6.
葛磊  强彦  赵涓涓 《软件学报》2016,27(S2):130-136
语音情感识别是人机交互中重要的研究内容,儿童自闭症干预治疗中的语音情感识别系统有助于自闭症儿童的康复,但是由于目前语音信号中的情感特征多而杂,特征提取本身就是一项具有挑战性的工作,这样不利于整个系统的识别性能.针对这一问题,提出了一种语音情感特征提取算法,利用无监督自编码网络自动学习语音信号中的情感特征,通过构建一个3层的自编码网络提取语音情感特征,把多层编码网络学习完的高层特征作为极限学习机分类器的输入进行分类,其识别率为84.14%,比传统的基于提取人为定义特征的识别方法有所提高.  相似文献   

7.
为了准确地进行SAR图像目标识别,提出一种基于稀疏表示的SAR目标识别方法,在用主成分分析(PCA)进行降维的前提下,利用降维后的训练样本构建稀疏线性模型,通过 ξ1范数最优化求解测试样本的稀疏系数解x,利用系数的稀疏性分布进行目标的分类识别。基于MSTAR数据进行了仿真验证,实验证明,基于稀疏表示的SAR目标识别方法在一定的特征维数下能够获得很好的识别性能,在目标方位角未知的情况下识别率仍可达到98%以上。  相似文献   

8.
本文提出一种基于特定人的、自适应语音情感识别方法。初始训练样本来自不同的人,随着对特定用户识别次数的增加,检测并替换模型中的异常点(即与该用户情感表达差异较大的样本),使模型逐渐向特定用户迁移,最终得到该用户的个性化模型。实验结果表明,自适应的语音情感识别方法对特定人的语音情感识别有较好的识别率。  相似文献   

9.
基于稀疏编码的时空金字塔匹配的动作识别   总被引:1,自引:0,他引:1  
针对复杂场景下的动作识别,提出一种基于稀疏编码的时空金字塔匹配的动作识别方法.通过稀疏编码的方法学习更具有判别性的码书和计算局部块(cuboids)的稀疏表示;然后基于max pooling的时空金字塔匹配进行动作分类.该方法在KTH和YouTube两大公开数据集上进行了评价,实验结果表明,与基于K-means的时空金字塔匹配方法相比,该方法提高了2%-7%左右的识别率,在复杂的视频中取得了较好的识别效果.  相似文献   

10.
为有效利用语音情感词局部特征,提出了一种融合情感词局部特征与语音语句全局特征的语音情感识别方法。该方法依赖于语音情感词典的声学特征库,提取出语音语句中是否包含情感词及情感词密度等局部特征,并与全局声学特征进行融合,再通过机器学习算法建模和识别语音情感。对比实验结果表明,融合语音情感词局部特征与全局特征的语音情感识别方法能取得更好的效果,局部特征的引入能有效提高语音情感识别准确率。  相似文献   

11.
《Advanced Robotics》2013,27(1-2):47-67
Depending on the emotion of speech, the meaning of the speech or the intention of the speaker differs. Therefore, speech emotion recognition, as well as automatic speech recognition is necessary to communicate precisely between humans and robots for human–robot interaction. In this paper, a novel feature extraction method is proposed for speech emotion recognition using separation of phoneme class. In feature extraction, the signal variation caused by different sentences usually overrides the emotion variation and it lowers the performance of emotion recognition. However, as the proposed method extracts features from speech in parts that correspond to limited ranges of the center of gravity of the spectrum (CoG) and formant frequencies, the effects of phoneme variation on features are reduced. Corresponding to the range of CoG, the obstruent sounds are discriminated from sonorant sounds. Moreover, the sonorant sounds are categorized into four classes by the resonance characteristics revealed by formant frequency. The result shows that the proposed method using 30 different speakers' corpora improves emotion recognition accuracy compared with other methods by 99% significance level. Furthermore, the proposed method was applied to extract several features including prosodic and phonetic features, and was implemented on 'Mung' robots as an emotion recognizer of users.  相似文献   

12.
针对目前基于单一脑区功能性网络层面的特征提取,文中提出稀疏组lasso-granger因果关系方法.首先从效应性脑网络层面提取不同脑区之间的因果关系作为脑电特征,分别提取受试者α,β,γ脑电波段的granger因果特征值.然后引用稀疏组lasso算法对获取的granger因果特征值进行特征筛选,获得高相关性特征子集作为情感分类特征.最后使用SVM分类器进行情感分类.此外,为了减少计算时间复杂度,使用过滤特征选择(ReliefF)算法,选取有效的脑电信号通道.实验表明,文中方法在Valence-Arousal二维情感模型上获得较高的平均情感分类准确率,分类效果优于对比的脑电特征,提取的情感脑电特征可以有效识别受试者的不同情感状态.  相似文献   

13.
殷昊  徐健  李寿山  周国栋 《计算机科学》2018,45(Z11):105-112
文本情绪识别是自然语言处理问题中的一项基本任务。该任务旨在通过分析文本判断该文本是否含有情绪。针对该任务,提出了一种基于字词融合特征的微博情绪识别方法。相对于传统方法,所提方法能够充分考虑微博语言的特点,充分利用字词融合特征提升识别性能。具体而言,首先将微博文本分别用字特征和词特征表示;然后利用LSTM模型(或双向LSTM模型)分别从字特征和词特征表示的微博文本中提取隐层特征;最后融合两组隐层特征,得到字词融合特征,从而进行情绪识别。实验结果表明,该方法能够获得更好的情绪识别性能。  相似文献   

14.
目的 多模态信息交叉检索的根本问题是多模态数据的特征表示。稀疏编码是一种有效的数据特征表示方法,但是当查询数据和被检索数据来自不同模态时,数据间存在分布差异,相似的特征可能被编码为差异显著的稀疏表示,此时传统稀疏编码便不再适用。为此,提出了一种基于稀疏编码的多模态信息交叉检索算法。方法 采用最大均值差异(MMD)以及图拉普拉斯,并将二者加入到稀疏编码的目标函数中来充分利用多模态信息进行编码,模型求解采用特征符号搜索和离散线搜索算法逐个更新稀疏编码系数。结果 在Wikipedia的文本图像对数据上进行实验,并与传统稀疏编码进行比较,实验结果表明,本文算法使交叉检索的平均准确率(MAP)提高了18.7%。结论 本文算法增强了稀疏表示的鲁棒性,提高了多模态交叉检索的准确率,更适用于对多模态数据进行特征提取,并进行进一步的操作,如交叉检索、分类等。  相似文献   

15.
为提高静脉特征提取的有效性,提出了基于稀疏编码的手背静脉识别算法。首先,在图像采集过程中,依据实时的质量评价结果对采集系统参数进行自适应调整,获取高质量静脉图像;其次,针对主观选择的特征有效性主要依赖于经验的缺陷,提出了基于稀疏编码的特征学习机制,从而获得客观优质的静脉特征。实验结果表明,基于所提算法获得的静脉特征具有较好的类间区分性与类内紧凑性,令使用该算法的系统具有较高的识别率。  相似文献   

16.
庄志豪  傅洪亮  陶华伟  杨静  谢跃  赵力 《计算机应用研究》2021,38(11):3279-3282,3348
针对不同语料库之间数据分布差异问题,提出一种基于深度自编码器子域自适应的跨库语音情感识别算法.首先,该算法采用两个深度自编码器分别获取源域和目标域表征性强的低维情感特征;然后,利用基于LMMD(local maximum mean discrepancy)的子域自适应模块,实现源域和目标域在不同低维情感类别空间中的特征分布对齐;最后,使用带标签的源域数据进行有监督地训练该模型.在eNTERFACE库为源域、Berlin库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了5.26%~19.73%;在Berlin库为源域、eNTERFACE库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了7.34%~8.18%.因此,所提方法可以有效地提取不同语料库的共有情感特征并提升了跨库语音情感识别的性能.  相似文献   

17.
18.
Speech signals and glottal signals convey speakers’ emotional state along with linguistic information. To recognize speakers’ emotions and respond to it expressively is very much important for human-machine interaction. To develop a subject independent speech emotion/stress recognition system, by identifying speaker's emotion from their voices, features from OpenSmile toolbox, higher order spectral features and feature selection algorithm, is proposed in this work. Feature selection plays an important role in overcoming the challenge of dimensionality in several applications. This paper proposes a new particle swarm optimization assisted Biogeography-based algorithm for feature selection. The simulations were conducted using Berlin Emotional Speech Database (BES), Surrey Audio-Visual Expressed Emotion Database (SAVEE), Speech under Simulated and Actual Stress (SUSAS) and also validated using eight benchmark datasets. These datasets are of different dimensions and classes. Totally eight different experiments were conducted and obtained the recognition rates in range of 90.31%–99.47% (BES database), 62.50%–78.44% (SAVEE database) and 85.83%–98.70% (SUSAS database). The obtained results convincingly prove the effectiveness of the proposed feature selection algorithm when compared to the previous works and other metaheuristic algorithms (BBO and PSO).  相似文献   

19.
针对单层稀疏编码结构对图像特征学习能力的局限性问题,提出了一个基于图像块稀疏表示的深层架构,即多层融合局部性和非负性的Laplacian稀疏编码算法(MLLSC)。对每个图像平均区域划分并进行尺度不变特征变换(SIFT)特征提取,在稀疏编码阶段,在Laplacian稀疏编码的优化函数中添加局部性和非负性,在第一层和第二层分别进行字典学习和稀疏编码,分别得到图像块级、图像级的稀疏表示,为了去除冗余特征,在进行第二层稀疏编码之前进行主成分分析(PCA)降维,最后采用多类线性支持向量机进行分类。在四个标准数据集上进行验证,实验结果表明,MLLSC方法具有高效的特征学习能力,能够捕获图像更深层次的特征信息,相对于单层结构算法准确率提高了3%~13%,相对于多层稀疏编码算法准确率提高了1%~2.3%;并对不同参数进行了对比分析,充分展现了其在图像分类中的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号