首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
语音情感识别研究进展*   总被引:5,自引:1,他引:4  
首先介绍了语音情感识别系统的组成,重点对情感特征和识别算法的研究现状进行了综述,分析了主要的语音情感特征,阐述了代表性的语音情感识别算法以及混合模型,并对其进行了分析比较。最后,指出了语音情感识别技术的可能发展趋势。  相似文献   

2.
汉语语音识别中的区分性声调建模方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出从特征提取参数、模型参数对隐马尔可夫声调模型进行区分型训练,来提高声调识别率;提出模型相关的权重对谱特征模型和声调模型的概率进行加权,并根据最小音子错误区分性目标函数对权重进行训练,来提高声调模型加入连续语音识别时的性能。声调识别实验表明区分性的声调模型训练以及特征提取方法显著提高了声调识别率。区分性模型权重训练能够在声调模型加入之后进一步连续语音识别系统的识别率。  相似文献   

3.
为增强不同情感特征的融合程度和语音情感识别模型的鲁棒性,提出一种神经网络结构DBM-LSTM用于语音情感识别。利用深度受限玻尔兹曼机的特征重构原理将不同的情感特征进行融合;利用长短时记忆单元对短时特征进行长时建模,增强语音情感识别模型的鲁棒性;在柏林情感语音数据库上进行分类实验。研究结果表明,与传统识别模型相比,DBM-LSTM网络结构更适用于多特征语音情感识别任务,最优识别结果提升11%。  相似文献   

4.
Recently, increasing attention has been directed to the study of the emotional content of speech signals, and hence, many systems have been proposed to identify the emotional content of a spoken utterance. This paper is a survey of speech emotion classification addressing three important aspects of the design of a speech emotion recognition system. The first one is the choice of suitable features for speech representation. The second issue is the design of an appropriate classification scheme and the third issue is the proper preparation of an emotional speech database for evaluating system performance. Conclusions about the performance and limitations of current speech emotion recognition systems are discussed in the last section of this survey. This section also suggests possible ways of improving speech emotion recognition systems.  相似文献   

5.
汉语语音识别中基频特征的直接声学建模方法   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了隐条件随机场对断续基音频率序列进行直接声学建模的方法,该方法针对汉语语音中基频值在清音段连续,浊音段断续的特点,根据隐条件随机场区别于隐马尔可夫模型的重要特性——无需对观察值采用统一的建模方式,直接对不连续基频值与连续谱特征观察值一起进行声学建模。大词汇语音库上的汉语带调音节分类实验表明,隐条件随机场下对断续基音频率序列的直接建模较使用清音段人工平滑基频特征的识别率有明显的提高,还给出了与不同区分性准则训练的隐马尔可夫声学模型的实验性能的比较。  相似文献   

6.
针对语音信号的实时性和不确定性,提出证据信任度信息熵和动态先验权重的方法,对传统D-S证据理论的基本概率分配函数进行改进;针对情感特征在语音情感识别中对不同的情感状态具有不同的识别效果,提出对语音情感特征进行分类。利用各类情感特征的识别结果,应用改进的D-S证据理论进行决策级数据融合,实现基于多类情感特征的语音情感识别,以达到细粒度的语音情感识别。最后通过算例验证了改进算法的迅速收敛和抗干扰性,对比实验结果证明了分类情感特征语音情感识别方法的有效性和稳定性。  相似文献   

7.
语音情感识别是近年来新兴的研究课题之一,特征参数的提取直接影响到最终的识别效率,特征降维可以提取出最能区分不同情感的特征参数。提出了特征参数在语音情感识别中的重要性,介绍了语音情感识别系统的基本组成,重点对特征参数的研究现状进行了综述,阐述了目前应用于情感识别的特征降维常用方法,并对其进行了分析比较。展望了语音情感识别的可能发展趋势。  相似文献   

8.
情感识别在人机交互中具有重要意义,为了提高情感识别准确率,将语音与文本特征融合。语音特征采用了声学特征和韵律特征,文本特征采用了基于情感词典的词袋特征(Bag-of-words,BoW)和N-gram模型。将语音与文本特征分别进行特征层融合与决策层融合,比较它们在IEMOCAP四类情感识别的效果。实验表明,语音与文本特征融合比单一特征在情感识别中表现更好;决策层融合比在特征层融合识别效果好。且基于卷积神经网络(Convolutional neural network,CNN)分类器,语音与文本特征在决策层融合中不加权平均召回率(Unweighted average recall,UAR)达到了68.98%,超过了此前在IEMOCAP数据集上的最好结果。  相似文献   

9.
为了提高语音情感识别系统的识别准确率,本文在传统支持向量机(SVM)方法的基础之上,提出了一种基于PCA的多级SVM情感分类算法。首先将容易区分的情感分开,针对混淆度大且不能再利用多级分类策略直接进行区分的情感,采用主成分分析法(PCA)进行特征降维,然后逐级地判断出输入语音所属的情感类型。与传统基于SVM分类算法的语音情感识别相比,本文提出的方法可将7种情感的平均识别率提高5.05%,并且特征维度可降低58.3%,从而证明了本文所提出的方法的正确性与有效性。  相似文献   

10.
随着互联网的蓬勃发展,微博受到了越来越多用户的青睐,对微博用户性别的研究也逐渐成为学术界研究的热点。目前,对英文微博文本用户的性别识别已有研究,但针对中文微博用户性别识别的研究较少。从两性表达情绪的差异出发,提出了一种基于情绪特征的中文微博用户性别识别方法。本文考虑的情绪特征包括情绪词特征和与情绪相关的语言风格特征。实验结果表明,利用情绪特征提高了用户性别识别的精度。  相似文献   

11.
语音信号转换到频域后维数较高,流行学习方法可以自主发现高维数据中潜在低维结构的规律性,提出采用流形学习的方法对高维数据降维来进行汉语数字语音识别。采用流形学习中的局部线性嵌入算法提取语音频域上高维数据的低维流形结构特征,再将低维数据输入动态时间规整识别器进行识别。仿真实验结果表明,采用局部线性嵌入算法的汉语数字语音识别相较于常用声学特征MFCC维数要少,识别率提高了1.2%,有效提高了识别速度。  相似文献   

12.
由于人类情感的表达受文化和社会的影响,不同语言语音情感的特征差异较大,导致单一语言语音情感识别模型泛化能力不足。针对该问题,提出了一种基于多任务注意力的多语言语音情感识别方法。通过引入语言种类识别辅助任务,模型在学习不同语言共享情感特征的同时也能学习各语言独有的情感特性,从而提升多语言情感识别模型的多语言情感泛化能力。在两种语言的维度情感语料库上的实验表明,所提方法相比于基准方法在Valence和Arousal任务上的相对UAR均值分别提升了3.66%~5.58%和1.27%~6.51%;在四种语言的离散情感语料库上的实验表明,所提方法的相对UAR均值相比于基准方法提升了13.43%~15.75%。因此,提出的方法可以有效地抽取语言相关的情感特征并提升多语言情感识别的性能。  相似文献   

13.
基于神经网络的语音情感识别   总被引:4,自引:1,他引:3       下载免费PDF全文
研究目的就是通过深入分析各种语音情感特征,找出其中对情感识别有较大贡献的特征,并寻找适合的模型将有效特征加以利用。分析和研究了多位科学家在进行语音情感分析过程中采用的方法和技术,通过总结和创新建立了语音情感语料库,并成功地提取了相关的语音信号的特征。研究了基音频率、振幅能量和共振峰等目前常用的情感特征在语音情感识别中的作用,重点研究了MFCC和?驻MFCC,实验发现特征筛选后系统的识别效果有着一定程度的提高。将处理后的频谱特征参数同原有的BP人工神经网络模型有效地结合起来,形成完整的语音情感识别系统,取得了较为满意的识别结果。  相似文献   

14.
庄志豪  傅洪亮  陶华伟  杨静  谢跃  赵力 《计算机应用研究》2021,38(11):3279-3282,3348
针对不同语料库之间数据分布差异问题,提出一种基于深度自编码器子域自适应的跨库语音情感识别算法.首先,该算法采用两个深度自编码器分别获取源域和目标域表征性强的低维情感特征;然后,利用基于LMMD(local maximum mean discrepancy)的子域自适应模块,实现源域和目标域在不同低维情感类别空间中的特征分布对齐;最后,使用带标签的源域数据进行有监督地训练该模型.在eNTERFACE库为源域、Berlin库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了5.26%~19.73%;在Berlin库为源域、eNTERFACE库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了7.34%~8.18%.因此,所提方法可以有效地提取不同语料库的共有情感特征并提升了跨库语音情感识别的性能.  相似文献   

15.
模糊认知图(Fuzzy Cognitive Map,FCM)作为一种图分析方法已在数据分类方面得到应用,为了提高其在语音情感识别中的分类精度,提出了融合FCM的方法。其中包括特征级融合和决策级融合两种方式。详细分析了这两种方式并提出将传统的模糊认知图的数值型输出转化为概率型输出,为不同特征提供了统一范围的初级识别结果。在此基础上,提出了自适应权值决策级融合方法。该方法充分考虑了分类器对不同特征的识别准确率差异。实验证明,提出的融合FCM方法相较于单一特征和单一分类器,具有更优的分类性能,同时大大降低了情感间的混淆程度。  相似文献   

16.
情感特征的提取是语音情感识别的重要方面。由于传统信号处理方法的局限,使得提取的传统声学特征特别是频域特征并不准确,不能很好地表征语音的情感特性,因而对情感识别率不高。利用希尔伯特黄变换(HHT)对情感语音进行处理,得到情感语音的希尔伯特边际能量谱;通过对不同情感语音的边际能量谱基于Mel尺度的比较分析,提出了一组新的情感特征:Mel频率边际能量系数(MFEC)、Mel频率子带频谱质心(MSSC)、Mel频率子带频谱平坦度(MSSF);利用支持向量机(SVM)对5种情感语音即悲伤、高兴、厌倦、愤怒和平静进行了识别。实验结果表明,通过该方法提取的新的情感特征具有较好的识别效果。  相似文献   

17.
连续语音识别技术,是集语音处理、模式识别、句法和语义分析于一体的综合性语音处理技术,能够识别任意的连续语音,如一个句子或一段话,大大提高了语音交互的连续性和体验度,是语音识别技术的核心之一。本文介绍了连续语音识别技术的研究现状及几种常见的技术方法,并且分析探讨了连续语音识别技术的应用和发展前景。  相似文献   

18.
叶吉祥  庞欢 《计算机工程与应用》2012,48(11):214-217,223
语音情感计算引起了国内外广泛的关注,特别是在语音情感特征提取方面做了大量的研究。利用经验模态分解(EMD)方法对情感语音进行处理,得到情感语音的前4阶固有模态函数(IMF),并将前4阶IMF分别通过Hilbert变换得到其瞬时频率和瞬时振幅。提取它们的统计特征,再结合情感语音的声学特征共同组成情感特征向量,并对特征向量做归一化处理。利用支持向量机(SVM)对四种情感语音即生气、高兴、悲伤和平静进行识别。实验结果表明该方法的识别效果较好。  相似文献   

19.
Speech emotion recognition is a challenging topic and has many important applications in our real life, especially in terms of human-computer interaction. Traditional methods are based on the pipeline of pre-processing, feature extraction, dimensionality reduction and emotion classification. Previous studies have focussed on emotion recognition based on two different models: discrete model and continuous model. Both the speaker's age and gender affect the speech emotion recognition in the two models. Moreover, investigation results shown that the dimensional attributes of emotion such as arousal, valence and dominance are related to each other. Based on these observations, we propose a new attributes recognition model using Feature Nets, aims to improve the emotion recognition performance and generalisation capabilities. The method utilises the corpus to train the age and gender classification model, which will be transferred to the main model: a hierarchical deep learning model, using age and gender as the high level attributes of the emotion. The public databases EMO-DB and IEMOCAP have been conducted to evaluate the performance both in the classification task and regression task. Experiment results show that the proposed approach based on attributes transferring can improve the recognition accuracy, no matter transferring age or gender.  相似文献   

20.
针对F-score特征选择算法不能揭示特征间互信息而不能有效降维这一问题,应用去相关的方法对F-score进行改进,利用德语情感语音库EMO-DB,在提取语音情感特征的基础上,根据支持向量机(SVM)的分类精度选择出分类效果最佳的特征子集。与F-score特征选择算法对比,改进后的算法实现了候选特征集较大幅度的降维,选择出了有效的特征子集,同时得到了较理想的语音情感识别效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号