首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对语音情感识别的起源及主要研究内容作了介绍,对国内外语音情感识别的研究现状作了归纳总结;对语音情感特征的提取、情感分类器的建模算法作了重点分析介绍,最后对情感识别未来发展方向进行了展望.  相似文献   

2.
语音情感识别是实现智能人机交互的关键技术之一。然而,用于语音情感识别的语音情感特征十分有限。为此,本文提出一种新型的语谱图显著性特征来改善语音情感识别效果。识别算法利用选择性注意模型获取语音信号语谱图像的显著图,并从中提取显著性特征,结合语音信号传统的时频特征构成语音情感识别特征向量。最后,本文利用KNN分类方法进行语音情感识别。实验结果表明,加入显著性特征后识别率有明显提升。  相似文献   

3.
基于一种改进的监督流形学习算法的语音情感识别   总被引:2,自引:0,他引:2  
为了有效提高语音情感识别的性能,需要对嵌入在高维声学特征空间的非线性流形上的语音特征数据作非线性降维处理。监督局部线性嵌入(SLLE)是一种典型的用于非线性降维的监督流形学习算法。该文针对SLLE存在的缺陷,提出一种能够增强低维嵌入数据的判别力,具备最优泛化能力的改进SLLE算法。利用该算法对包含韵律和音质特征的48维语音情感特征数据进行非线性降维,提取低维嵌入判别特征用于生气、高兴、悲伤和中性4类情感的识别。在自然情感语音数据库的实验结果表明,该算法仅利用较少的9维嵌入特征就取得了90.78%的最高正确识别率,比SLLE提高了15.65%。可见,该算法用于语音情感特征数据的非线性降维,可以较好地改善语音情感识别结果。  相似文献   

4.
人脸语音动画是虚拟现实领域的热点,语音特征参数提取是实现语音同步动画的前提和关键所在。为了能够提取鲁棒性更好的语音特征参数,在小波变换的理论基础上,借鉴MFCC特征参数的提取方法,运用表征语音动态特征的特征差分算法,提出了一种基于离散小波变换的语音特征参数(DWTMFCC)提取方法,并与反映语音情感特征的韵律参数相结合。通过基于LGB算法的VQ模型进行说话人语音识别,可以得到组合特征参数的识别率较高。  相似文献   

5.
针对语音识别这种典型的多类分类问题,提取MFCC参数作为语音特征,采用支持向量机(SVM)作为识别算法,进行非特定人孤立词识别.在给出一种多类分类方法并分析该算法优缺点的基础上,对算法中的所有参数进行测试,选取最佳参数进行实验,识别率达到95%以上.为了满足语音识别系统对实时性和便携性的要衷,将该算法在0MAP5912嵌入式系统开发平台上进行实现,与传统的语音识别系统相比,该系统易于使用,语音识别更为快速便捷.并且具有一定的通用性.  相似文献   

6.
基于多分类器投票组合的语音情感识别   总被引:2,自引:0,他引:2  
为了提高语音情感的正确识别率,提出一种基于多分类器投票组合的语音情感识别新方法.在提取情感语音的韵律特征和音质特征基础上,利用投票方法将支持向量机、K近邻法和人工神经网络三种分类器构成组合分类器,实现对汉语生气、高兴、悲伤和惊奇4种主要情感类型的识别.实验结果表明,与使用单一分类器相比,组合分类器对语音情感的识别取得了87.4%的平均正确识别率,识别效果优于单一分类器.  相似文献   

7.
人们通过语言表达情感是一个不断变化的过程,为了使用语音信号的时间连续性表达具体情感,本文搭建了一种基于关联认知网络的GA-GRUS-ICN模型.首先,对输入的语音特征使用GRUS网络提取深度时序特征;然后,引入自注意力机制给重要的特征片段赋予更高的权重;最后,使用关联认知网络ICN构建情感之间的关联性,得到情感关联矩阵和最终识别结果,本文中对于超参数使用遗传算法GA进行选择.选用TYUT2.0、EMO-DB和CASIA语音数据库中的“悲伤”、“愤怒”、“高兴”三种基本情感作为实验数据,文章设计了五种实验方案进行两个消融实验,实验结果显示,三种模型在三种语音库的UA分别达到了80.83%、98.61%和88.13%,表明GA-GRUSICN识别模型在情感语音识别方面有较强的普适性,自注意力机制与GRUS-ICN模型比较适配,亦可以较好地进行语音情感识别.  相似文献   

8.
为提升语音情感识别的能力,本研究提出一种基于稀疏核主成分分析(Sparse Kernel Principal Component Analysis,SKPCA)的方法。该方法结合核主成分分析以及稀疏表示的方法,能够同时满足特征降维和样本稀疏,起到降维和降噪的作用。本研究首先利用openSMILE工具包提取情感语音样本的声学特征及其统计特征用于情感识别,然后介绍SKPCA的算法原理及推导过程,最后使用多种分类器在柏林库做了大量的实验,实验结果表明,使用SKPCA方法可取得较好的识别结果。  相似文献   

9.
提出了一种将改进的模糊C均值聚类算法与矢量量化相结合的语音情感识别方法,实现了对4种情感的识别:高兴、生气、悲伤和惊奇.首先提取情感语句全局结构和时序结构特征参数并进行性别规整.再利用改进后的模糊矢量量化方法来设计码本,最后对待识别语音进行辩识.该算法不但解决了模糊C均值算法对初始值敏感、易陷入局部最优的问题,而且性别规整改善了特征参数的有效性,使识别率得以进一步提高.实验结果表明该算法能够有效改善识别率.  相似文献   

10.
为了提高语音情感的正确识别率,在情感语音韵律特征的基础上,提出情感语音音质特征的提取.结合音质特征参数和韵律特征参数,采用支持向量机分类器实现汉语普通话生气、高兴、悲伤和惊奇四种主要情感类型语音的情感识别.实验结果表明,语音音质特征参数和韵律特征参数相结合取得的情感平均正确识别率为88.1%,比单独使用韵律特征参数高出6%.可见,语音音质特征是一种较有效的情感特征参数.  相似文献   

11.
藏语语音情感识别是语音情感识别在少数民族语音处理上的应用,语音情感识别是人机交互的重要研究方向,提取最能表征语音情感的特征并构建具有较强鲁棒性和泛化性的声学模型是语音情感识别的重要研究内容。基于此,为了构建具有高效性和针对性的藏语语音情感识别模型,文中构建了一种藏语语音情感数据集(TBSEC001),并提出一种适合于藏语的手工语音情感特征集(TPEFS),该特征集是在藏语与其他语言的共性和特性的基础上手工提取得到的,TPEFS特征集在支持向量机(SVM)、多层感知机(MLP)、卷积神经网络(CNN)、长短时记忆网络(LSTM)这些经典网络中都取得了不错的效果。所提出的方法在藏语语音数据集(TBSEC001)上取得了88.4%的识别结果,以及在EMODB、RAVDESS、CASIA数据库上分别取得了84.1%、74.3%以及82.5%的识别结果。实验结果表明,该特征集在保证识别率的情况下,对藏语语音情感识别具有一定针对性。  相似文献   

12.
在收集较大规模情感语音语料库基础上,分析了维吾尔语语音在韵律特征和音质特征方面的19种语境信息和6种情感特征参数,并利用STRAIGHT算法实现了情感特征参数的提取,最后利用分类回归树(CART)算法针对各个情感特征和中性向其它情感的转换特征进行了建模。实验结果表明,所提取情感特征能准确的区分各个情感类型,为实现中性语音转换成各种目标情感语音奠定了基础。  相似文献   

13.
语音情感识别中,情感特征信息的提取和选择、情感识别模型的选择是2个重要部分.结合语音信号的声学特征参数和听觉特征参数进行情感识别,针对两类不同情感之间的差别选择最优的特征集,并设计了一个基于神经网络的情感交叉识别,与听觉特征参数结合,经过分类器得到识别情感,达到平均92%识别率.  相似文献   

14.
为了提高情感识别的正确率,针对单一语音信号特征和表面肌电信号特征存在的局限性,提出了一种集成语音信号特征和表面肌电信号特征的情感自动识别模型.首先对语音信号和表面肌电信号进行预处理,并分别提取相关的语音信号和表面肌电信号特征,然后采用支持向量机对语音信号和表面肌电信号特征进行学习,分别建立相应的情感分类器,得到相应的识别结果,最后将识别结果分别输入到支持向量机确定两种特征的权重系数,从而得到最终的情感识别结果.两个标准语情感数据库的仿真结果表明,相对于其它情感识别模型,本文模型大幅提高了情感识别的正确率,人机交互情感识别系统提供了一种新的研究工具.  相似文献   

15.
本文提出了一种改进的混合蛙跳算法,利用混沌运动的遍历性改善初始个体的质量和引入高斯变异,提高了算法的全局搜索能力,同时将改进算法与人工神经网络结合,并把它应用到语音情感识别系统中.依据情感的维度空间模型.分别提取了情感语音的韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化特性.利用本文所提的蛙跳算法(SFLA)训练随机产生的初始数据,优化神经网络的连接权值,能快速地实现网络的收敛.在实验中比较了BP神经网络、RBF神经网络与改进SFLA神经网络分别用于语音情感以别的识别性能,结果表明基于改进SFLA的神经网络的平均识别率高于BP神经网络9.2个百分点,高于RBF神经网络7.9个百分点.因此本文所提的蛙跳神经网络用于语音情感识别能获得明显的识别性能的提升.  相似文献   

16.
俞佳佳  金赟  马勇  姜芳艽  戴妍妍 《信号处理》2021,37(10):1880-1888
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。   相似文献   

17.
罗武骏  黄程韦  査诚  赵力 《信号处理》2013,29(10):1423-1432
本文研究了越南语语音情感识别问题,采集并建立了越南语情感数据库。母语为越南语的两名男性和两名女性说话人进行了越南语情感语音的表演和录制,通过多人听辨实验进行了数据的验证和评选,建立了一个初步的越南语语音情感数据库,为今后的跨语言研究提供数据基础。在所获得的情感数据上,提取了基本的语音特征,并构造了可用于情感识别的静态统计特征。采用高斯混合模型进行了建模与识别,识别结果显示,本文中的系统能够较好的识别越南语语音情感。在今后的工作中,可以进一步研究跨语言情感特征的分析与识别。   相似文献   

18.
孙聪珊  马琳  李海峰 《信号处理》2023,39(4):688-697
语音情感识别(Speech Emotion Recognition,SER)是人机交互的重要组成部分,具有广泛的研究和应用价值。针对当前SER中仍然存在着缺乏大规模语音情感数据集和语音情感特征的低鲁棒性而导致的语音情感识别准确率低等问题,提出了一种基于改进的经验模态分解方法(Empirical Mode Decomposition,EMD)和小波散射网络(Wavelet Scattering Network,WSN)的语音情感识别方法。首先,针对用于语音信号时频分析的EMD及其改进算法中存在的模态混叠问题(Mode Mixing)和噪声残余问题,提出了基于常数Q变换(Constant-Q Transform,CQT)和海洋捕食者算法(Marine Predator Algorithm,MPA)的优化掩模经验模态分解方法(Optimized Masking EMD based on CQT and MPA,CM-OMEMD)。采用CM-OMEMD算法对情感语音信号进行分解,得到固有模态函数(Intrinsic Mode Functions,IMFs),并从IMFs中提取了可以表征情感的时频特征作为第一个特征集。然后采用WSN提取了具有平移不变性和形变稳定性的散射系数特征作为第二个特征集。最后将两个特征集进行融合,采用支持向量机(Support Vector Machine,SVM)分类器进行分类。通过在含有七种情感状态的TESS数据集中的对比实验,证明了本文提出的系统的有效性。其中CM-OMEMD减小了模态混叠,提升了对情感语音信号时频分析的准确性,同时提出的SER系统显著提高了情绪识别的性能。   相似文献   

19.
针对快速发展的语音情感识别技术,归纳总结了机器学习算法在语音情感识别领域的发展过程并预测语音情感识别技术的发展方向.首先针对语音情感的离散描述模型,总结语音情感识别模型训练和识别算法的一般过程;然后,根据机器学习算法的发展阶段,分别对比分析传统机器学习算法,深度神经网络、卷积神经网络、循环神经网络等深度学习算法与语音情...  相似文献   

20.
针对现有的基于表示学习的语音情感计算算法中存在着限制条件单一的问题,且没有证明它们的有效性,提出了一种采用原子表示模型的语音情感识别算法。通过引入一个新的条件,称为原子分类条件。在这种条件下,对正确识别新的测试情感样本有较好的效果。现有的基于表示的分类算法以单一的稀疏表示方法为主,而提出的算法可以结合稀疏表示模型和其他的表示模型。该算法能够放宽适用条件的范围,使得原子表示模型适应更多分类任务。采集并建立了维吾尔语语音情感数据库。在该情感数据库上,分析维吾尔语情感语音的基本声学特征。通过对情感特征空间进行原子表示的映射变换,可以有效表示情感特征空间。经实验结果证明所提出的方法优于传统的方法,在维吾尔语情感语音数据库上达到了64.17%识别率。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号