首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
研究了基于美尔倒谱特征参数及高斯混合模型的文本无关的说话人识别系统,为了提高噪声环境下识别系统的识别率,从两个角度研究改善该系统抗噪性能的方法,即利用语音识别将文本无关的系统转化为文本有关的说话人识别方法和通过选择鲁棒性较强的帧进行说话人识别的方法,分析了以上方法对系统识别性能的改善作用,并通过实验验证上述方法确实可以提高系统在噪声环境下的识别率。  相似文献   

2.
基于VQ/CDHMM的噪声环境下汉语口令识别研究   总被引:2,自引:0,他引:2  
黄玲  潘孟贤 《计算机工程与应用》2003,39(28):106-108,161
该文研究了基于改进VQ/HMM模型的语音识别方法,设计实现了基于该模型的汉语口令识别系统;研究了鲁棒性特征参数问题,提出了一些新的基于MFCC和LPCC的高维动态参数;分别进行了纯净语音和不同信噪比语音的识别实验,分析比较了不同类型特征参数、训练状态数和高斯混合度对该系统识别性能的影响。在此基础上得出了以下结论:在加性白噪声的情况下,使用高维动态参数明显提高了系统的鲁棒性;在汉语两字组的短语音(口令)识别中,状态数取4,混合度取3时实验结果较好;利用不同特征参数的优势,进行信息融合,是提高系统性能的一个很好选择。  相似文献   

3.
为实现更为有效的自动语音情感识别系统,提出了一种基于声门信号特征参数及高斯混合模型的情感识别算法.该算法基于人类发音机理,通过逆滤波器及线性预测方法,实现声门信号的估计,提取声门信号时域特征参数表征不同情感类别.实验采用公开的BES (berlin emotion speech database)情感语料库,对愤怒、无聊、厌恶、害怕、高兴、平静、悲伤这7种情感进行自动识别.实验结果表明,提出的语音情感识别系统能有效的识别各类情感状态,其情感判别正确率接近于人类识别正确率,且优于传统的基音频率及共振峰参数.  相似文献   

4.
高智英  李斌 《计算机工程》2011,37(6):148-150
传统生物特征识别系统的识别率经常受到环境以及生物学特征的自身局限性影响。针对该不足,提出一种基于人脸与虹膜特征级融合的多模态生物识别系统,采用中心对称局部二值模式算子提取人脸和虹膜的纹理特征,将人脸特征与虹膜特征线性整合成混合特征向量,利用Adaboost算法从该混合特征向量中优选出一组最佳特征组合,从而构成强分类器。实验结果表明,该多模态系统相比单模态系统具有更好的鲁棒性。  相似文献   

5.
研究语音动态特征参数提取问题,在话者语音识别过程中,动态特征参数可以有效提高识别率.但是传统算法在其提取过程中存在大量干扰冗余信息,造成了识别率降低并带来运算速度的降低.为解决上述副作用,提出在说话人识别系统中,使用一种动态时频倒谱系数参数的方法.上述方法在不减少反应话者个体特征分布特性的前提下,可消除冗余信息并降低样本特征的维度.利用上述方法提取语音特征参数并输入混合高斯-通用背景模型进行说话人语音分类.在Matlab上仿真结果表明,动态时频倒谱系数可有效改进话者语音识别系统的识别正确率.  相似文献   

6.
为了提高低信噪比下说话人识别系统的性能,提出一种Gammatone滤波器组与改进谱减法的语音增强相结合的说话人识别算法。将改进的谱减法作为预处理器,进一步提高语音信号的信噪比,再通过Gammatone滤波器组,对增强后的说话人语音信号进行处理,提取说话人语音信号的特征参数GFCC,进而将特征参数GFCC用于说话人识别算法中。仿真实验在高斯混合模型识别系统中进行。实验结果表明,采用这种算法应用于说话人识别系统,系统的识别率及鲁棒性都有明显的提高。  相似文献   

7.
提出一种用于语音识别的鲁棒特征提取算法。该算法基于子带主频率信息,实现子带主频率信息与子带能量信息相结合,在特征参数中保留语谱中子带峰值位置信息。使用该算法设计抗噪孤立词语音识别系统,分别在白高斯噪声和背景语音噪声环境下,与传统特征算法做多种信噪比对比实验。试验结果表明该特征算法在2种噪声环境下的识别率有不同程度提高,具有良好的噪声鲁棒性。  相似文献   

8.
本文提出了一种基于分类高斯混合模型和神经网络融合的说话人识别系统,根据能量阈值将每个话者语音的语音帧分为两类,在分类子空间分别为每个话者建立两个分类话者模型(GMM),并为每个话者建立一个用于对这两类模型进行数据融合的神经网络,话者识别的结果是经对各个话者神经网络的输出进行判决后做出的.在100个男性话者的与文本无关的说话人识别实验中,基于分类话者模型的策略在识别性能和噪声鲁棒性上均优于传统的GMM话者识别系统,而采用神经网络进行后端融合的策略又优于直接融合的策略,从而可以用较低的话者模型混合度和较短的测试语音获得较好的识别性能及噪声鲁棒性.  相似文献   

9.
目的 针对当前视频情感判别方法大多仅依赖面部表情、而忽略了面部视频中潜藏的生理信号所包含的情感信息,本文提出一种基于面部表情和血容量脉冲(BVP)生理信号的双模态视频情感识别方法。方法 首先对视频进行预处理获取面部视频;然后对面部视频分别提取LBP-TOP和HOG-TOP两种时空表情特征,并利用视频颜色放大技术获取BVP生理信号,进而提取生理信号情感特征;接着将两种特征分别送入BP分类器训练分类模型;最后利用模糊积分进行决策层融合,得出情感识别结果。结果 在实验室自建面部视频情感库上进行实验,表情单模态和生理信号单模态的平均识别率分别为80%和63.75%,而融合后的情感识别结果为83.33%,高于融合前单一模态的情感识别精度,说明了本文融合双模态进行情感识别的有效性。结论 本文提出的双模态时空特征融合的情感识别方法更能充分地利用视频中的情感信息,有效增强了视频情感的分类性能,与类似的视频情感识别算法对比实验验证了本文方法的优越性。另外,基于模糊积分的决策层融合算法有效地降低了不可靠决策信息对融合的干扰,最终获得更优的识别精度。  相似文献   

10.
人耳人脸特征融合在身份鉴别中的研究   总被引:1,自引:0,他引:1  
针对单一人耳识别对姿态变化鲁棒性较差的问题,鉴于人脸在图像性质和生理位置上与人耳具有相似性和互补性,使用了多模态特征融合的方法提高姿态变化下的识别率.与传统的独立成分分析首先获得独立的基向量(ICAl)不同,提出了利用ICA直接获得独立的鉴剐特征的方法(ICA2).在USTB图像库上分别将两种ICA特征进行单模态和多模态的融合.实验表明,两种特征的融合提高了单一模态的识别率,并且多模态识别优于单一的人耳或人脸识别.  相似文献   

11.
针对声音突发特征(笑声、哭声、叹息声等,称之为功能性副语言)携带大量情感信息,而包含这类突发特征的语句由于特征突发性的干扰整体情感识别率不高的问题,提出了融合功能性副语言的语音情感识别方法。该方法首先对待识别语句进行功能性副语言自动检测,根据检测结果将功能性副语言从语句中分离,从而得到较为纯净的两类信号:功能性副语言信号和传统语音信号,最后将两类信号的情感信息使用自适应权重融合方法进行融合,从而达到提高待识别语句情感识别率和系统鲁棒性的目的。在包含6种功能性副语言和6种典型情感的情感语料库上的实验表明:该方法在与人无关的情况下得到的情感平均识别率为67.41%,比线性加权融合、Dempster-Shafer(DS)证据理论、贝叶斯融合方法分别提高了4.2%、2.8%和2.4%,比融合前平均识别率提高了8.08%,该方法针对非特定人语音情感识别具有较好的鲁棒性及识别准确率。  相似文献   

12.
面向智能服装的多生理信息融合的情绪判别   总被引:1,自引:0,他引:1       下载免费PDF全文
人体是一个复杂的多功能系统,采集人体的多种生理信号将其作为信息源,并引入呼吸性窦性心律不齐的生理现象来建立基于多生理信息融合的情绪判别模型,通过可穿戴智能服装系统对心电、呼吸、体温三种生理信号进行特征提取和特征分类,采用支持向量机的方法进行多生理信息融合,在此基础上建立面向智能服装的多生理信息融合的情绪判别模型,对情绪的识别率达到72%,具有良好的医疗诊断价值和广泛的应用前景。  相似文献   

13.
针对现有表征情感信息的脑电信号的非线性特征提取不完善的问题,将相空间重构技术引入情感脑电的识别中,提取了在相空间重构下基于轨迹的描述轮廓的三种非线性几何特征作为新的情感脑电特征。结合脑电信号的功率谱熵以及非线性属性特征(近似熵、最大Lyapunov指数、Hurst指数),提出了基于主成分分析(PCA)的非线性全局特征(非线性几何特征+非线性属性特征)和功率谱熵的融合算法,以支持向量机(SVM)为分类器进行情感识别。结果显示,非线性全局特征能更有效地实现情感识别,二分类情感识别率约90%左右。基于PCA的融合情感特征相比单一特征能达到更佳的情感识别性能,四分类实验中平均识别率可达86.42%。结果表明,非线性全局特征相比非线性属性特征情感识别率有所提高,非线性全局特征以及功率谱熵的结合可以构造出更佳的情感脑电特征参数。  相似文献   

14.
研究了情绪的维度空间模型与语音声学特征之间的关系以及语音情感的自动识别方法。介绍了基本情绪的维度空间模型,提取了唤醒度和效价度对应的情感特征,采用全局统计特征减小文本差异对情感特征的影响。研究了生气、高兴、悲伤和平静等情感状态的识别,使用高斯混合模型进行4种基本情感的建模,通过实验设定了高斯混合模型的最佳混合度,从而较好地拟合了4种情感在特征空间中的概率分布。实验结果显示,选取的语音特征适合于基本情感类别的识别,高斯混合模型对情感的建模起到了较好的效果,并且验证了二维情绪空间中,效价维度上的情感特征对语音情感识别的重要作用。  相似文献   

15.
Automatic emotion recognition from speech signals is one of the important research areas, which adds value to machine intelligence. Pitch, duration, energy and Mel-frequency cepstral coefficients (MFCC) are the widely used features in the field of speech emotion recognition. A single classifier or a combination of classifiers is used to recognize emotions from the input features. The present work investigates the performance of the features of Autoregressive (AR) parameters, which include gain and reflection coefficients, in addition to the traditional linear prediction coefficients (LPC), to recognize emotions from speech signals. The classification performance of the features of AR parameters is studied using discriminant, k-nearest neighbor (KNN), Gaussian mixture model (GMM), back propagation artificial neural network (ANN) and support vector machine (SVM) classifiers and we find that the features of reflection coefficients recognize emotions better than the LPC. To improve the emotion recognition accuracy, we propose a class-specific multiple classifiers scheme, which is designed by multiple parallel classifiers, each of which is optimized to a class. Each classifier for an emotional class is built by a feature identified from a pool of features and a classifier identified from a pool of classifiers that optimize the recognition of the particular emotion. The outputs of the classifiers are combined by a decision level fusion technique. The experimental results show that the proposed scheme improves the emotion recognition accuracy. Further improvement in recognition accuracy is obtained when the scheme is built by including MFCC features in the pool of features.  相似文献   

16.
目前恐高情绪分类中的生理信号主要涉及脑电、心电、皮电等, 考虑到脑电在采集和处理上的局限性以及多模态信号间的融合问题, 提出一种基于6种外周生理信号的动态加权决策融合算法. 首先, 通过虚拟现实技术诱发被试不同程度的恐高情绪, 同步记录心电、脉搏、肌电、皮电、皮温和呼吸这6种外周生理信号; 其次, 提取信号的统计特征和事件相关特征构建恐高情感数据集; 再次, 根据分类性能、模态和跨模态信息提出一种动态加权决策融合算法, 从而对多模态信号进行有效整合以提高识别精度. 最后, 将实验结果与先前相关研究进行对比, 同时在开源的WESAD情感数据集进行验证. 结论表明, 多模态外周生理信号有助于恐高情绪分类性能的提升, 提出的动态加权决策融合算法显著提升了分类性能和模型鲁棒性.  相似文献   

17.
Multi-modal affective data such as EEG and physiological signals is increasingly utilized to analyze of human emotional states. Due to the noise existed in collected affective data, however, the performance of emotion recognition is still not satisfied. In fact, the issue of emotion recognition can be regarded as channel coding, which focuses on reliable communication through noise channels. Using affective data and its label, the redundant codeword would be generated to correct signals noise and recover emotional label information. Therefore, we utilize multi-label output codes method to improve accuracy and robustness of multi-dimensional emotion recognition by training a redundant codeword model, which is the idea of error-correcting output codes. The experiment results on DEAP dataset show that the multi-label output codes method outperforms other traditional machine learning or pattern recognition methods for the prediction of emotional multi-labels.  相似文献   

18.
基于SVM的语音情感识别算法   总被引:1,自引:0,他引:1  
为有效提高语音情感识别系统的识别正确率,提出一种基于SVM的语音情感识别算法.该算法提取语音信号的能量、基音频率及共振峰等参数作为情感特征,采用SVM(Support Vector Machine,支持向量机)方法对情感信号进行建模与识别.在仿真环境下的情感识别实验中,所提算法相比较人工神经网络的ACON(All Cl...  相似文献   

19.
为了提高语音和文本融合的情绪识别准确率,提出一种基于Transformer-ESIM(Transformer-enhanced sequential inference model)注意力机制的多模态情绪识别方法。传统循环神经网络在语音和文本序列特征提取时存在长期依赖性,其自身顺序属性无法捕获长距离特征,因此采用Transformer编码层的多头注意力机制对序列进行并行化处理,解决了序列距离限制,能充分提取序列内的情感语义信息,获取语音和文本序列的深层情感语义编码,同时提高处理速度;通过ESIM交互注意力机制计算语音和文本之间的相似特征,实现语音和文本模态的对齐,解决了多模态特征直接融合而忽视的模态间交互问题,提高模型对情感语义的理解和泛化能力。该方法在IEMOCAP数据集上进行实验测试,实验结果表明,情绪识别分类准确率可达72.6%,和其他主流的多模态情绪识别方法相比各项指标都得到了明显的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号