首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 133 毫秒
1.
针对存在情感差异性语音情况下说话人识别系统性能急剧下降以及缺乏充足情感语音训练说话人模型的问题,提出一种基于基频的情感语音聚类的说话人识别方法,能有效利用系统可获取的少量情感语音.该方法通过对男女说话人设定不同的基频阈值,根据阈值,对倒谱特征进行聚类,为每个说话人建立不同基频区间的模型.在特征匹配时,选用最大似然度的基频区间模型的得分作为该说话人的得分.在中文情感语音库上的测试结果表明,与传统的基于中性训练语音的高斯混合模型说话人识别方法和结构化训练方法相比,该方法具有更高的识别率.  相似文献   

2.
基于同段语音中有声和无声部分具有相同的背景噪声特征的假设,该文提出基于背景噪声模型估计的说话人识别算法。该算法从无声信号中提取背景噪声的HMM参数,并结合含噪音频特征估计说话人特征参数,进行识别处理。实验表明,该方法具有比传统去噪技术更好的识别能力,混合噪声下的说话人识别正确率达到了90%以上。  相似文献   

3.
为了解决语言障碍者与健康人之间的交流障碍问题,提出了一种基于神经网络的手语到情感语音转换方法。首先,建立了手势语料库、人脸表情语料库和情感语音语料库;然后利用深度卷积神经网络实现手势识别和人脸表情识别,并以普通话声韵母为合成单元,训练基于说话人自适应的深度神经网络情感语音声学模型和基于说话人自适应的混合长短时记忆网络情感语音声学模型;最后将手势语义的上下文相关标注和人脸表情对应的情感标签输入情感语音合成模型,合成出对应的情感语音。实验结果表明,该方法手势识别率和人脸表情识别率分别达到了95.86%和92.42%,合成的情感语音EMOS得分为4.15,合成的情感语音具有较高的情感表达程度,可用于语言障碍者与健康人之间正常交流。  相似文献   

4.
基于动态MFCC的说话人识别算法   总被引:1,自引:0,他引:1  
提出了一种基于动态MFCC特征的说话人识别算法.该算法根据说话人的基音频率随语境变化的特点,通过动态构建基于说话人基音频率的Mel-滤波器组,以抽取可以表征说话人身份特征的动态MFCC参数,提高说话人辨识的准确性和鲁棒性.此外,本文还讨论了基于高斯混合模型的分类器设计问题,给出了一个通过聚类分析获得高斯混合模型的最优混合度与相关模型参数的初始估计的方法.实验证明,本文所提出的方法在实际中能够获得较好的识别结果.  相似文献   

5.
万洪杰  杜利民  邓浩江 《计算机应用》2005,25(6):1334-1335,1338
基于贝叶斯网络基础理论,并针对与文本无关说话人识别任务,构造了一种用于说话人识别的贝叶斯网络结构,给出了该网络模型的构造和参数估计方法,提出了进行说话人识别时进行推理和分类预测的算法。通过与传统的混合高斯模型(GMM)的实验类比,该贝叶斯网络模型能够在同样的训练和测试数据情况下识别率平均相对提高30%。  相似文献   

6.
为了提高说话人识别(SR)系统的运算速度,增强其鲁棒性,以现有的帧级语音特征为基础,提出了一种基于段级特征主成分分析的说话人识别算法。该算法在训练和识别阶段以段级特征代替帧级特征,然后用主成分分析方法对段级特征进行降维、去相关。实验结果表明,该算法的系统训练时间、测试时间分别为基线系统的47.8%、40.0%,同时识别率略有提高,抑制了噪声对说话人识别系统的影响。该结果验证了基于段级特征主成分分析的说话人识别算法在识别率有所提高的情况下取得了较快的识别速度,同时在不同噪声环境下的不同信噪比情况下均可以提高系统识别率。  相似文献   

7.
针对说话人语音原始梅尔频率倒谱系数(MFCC)特征参数维数较高造成的模型计算效率低以及不稳定的问题,基于序列最小优化(SMO)高效算法求解支持向量机(SVM)基本型的对偶问题,开展主成分分析-矢量量化((PCA-VQ)融合降维的SMO-SVM说话人识别算法研究。改进后的算法在MATLAB平台上仿真通过。仿真结果表明:通过PCA-VQ融合算法对MFCC特征参数进行优化降维后,SMO-SVM说话人识别模型的正确率提高3.77%,训练时间节省1.24 s,具有较好推广应用价值。  相似文献   

8.
声纹识别中,提出基于隐马尔可夫-通用背景模型的识别算法。针对声纹密码中每个人的注册语音数据量很少的问题,提出使用大量其他人数据先建立话者无关的声韵母隐马尔可夫模型作为通用背景模型,再根据最大后验概率准则,以通用背景模型为基础使用训练语音自适应获得说话人模型。该方法解决在声纹密码识别中训练数据不足的问题。在讯飞桌面数据库Ⅱ上,采用该算法的系统的等错误率为6。8%。  相似文献   

9.
针对噪声环境下说话人识别率低的问题,提出一种基于α GMM聚类和SVM的说话人确认算法.首先计算每位注册话者的α GMM模型,并计算模型间的α散度,然后以该散度设计聚类算法,对话者的α GMM模型进行聚类,得到各个类别的聚类中心模型用于训练SVM,进而得到最终识别结果.仿真实验结果表明,该算法相比于传统GMM和SVM具有更高的识别性能和良好的鲁棒性.  相似文献   

10.
给出了基于公共码书的说话人分布特征的定义。提出了基于分布特征统计的说话人识别算法,根据所有参考说话人的训练语音建立公共码书,实现对语音特征空间的分类,统计各参考说话人训练语音的在公共码字上的分布特征进行建模。识别中引入双序列比对方法进行识别语音的分布特征统计与参考说话人模型间的相似度匹配,实现对说话人的辨认。实验表明,该方法保证识别率的情况下,进一步提高了基于VQ的说话人识别的速度。  相似文献   

11.
12.
For human-machine communication to be as effective as human-to-human communication, research on speech emotion recognition is essential. Among the models and the classifiers used to recognize emotions, neural networks appear to be promising due to the network’s ability to learn and the diversity in configuration. Following the convolutional neural network, a capsule neural network (CapsNet) with inputs and outputs that are not scalar quantities but vectors allows the network to determine the part-whole relationships that are specific 6 for an object. This paper performs speech emotion recognition based on CapsNet. The corpora for speech emotion recognition have been augmented by adding white noise and changing voices. The feature parameters of the recognition system input are mel spectrum images along with the characteristics of the sound source, vocal tract and prosody. For the German emotional corpus EMO-DB, the average accuracy score for 4 emotions, neutral, boredom, anger and happiness, is 99.69%. For Vietnamese emotional corpus BKEmo, this score is 94.23% for 4 emotions, neutral, sadness, anger and happiness. The accuracy score is highest when combining all the above feature parameters, and this score increases significantly when combining mel spectrum images with the features directly related to the fundamental frequency.  相似文献   

13.
为了改善基于脑电(EEG)的情感分类性能,提高多分类情况下的识别准确率,提出 了一种基于共同空间模式(CSP)的空域滤波算法。首先使用传统的CSP 方法设计空域滤波器, 并通过该滤波器对3 种情感类型(即积极、中性和消极)的EEG 信号进行线性投影,以提取空域 特征。此外,考虑到传统近似联合对角化(JAD)算法是使用“得分最高的特征值”准则进行特征向 量的选择,该情况可能导致无法有效区分多分类的情感状态,因此针对最高分特征值位置存在 的所有可能情况设计了不同的特征值选择方法。对实验室自主采集数据集,使用支持向量模型 (SVM)作为分类器进行对比实验。结果表明基于CSP 的空域特征提取方法在三分类情感识别中 平均准确率达到了87.54%,证明其在情感识别应用中具有可行性。  相似文献   

14.
This paper proposes two stage speech emotion recognition approach using speaking rate. The emotions considered in this study are anger, disgust, fear, happy, neutral, sadness, sarcastic and surprise. At the first stage, based on speaking rate, eight emotions are categorized into 3 broad groups namely active (fast), normal and passive (slow). In the second stage, these 3 broad groups are further classified into individual emotions using vocal tract characteristics. Gaussian mixture models (GMM) are used for developing the emotion models. Emotion classification performance at broader level, based on speaking rate is found to be around 99% for speaker and text dependent cases. Performance of overall emotion classification is observed to be improved using the proposed two stage approach. Along with spectral features, the formant features are explored in the second stage, to achieve robust emotion recognition performance in case of speaker, gender and text independent cases.  相似文献   

15.
为了提高情感识别的准确性,该文以语音信号为研究对象,提出了一种新型的语音情感识别方法.将局部保持投影算法(LPP)的思想融入到主元分析(PCA)的目标函数中,使得在原始变量空间投影到低维空间的过程中,不仅实现了整体方差的最大化,而且保持了局部近邻结构不变,有利于全局和局部特征的全面提取,克服了传统PCA方法只关注全局结构特征而忽略局部特征的缺陷.对比实验结果验证了该方法的可行性和有效性,实现了对喜悦、愤怒、悲伤、恐惧和中性5种人类基本情感的识别,研究成果将为情感识别提供新的研究方法,促进人机交互系统进一步深入发展.  相似文献   

16.
This paper explores the excitation source features of speech production mechanism for characterizing and recognizing the emotions from speech signal. The excitation source signal is obtained from speech signal using linear prediction (LP) analysis, and it is also known as LP residual. Glottal volume velocity (GVV) signal is also used to represent excitation source, and it is derived from LP residual signal. Speech signal has high signal to noise ratio around the instants of glottal closure (GC). These instants of glottal closure are also known as epochs. In this paper, the following excitation source features are proposed for characterizing and recognizing the emotions: sequence of LP residual samples and their phase information, parameters of epochs and their dynamics at syllable and utterance levels, samples of GVV signal and its parameters. Auto-associative neural networks (AANN) and support vector machines (SVM) are used for developing the emotion recognition models. Telugu and Berlin emotion speech corpora are used to evaluate the developed models. Anger, disgust, fear, happy, neutral and sadness are the six emotions considered in this study. About 42 % to 63 % of average emotion recognition performance is observed using different excitation source features. Further, the combination of excitation source and spectral features has shown to improve the emotion recognition performance up to 84 %.  相似文献   

17.
情绪识别作为人机交互的热门领域,其技术已经被应用于医学、教育、安全驾驶、电子商务等领域.情绪主要由面部表情、声音、话语等进行表达,不同情绪表达时的面部肌肉、语气、语调等特征也不相同,使用单一模态特征确定的情绪的不准确性偏高,考虑到情绪表达主要通过视觉和听觉进行感知,本文提出了一种基于视听觉感知系统的多模态表情识别算法,分别从语音和图像模态出发,提取两种模态的情感特征,并设计多个分类器为单特征进行情绪分类实验,得到多个基于单特征的表情识别模型.在语音和图像的多模态实验中,提出了晚期融合策略进行特征融合,考虑到不同模型间的弱依赖性,采用加权投票法进行模型融合,得到基于多个单特征模型的融合表情识别模型.本文使用AFEW数据集进行实验,通过对比融合表情识别模型与单特征的表情识别模型的识别结果,验证了基于视听觉感知系统的多模态情感识别效果要优于基于单模态的识别效果.  相似文献   

18.
近年,情绪识别研究已经不再局限于面部和语音识别,基于脑电等生理信号的情绪识别日趋火热.但由于特征信息提取不完整或者分类模型不适应等问题,使得情绪识别分类效果不佳.基于此,本文提出一种微分熵(DE)、卷积神经网络(CNN)和门控循环单元(GRU)结合的混合模型(DE-CNN-GRU)进行基于脑电的情绪识别研究.将预处理后的脑电信号分成5个频带,分别提取它们的DE特征作为初步特征,输入到CNN-GRU模型中进行深度特征提取,并结合Softmax进行分类.在SEED数据集上进行验证,该混合模型得到的平均准确率比单独使用CNN或GRU算法的平均准确率分别高出5.57%与13.82%.  相似文献   

19.
为有效提高语音情感识别系统的识别率,研究分析了一种改进型的支持向量机(SVM)算法。该算法首先利用遗传算法对SVM参数惩罚因子和核函数中参数进行优化,然后用优化后的参数进行语音情感的建模与识别。在柏林数据集上进行7种和常用5种情感识别实验,取得了91.03%和96.59%的识别率,在汉语情感数据集上,取得了97.67%的识别率。实验结果表明该算法能够有效识别语音情感。  相似文献   

20.
R. Nakatsu  J. Nicholson  N. Tosa 《Knowledge》2000,13(7-8):497-504
In this paper, we first study the recognition of emotions involved in human speech. We propose an emotion recognition algorithm based on a neural network and also propose a method to collect a large speech database that contains emotions. We carried out emotion recognition experiments based on the neural network trained using this database. An emotion recognition rate of approximately 50% was obtained in a speaker-independent mode for eight emotion states.

We then tried to apply this emotion recognition algorithm to a computer agent that plays a character role in the interactive movie system we are developing. We propose to use emotion recognition as key technology for an architecture of the computer characters with both narrative-based and spontaneous interaction capabilities.  相似文献   


设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号