首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
域自适应算法被广泛应用于跨库语音情感识别中;然而,许多域自适应算法在追求减小域差异的同时,丧失了目标域样本的鉴别性,导致其以高密度的形式存在于模型决策边界处,降低了模型的性能。基于此,提出一种基于决策边界优化域自适应(DBODA)的跨库语音情感识别方法。首先利用卷积神经网络进行特征处理,随后将特征送入最大化核范数及均值差异(MNMD)模块,在减小域间差异的同时,最大化目标域情感预测概率矩阵的核范数,从而提升目标域样本的鉴别性并优化决策边界。在以Berlin、eNTERFACE和CASIA语音库为基准库设立的六组跨库实验中,所提方法的平均识别精度领先于其他算法1.68~11.01个百分点,说明所提模型有效降低了决策边界的样本密度,提升了预测的准确性。  相似文献   

2.
在跨语料库语音情感识别中,由于目标域和源域样本不匹配,导致情感识别性能很差。为了提高跨语料库语音情感识别性能,本文提出一种基于深度域适应和卷积神经网络(Convolutional neural network, CNN)决策树模型的跨语料库语音情感识别方法。首先构建基于联合约束深度域适应的局部特征迁移学习网络,通过最小化目标域和源域在特征空间和希尔伯特空间的联合差异,挖掘两个语料库之间的相关性,学习从目标域到源域的可迁移不变特征。然后,为了降低跨语料库背景下多种情感间的易混淆情感的分类误差,依据情感混淆度构建CNN决策树多级分类模型,对多种情感先粗分类再细分类。使用CASIA,EMO-DB和RAVDESS三个语料库进行验证。实验结果表明,本文的跨语料库语音情感识别方法比CNN基线方法平均识别率高19.32%~31.08%,系统性能得到很大提升。  相似文献   

3.
语音情感识别任务的训练数据和测试数据往往来源于不同的数据库,二者特征空间存在明显差异,导致识别率很低。针对该问题,本文提出新的构图方法表示源和目标数据库之间的拓扑结构,利用图卷积神经网络进行跨语料库的情感识别。针对单一情感特征识别率不高的问题,提出一种新的特征融合方法。首先利用OpenSMILE提取浅层声学特征,然后利用图卷积神经网络提取深层特征。随着卷积层的不断深入,节点的特征信息被传递给其他节点,使得深层特征包含更明确的节点特征信息和更详细的语义信息,然后将浅层特征和深层特征进行特征融合。采用两组实验进行验证,第1组用eNTERFACE库训练测试Berlin库,识别率为59.4%;第2组用Berlin库训练测试eNTERFACE库,识别率为36.1%。实验结果高于基线系统和文献中最优的研究成果,证明本文提出方法的有效性。  相似文献   

4.
为进一步提升语音测谎性能,提出了一种基于去噪自编码器(DAE)和长短时记忆(LSTM)网络的语音测谎算法。首先,该算法构建了优化后的DAE和LSTM的并行结构PDL;然后,提取出语音中的人工特征并输入DAE以获取更具鲁棒性的特征,同时,将语音加窗分帧后提取出的Mel谱逐帧输入到LSTM进行帧级深度特征的学习;最后,将这两种特征通过全连接层及批归一化处理后实现融合,使用softmax分类器进行谎言识别。CSC(Columbia-SRI-Colorado)库和自建语料库上的实验结果显示,融合特征分类的识别准确率分别为65.18%和68.04%,相比其他对比算法的识别准确率最高分别提升了5.56%和7.22%,表明所提算法可以有效提高谎言识别精度。  相似文献   

5.
随着人脸识别技术的发展,人脸欺诈攻击已经成为一项实际的安全问题,人脸欺诈检测算法用于及早发现该类攻击,保护系统安全.文中将一种经典域自适应算法扩展到深度神经网络中,首先定义了基于深度特征增广的域自适应层,提出了一种基于深度特征增广的跨域小样本人脸欺诈检测算法.该算法在已有的基于全卷积神经网络的人脸欺诈检测深度神经网络的中部嵌入域自适应层将卷积特征图增广,来适配源域和目标域的差异,随后根据增广后的特征图进行像素级分类,最后将像素级概率图从空间上融合为帧级决策.文中在CASIA-FASD,Replay-Attack和OULU-NPU 3个数据集和6个常见测评协议(2个CASIA-FASD与Replay-Attack跨库协议和4个OULU-NPU标准协议)下进行实验,验证了算法在不同背景、不同攻击设备、不同相机等跨域情况下的性能.实验表明,基准FCN人脸欺诈检测算法已经能够达到较好的性能,在此基础上,借助小样本目标域数据学习域自适应模型,可进一步显著提升性能,将错误率减半(CASIA-FASD训练+Replay-Attack测试的HTER指标从27.31%降至11.23%,Replay-Attack训练+CASIA-FASD测试的HTER指标从37.33%降至21.83%,OULU-NPU标准协议IV的ACER指标从9.45%降至5.56%),实验结果验证了基于深度特征增广的跨域小样本人脸欺诈检测算法的有效性.  相似文献   

6.
提出一种基于深度卷积联合适应网络(Convolutional neural network-joint adaptation network,CNN-JAN)的脑电信号(Electroencephalogram, EEG)情感识别模型。该模型将迁移学习中联合适应的思想融合到深度卷积网络中,首先采用长方形卷积核提取数据的空间特征,捕捉脑电数据通道间的深层情感相关信息,再将提取的空间特征输入含有联合分布的多核最大均值差异算法(Multi-kernel joint maximum mean discrepancy,MK-JMMD)的适配层进行迁移学习,使用MK-JMMD度量算法解决源域和目标域分布不同的问题。所提方法在SEED数据集上使用微分熵特征和微分尾端性特征分别进行情感分类实验,其中使用微分熵特征被试内跨试验准确率达到84.01%,与对比实验和目前流行的迁移学习方法相比,准确率进一步提高,跨被试实验精度也取得较好的性能,验证了该模型用于EEG信号情感识别任务的有效性。  相似文献   

7.
随着人脸识别技术的发展,人脸欺诈攻击已经成为一项实际的安全问题,人脸欺诈检测算法用于及早发现该类攻击,保护系统安全.文中将一种经典域自适应算法扩展到深度神经网络中,首先定义了基于深度特征增广的域自适应层,提出了一种基于深度特征增广的跨域小样本人脸欺诈检测算法.该算法在已有的基于全卷积神经网络的人脸欺诈检测深度神经网络的中部嵌入域自适应层将卷积特征图增广,来适配源域和目标域的差异,随后根据增广后的特征图进行像素级分类,最后将像素级概率图从空间上融合为帧级决策.文中在CASIA-FASD,Replay-Attack和OULU-NPU 3个数据集和6个常见测评协议(2个CASIA-FASD与Replay-Attack跨库协议和4个OULU-NPU标准协议)下进行实验,验证了算法在不同背景、不同攻击设备、不同相机等跨域情况下的性能.实验表明,基准FCN人脸欺诈检测算法已经能够达到较好的性能,在此基础上,借助小样本目标域数据学习域自适应模型,可进一步显著提升性能,将错误率减半(CASIA-FASD训练+Replay-Attack测试的HTER指标从27.31%降至11.23%,Replay-Attack训练+CASIA-FASD测试的HTER指标从37.33%降至21.83%,OULU-NPU标准协议IV的ACER指标从9.45%降至5.56%),实验结果验证了基于深度特征增广的跨域小样本人脸欺诈检测算法的有效性.  相似文献   

8.
针对深度学习算法在语音情感特征提取方面的不足以及识别准确率不高的问题,本文通过提取语音数据中有效的情感特征,并将特征进行多尺度拼接融合,构造语音情感特征,提高深度学习模型对特征的表现能力。传统递归神经网络无法解决语音情感识别长时依赖问题,本文采用双层LSTM模型来改进语音情感识别效果,提出一种混合多尺度卷积与双层LSTM模型相结合的模型。实验结果表明,在中科院自动化所汉语情感数据库(CASIA)和德国柏林情感公开数据集(Emo-DB)下,本文所提语音情感识别模型相较于其他情感识别模型在准确率方面有较大提高。  相似文献   

9.
相比传统的图像识别方法,利用深度网络可以提取到表征能力更好的特征,从而获得更好的识别效果.现实中任务提供的数据多为无标签数据或部分有标签数据,其为深度网络的学习带来了困难.而迁移学习的方法可以将从源域数据中学习到的知识迁移到目标任务的学习中,以解决有标签数据不足的问题.为了在迁移过程中减小源域和目标域间的图像数据差异,文中提出基于深度动态联合自适应网络的图像识别方法.对网络进行训练时,首先在多层网络结构中利用域间动态联合自适应方法完成针对性的数据分布自适应,然后利用熵最小化原则使学习的目标分类器穿过目标域的低密度区域,从而提高对目标域图像的识别精度.在2018年AI challenge比赛提供的24种植物病害数据集的3种迁移任务(g1->g2,s1->g2和s2->g2)中,所提方法的准确率分别达到了97.27%,94.25%和93.66%,均优于其他算法.实验结果证明,文中提出的基于深度网络并使用动态联合自适应和熵最小化原则的学习框架能够准确识别图像.  相似文献   

10.
语音情感识别在人机交互过程中发挥极为重要的作用, 近年来备受关注. 目前, 大多数的语音情感识别方法主要在单一情感数据库上进行训练和测试 . 然而, 在实际应用中训练集和测试集可能来自不同的情感数据库. 由于这种不同情感数据库的分布存在巨大差异性, 导致大多数的语音情感识别方法取得的跨库识别性能不尽人意. 为此, 近年来不少研究者开始聚焦跨库语音情感识别方法的研究. 本文系统性综述了近年来跨库语音情感识别方法的研究现状与进展, 尤其对新发展起来的深度学习技术在跨库语音情感识别中的应用进行了重点分析与归纳. 首先, 介绍了语音情感识别中常用的情感数据库, 然后结合深度学习技术, 从监督、无监督和半监督学习角度出发, 总结和比较了现有基于手工特征和深度特征的跨库语音情感识别方法的研究进展情况, 最后对当前跨库语音情感识别领域存在的挑战和机遇进行了讨论与展望.  相似文献   

11.
Recognizing speakers in emotional conditions remains a challenging issue, since speaker states such as emotion affect the acoustic parameters used in typical speaker recognition systems. Thus, it is believed that knowledge of the current speaker emotion can improve speaker recognition in real life conditions. Conversely, speech emotion recognition still has to overcome several barriers before it can be employed in realistic situations, as is already the case with speech and speaker recognition. One of these barriers is the lack of suitable training data, both in quantity and quality—especially data that allow recognizers to generalize across application scenarios (‘cross-corpus’ setting). In previous work, we have shown that in principle, the usage of synthesized emotional speech for model training can be beneficial for recognition of human emotions from speech. In this study, we aim at consolidating these first results in a large-scale cross-corpus evaluation on eight of most frequently used human emotional speech corpora, namely ABC, AVIC, DES, EMO-DB, eNTERFACE, SAL, SUSAS and VAM, covering natural, induced and acted emotion as well as a variety of application scenarios and acoustic conditions. Synthesized speech is evaluated standalone as well as in joint training with human speech. Our results show that the usage of synthesized emotional speech in acoustic model training can significantly improve recognition of arousal from human speech in the challenging cross-corpus setting.  相似文献   

12.
由于人类情感的表达受文化和社会的影响,不同语言语音情感的特征差异较大,导致单一语言语音情感识别模型泛化能力不足。针对该问题,提出了一种基于多任务注意力的多语言语音情感识别方法。通过引入语言种类识别辅助任务,模型在学习不同语言共享情感特征的同时也能学习各语言独有的情感特性,从而提升多语言情感识别模型的多语言情感泛化能力。在两种语言的维度情感语料库上的实验表明,所提方法相比于基准方法在Valence和Arousal任务上的相对UAR均值分别提升了3.66%~5.58%和1.27%~6.51%;在四种语言的离散情感语料库上的实验表明,所提方法的相对UAR均值相比于基准方法提升了13.43%~15.75%。因此,提出的方法可以有效地抽取语言相关的情感特征并提升多语言情感识别的性能。  相似文献   

13.
The speech signal consists of linguistic information and also paralinguistic one such as emotion. The modern automatic speech recognition systems have achieved high performance in neutral style speech recognition, but they cannot maintain their high recognition rate for spontaneous speech. So, emotion recognition is an important step toward emotional speech recognition. The accuracy of an emotion recognition system is dependent on different factors such as the type and number of emotional states and selected features, and also the type of classifier. In this paper, a modular neural-support vector machine (SVM) classifier is proposed, and its performance in emotion recognition is compared to Gaussian mixture model, multi-layer perceptron neural network, and C5.0-based classifiers. The most efficient features are also selected by using the analysis of variations method. It is noted that the proposed modular scheme is achieved through a comparative study of different features and characteristics of an individual emotional state with the aim of improving the recognition performance. Empirical results show that even by discarding 22% of features, the average emotion recognition accuracy can be improved by 2.2%. Also, the proposed modular neural-SVM classifier improves the recognition accuracy at least by 8% as compared to the simulated monolithic classifiers.  相似文献   

14.
在跨领域情感分析任务中,目标领域带标签样本严重不足,并且不同领域间的特征分布差异较大,特征所表达的情感极性也有很大差别,这些问题都导致了分类准确率较低。针对以上问题,提出一种基于胶囊网络的方面级跨领域情感分析方法。首先,通过BERT预训练模型获取文本的特征表示;其次,针对细粒度的方面级情感特征,采用循环神经网络(RNN)将上下文特征与方面特征进行融合;然后,使用胶囊网络配合动态路由来区分重叠特征,并构建基于胶囊网络的情感分类模型;最后,利用目标领域的少量数据对模型进行微调来实现跨领域迁移学习。所提方法在中文数据集上的最优的F1值达到95.7%,英文数据集上的最优的F1值达到了91.8%,有效解决了训练样本不足造成的准确率低的问题。  相似文献   

15.
The application of cross‐corpus for speech emotion recognition (SER) via domain adaptation methods have gain high acknowledgment for developing good robust emotion recognition systems using different corpora or datasets. However, the issue of cross‐lingual still remains a challenge in SER and needs more attention to resolve the scenario of applying different language types in both training and testing. In this paper, we propose a triple attentive asymmetric convolutional neural network to address the recognition of emotions for cross‐lingual and cross‐corpus speech in an unsupervised approach. The proposed method adopts the joint supervision of softmax loss and center loss to learn high power discriminative feature representations for target domain via the use of high quality pseudo‐labels. The proposed model uses three attentive convolutional neural networks asymmetrically, where two of the networks are used to artificially label unlabeled target samples as a result of their predictions from training on source labeled samples and the other network is used to obtain salient target discriminative features from the pseudo‐labeled target samples. We evaluate our proposed method on three different language types (i.e., English, German, and Italian) data sets. The experimental results indicate that, our proposed method achieves higher prediction accuracy over other state‐of‐the‐art methods.  相似文献   

16.
近年来,方面级情感分析吸引了越来越多学者的关注,但方面级跨领域情感分析存在没有标注数据,难以获得好的分类结果的问题。将上下文特征与方面特征进行融合,构建基于卷积神经网络和门控单元的情感分类模型,并利用少量目标领域数据集对模型进行微调来实现迁移学习,再用迁移学习后的模型对目标领域的数据进行方面级情感分析,有效解决了训练样本不足、准确率低的问题。人工标注了适用于方面级跨领域情感分析的中、英文语料,所提出的方法在中文数据集最优的F1值达到92.19%,英文数据集最优的F1值达到了86.18%,实验结果表明基于卷积神经网络的方面级跨领域情感分析方法有效提高了目标领域的情感分类准确性。  相似文献   

17.
为有效利用语音情感词局部特征,提出了一种融合情感词局部特征与语音语句全局特征的语音情感识别方法。该方法依赖于语音情感词典的声学特征库,提取出语音语句中是否包含情感词及情感词密度等局部特征,并与全局声学特征进行融合,再通过机器学习算法建模和识别语音情感。对比实验结果表明,融合语音情感词局部特征与全局特征的语音情感识别方法能取得更好的效果,局部特征的引入能有效提高语音情感识别准确率。  相似文献   

18.
针对领域自适应问题中源域和目标域的联合分布差异最小化问题,提出两阶段领域自适应学习方法.在第一阶段考虑样本标签和数据结构的判别信息,通过学习一个共享投影变换,使投影后的共享空间中边缘分布的差异最小.第二阶段利用源域标记数据和目标域非标记数据学习一个带结构风险的自适应分类器,不仅能最小化源域和目标域条件分布差异,还能进一步保持源域和目标域边缘分布的流形一致性.在3个基准数据集上的实验表明,文中方法在平均分类准确率和Kappa系数两项评价指标上均表现较优.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号