首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
庄志豪  傅洪亮  陶华伟  杨静  谢跃  赵力 《计算机应用研究》2021,38(11):3279-3282,3348
针对不同语料库之间数据分布差异问题,提出一种基于深度自编码器子域自适应的跨库语音情感识别算法.首先,该算法采用两个深度自编码器分别获取源域和目标域表征性强的低维情感特征;然后,利用基于LMMD(local maximum mean discrepancy)的子域自适应模块,实现源域和目标域在不同低维情感类别空间中的特征分布对齐;最后,使用带标签的源域数据进行有监督地训练该模型.在eNTERFACE库为源域、Berlin库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了5.26%~19.73%;在Berlin库为源域、eNTERFACE库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了7.34%~8.18%.因此,所提方法可以有效地提取不同语料库的共有情感特征并提升了跨库语音情感识别的性能.  相似文献   

2.
领域自适应将源域上学习到的知识迁移到目标域上,使得在带标签数据少的情况下也可以有效地训练模型。采用伪标签的领域自适应模型未考虑错误伪标签的影响,并且在决策边界处样本的分类准确率较低,针对上述问题提出了基于加权分类损失和核范数的领域自适应模型。该模型使用带有伪标签的可信样本特征与带有真实标签的源域样本特征构建辅助域,在辅助域上设计加权分类损失函数,降低错误伪标签在训练过程中产生的影响;加入批量核范数最大化损失,提高决策边界处样本的分类准确率。在Office31、Office-Home、Image-CLEFDA基准数据集上与之前模型的对比实验表明,该模型有更高的精确度。  相似文献   

3.
多表征自适应网络(MRAN)用于无监督学习取得了显著成效.但MRAN的特征提取只关注了域在空间结构上的联系而忽略了特征通道之间的联系,在进行无监督领域自适应(UDA)分类时,决策边界附近存在大量混淆数据的情况,当使用信息熵最小化对混淆数据进行分类时,往往会产生错误分类.针对这一问题,提出了基于批量核范数最大化的多表征挤压激励自适应网络(Multi-Representation Squeeze-Excitation Adaptation NetworkBatch Kernel Norm Maximization, MRSEANBNM).该网络采用挤压激励注意力机制对多表征特征进行重标定,以强化重要的表征特征,采用条件最大均值差异(CMMD)拉近源域和目标域的特征分布距离,并通过最大化目标域分类输出矩阵的核范数以约束决策边界的混淆数据,达到提升域适应图像分类精度的效果.在基于公开数据集的域适应下的图像分类、可视化结果实验结果表明,MRSEANBNM分类精度有明显提升.  相似文献   

4.
在跨语料库语音情感识别中,由于目标域和源域样本不匹配,导致情感识别性能很差。为了提高跨语料库语音情感识别性能,本文提出一种基于深度域适应和卷积神经网络(Convolutional neural network, CNN)决策树模型的跨语料库语音情感识别方法。首先构建基于联合约束深度域适应的局部特征迁移学习网络,通过最小化目标域和源域在特征空间和希尔伯特空间的联合差异,挖掘两个语料库之间的相关性,学习从目标域到源域的可迁移不变特征。然后,为了降低跨语料库背景下多种情感间的易混淆情感的分类误差,依据情感混淆度构建CNN决策树多级分类模型,对多种情感先粗分类再细分类。使用CASIA,EMO-DB和RAVDESS三个语料库进行验证。实验结果表明,本文的跨语料库语音情感识别方法比CNN基线方法平均识别率高19.32%~31.08%,系统性能得到很大提升。  相似文献   

5.
为提高C-SVM的泛化性能,提出一种基于特征分组的多核融合在线自适应识别算法.此算法首先把特征按照待识别样本集的特性分为若干组,然后根据各组特征的特性采用不同的核函数训练C-SVM模型,并分别把各个模型支持向量间的相似度作为其权重系数,通过自适应样本不断调整权重系数和模型参数,使得C-SVM模型的参数能够随着待识别样本特性的变化而自适应地变化.将此算法应用于非特定人语音情感识别系统,与RBF核、多项式核和Sigmoid核的对比证明了多核融合在线自适应识别算法的优越性,通过与中性语句归一化方法相比证明了本文算法的有效性和稳定性.  相似文献   

6.
汪荣贵  李懂  杨娟  薛丽霞 《计算机工程》2022,48(3):229-235+243
行人重识别的目标是利用计算机视觉技术在多个摄像头采集的图像序列或视频中识别目标行人,基于监督学习的行人重识别算法虽然提高了目标的识别性能,但难以解决行人重识别中无标注目标域的域内变化问题,从而导致无标注数据检索准确度低。提出一种基于域自适应的无监督行人重识别算法,其主要由ResNet-50骨干网络、跨域特征提取器和用以存储目标域特征的特征库组成。通过跨域特征提取器融合行人样本在特征图与通道方向的特征,以挖掘不同行人重识别数据集间潜在的特征关联关系,同时为无标注目标数据集样本内的特征关联构建特征库,在无任何标注信息的情况下从一个未知数据集学习判别性特征。实验结果表明,该算法在源域DukeMTMC-reID/Market-1501和目标域Market-1501/DukeMTMC-reID的首位命中率相较于ECN算法分别提高8.9和6.8个百分点,能够提高模型在未知数据集上的泛化能力和无监督跨域行人重识别的准确度。  相似文献   

7.
在实际应用场景中,情感分析技术为自动判别文本情感极性提供了有效的决策及解决方案,但是文本情感分析技术依赖于大量的标定样本.为了减小对人工标注的依赖,有研究者提出了基于领域自适应的跨领域情感分析技术.该技术面向跨领域文本情感分析任务,将经由标定样本训练的源领域模型,迁移至无标定的目标领域.然而目前的领域自适应技术仅从单个角度进行迁移,即减小领域专有特征差异或提取领域不变特征.因此考虑到跨领域文本数据同时包含领域专有特征和领域不变特征的特点,提出了一种领域对齐对抗的无监督跨领域文本情感分析算法.该算法通过渐进式的迁移策略,逐层减小不同语义层的领域差异,并在高层语义子空间通过协同优化的领域自适应算法,实现跨领域文本数据的领域知识迁移.在2个公开跨领域文本情感数据集上的24组跨领域文本情感分类实验结果表明,与4类领域自适应算法中代表性的和当前表现最优的方法相比,领域对齐对抗的无监督跨领域文本情感分析算法在24组实验中取得了最高的平均分类准确率,同时结合迁移性能分析结果和特征分布可视化结果,证明该算法一定程度上提升了现有无监督跨领域文本情感分析算法的分类性能和迁移性能.  相似文献   

8.
刘晓龙  王士同 《计算机应用》2021,41(11):3127-3131
域自适应的目的是利用有标记(源)域中的信息来提高未标记(目标)域模型的分类性能,且这种方法已经取得了不错的成果。然而在具有开放性的现实场景下,目标域通常包含源域中未观察到的未知类样本,这被称为开放集域自适应问题。传统的域自适应算法对这样具有挑战性的场景设定无能为力,因此提出了渐进式分离的开放集模糊域自适应算法。首先,基于引进隶属度的开放集模糊域自适应算法,探索了逐步分离目标域中已知类和未知类样本的方法;然后,仅将从目标域中分离出的已知类与源域对齐,从而减小两个域之间的分布差异,进行模糊域自适应。所提算法很好地解决了由于未知类和已知类之间的不匹配而导致的负迁移所带来的影响。在Office数据集上的6组域自适应转化实验结果表明,与传统的域自适应算法比较,所提算法在图像分类中的精度有显著的提升,验证了该算法可以逐步增强域自适应分类模型的准确性和鲁棒性。  相似文献   

9.
随着人脸识别技术的发展,人脸欺诈攻击已经成为一项实际的安全问题,人脸欺诈检测算法用于及早发现该类攻击,保护系统安全.文中将一种经典域自适应算法扩展到深度神经网络中,首先定义了基于深度特征增广的域自适应层,提出了一种基于深度特征增广的跨域小样本人脸欺诈检测算法.该算法在已有的基于全卷积神经网络的人脸欺诈检测深度神经网络的中部嵌入域自适应层将卷积特征图增广,来适配源域和目标域的差异,随后根据增广后的特征图进行像素级分类,最后将像素级概率图从空间上融合为帧级决策.文中在CASIA-FASD,Replay-Attack和OULU-NPU 3个数据集和6个常见测评协议(2个CASIA-FASD与Replay-Attack跨库协议和4个OULU-NPU标准协议)下进行实验,验证了算法在不同背景、不同攻击设备、不同相机等跨域情况下的性能.实验表明,基准FCN人脸欺诈检测算法已经能够达到较好的性能,在此基础上,借助小样本目标域数据学习域自适应模型,可进一步显著提升性能,将错误率减半(CASIA-FASD训练+Replay-Attack测试的HTER指标从27.31%降至11.23%,Replay-Attack训练+CASIA-FASD测试的HTER指标从37.33%降至21.83%,OULU-NPU标准协议IV的ACER指标从9.45%降至5.56%),实验结果验证了基于深度特征增广的跨域小样本人脸欺诈检测算法的有效性.  相似文献   

10.
随着人脸识别技术的发展,人脸欺诈攻击已经成为一项实际的安全问题,人脸欺诈检测算法用于及早发现该类攻击,保护系统安全.文中将一种经典域自适应算法扩展到深度神经网络中,首先定义了基于深度特征增广的域自适应层,提出了一种基于深度特征增广的跨域小样本人脸欺诈检测算法.该算法在已有的基于全卷积神经网络的人脸欺诈检测深度神经网络的中部嵌入域自适应层将卷积特征图增广,来适配源域和目标域的差异,随后根据增广后的特征图进行像素级分类,最后将像素级概率图从空间上融合为帧级决策.文中在CASIA-FASD,Replay-Attack和OULU-NPU 3个数据集和6个常见测评协议(2个CASIA-FASD与Replay-Attack跨库协议和4个OULU-NPU标准协议)下进行实验,验证了算法在不同背景、不同攻击设备、不同相机等跨域情况下的性能.实验表明,基准FCN人脸欺诈检测算法已经能够达到较好的性能,在此基础上,借助小样本目标域数据学习域自适应模型,可进一步显著提升性能,将错误率减半(CASIA-FASD训练+Replay-Attack测试的HTER指标从27.31%降至11.23%,Replay-Attack训练+CASIA-FASD测试的HTER指标从37.33%降至21.83%,OULU-NPU标准协议IV的ACER指标从9.45%降至5.56%),实验结果验证了基于深度特征增广的跨域小样本人脸欺诈检测算法的有效性.  相似文献   

11.
域适应是一种在训练集和测试集不满足独立同分布条件时使用的迁移学习算法.当两个领域间的分布差异较大时,会降低域内可迁移性,并且现有域适应算法需要获取大量的目标域数据,这在一些实际应用中无法实现.针对现有域适应方法的不足,基于卷积神经网络提出小样本学习下的基于特征中心对齐的域适应算法,寻找域不变特征的同时,提高目标域特征的可区分度,提高分类效果.面向小样本条件下的office-31公共数据集识别和雷达工作模式识别的仿真实验结果表明,所提方法对office-31数据集的平均识别精度比最大均值差异方法提升12.9%,而对雷达工作模式识别精度达到91%,比最大均值差异方法性能提升10%.  相似文献   

12.
针对深度学习算法在语音情感特征提取方面的不足以及识别准确率不高的问题,本文通过提取语音数据中有效的情感特征,并将特征进行多尺度拼接融合,构造语音情感特征,提高深度学习模型对特征的表现能力。传统递归神经网络无法解决语音情感识别长时依赖问题,本文采用双层LSTM模型来改进语音情感识别效果,提出一种混合多尺度卷积与双层LSTM模型相结合的模型。实验结果表明,在中科院自动化所汉语情感数据库(CASIA)和德国柏林情感公开数据集(Emo-DB)下,本文所提语音情感识别模型相较于其他情感识别模型在准确率方面有较大提高。  相似文献   

13.
The application of cross‐corpus for speech emotion recognition (SER) via domain adaptation methods have gain high acknowledgment for developing good robust emotion recognition systems using different corpora or datasets. However, the issue of cross‐lingual still remains a challenge in SER and needs more attention to resolve the scenario of applying different language types in both training and testing. In this paper, we propose a triple attentive asymmetric convolutional neural network to address the recognition of emotions for cross‐lingual and cross‐corpus speech in an unsupervised approach. The proposed method adopts the joint supervision of softmax loss and center loss to learn high power discriminative feature representations for target domain via the use of high quality pseudo‐labels. The proposed model uses three attentive convolutional neural networks asymmetrically, where two of the networks are used to artificially label unlabeled target samples as a result of their predictions from training on source labeled samples and the other network is used to obtain salient target discriminative features from the pseudo‐labeled target samples. We evaluate our proposed method on three different language types (i.e., English, German, and Italian) data sets. The experimental results indicate that, our proposed method achieves higher prediction accuracy over other state‐of‐the‐art methods.  相似文献   

14.
目前语音情感识别存在语音样本不足、提取的特征数据量大和无关特征多使得识别率不高的问题。针对语音样本不足的情况,在预处理阶段提出了时频域的数据增强方法,对原有的数据库进行扩充;根据传统算法中提取的特征数据量大且与情感无关的特征多的现状,提取了1 582维的情感特征和10组低级描述特征。分别在支持向量机、随机森林和K最邻近3种机器学习算法上做了对比实验。实验证明:支持向量机的平均识别率比较好。在所提取的10组特征组中,LogMelFreqBand特征在3种算法上的精确度分别为74.63%、64.93%和66.42%;而pcm_fftMag_mfcc特征的精确度分别为84.33%、73.13%和58.21%。  相似文献   

15.
曹鸿亮  张莹  武斌  李繁菀  那绪博 《计算机应用》2021,41(12):3608-3613
已有很多机器学习算法能够很好地应对预测分类问题,但这些方法在用于小样本、大特征空间的医疗数据集时存在着预测准确率和F1值不高的问题。为改善肝移植并发症预测的准确率和F1值,提出一种基于迁移成分分析(TCA)和支持向量机(SVM)的肝移植并发症预测分类方法。该方法采用TCA进行特征空间的映射和降维,将源领域和目标领域映射到同一再生核希尔伯特空间,从而实现边缘分布自适应;迁移完成之后在源领域上训练SVM,训练完成后在目标领域上实现并发症的预测分析。在肝移植并发症预测实验中,针对并发症Ⅰ、并发症Ⅱ、并发症Ⅲa、并发症Ⅲb、并发症Ⅳ进行预测,与传统机器学习和渐进式对齐异构域适应(HDA)相比,所提方法的准确率提升了7.8%~42.8%,F1值达到85.0%~99.0%,而传统机器学习和HDA由于正负样本不均衡出现了精确率很高而召回率很低的情况。实验结果表明TCA结合SVM能够有效提高肝移植并发症预测的准确率和F1值。  相似文献   

16.
针对单一模态情感识别精度低的问题,提出了基于Bi-LSTM-CNN的语音文本双模态情感识别模型算法。该算法采用带有词嵌入的双向长短时记忆网络(bi-directional long short-term memory network,Bi-LSTM)和卷积神经网络(convolutional neural network,CNN)构成Bi-LSTM-CNN模型,实现文本特征的提取,将其与声学特征融合结果作为联合CNN模型的输入,进行语音情感计算。基于IEMOCAP多模态情感检测数据集的测试结果表明,情感识别准确率达到了69.51%,比单一模态模型提高了至少6个百分点。  相似文献   

17.
为了提高情感识别的正确率,针对单模情感特征及传统特征融合方法识别低的缺陷,提出了一种核典型相关分析算法(KCCA)的多特征(multi-features)融合情感识别方法(MF-KCCA)。分别提取语音韵律特征和分数阶傅里叶域表情特征,利用两种特征互补性,采用KCCA将它们进行融合,降低特征向量的维数,利用最近邻分类器进行情感分类和识别。采用加拿大瑞尔森大学数据库进行仿真实验,结果表明,MF-KCCA有效提高了语音情感的识别率。  相似文献   

18.
Recognizing speakers in emotional conditions remains a challenging issue, since speaker states such as emotion affect the acoustic parameters used in typical speaker recognition systems. Thus, it is believed that knowledge of the current speaker emotion can improve speaker recognition in real life conditions. Conversely, speech emotion recognition still has to overcome several barriers before it can be employed in realistic situations, as is already the case with speech and speaker recognition. One of these barriers is the lack of suitable training data, both in quantity and quality—especially data that allow recognizers to generalize across application scenarios (‘cross-corpus’ setting). In previous work, we have shown that in principle, the usage of synthesized emotional speech for model training can be beneficial for recognition of human emotions from speech. In this study, we aim at consolidating these first results in a large-scale cross-corpus evaluation on eight of most frequently used human emotional speech corpora, namely ABC, AVIC, DES, EMO-DB, eNTERFACE, SAL, SUSAS and VAM, covering natural, induced and acted emotion as well as a variety of application scenarios and acoustic conditions. Synthesized speech is evaluated standalone as well as in joint training with human speech. Our results show that the usage of synthesized emotional speech in acoustic model training can significantly improve recognition of arousal from human speech in the challenging cross-corpus setting.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号