首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为解决小样本中文语音情感识别准确度低的问题,提出一种基于残差网络改进的中文语音情感识别网络结构AResnet。使用时域增强和频域增强生成更复杂的模拟样本扩充语音情感数据,将注意力机制引入至残差网络(residual networks)中,关注谱图中情感特征分布,提升情感识别率。在CASIA中文语音数据集上训练、测试,其结果显示,对比DCNN+LSTM、Trumpt-6网络结构,识别率分别提升约14.9%、3%,验证了AResnet在中文语音情感识别中的有效性。该方法也在英语语音数据集eNTERFACE’05上进行实验,识别准确率为92%,验证了AResnet有较好的泛化能力。  相似文献   

2.
针对深度学习算法在语音情感特征提取方面的不足以及识别准确率不高的问题,本文通过提取语音数据中有效的情感特征,并将特征进行多尺度拼接融合,构造语音情感特征,提高深度学习模型对特征的表现能力。传统递归神经网络无法解决语音情感识别长时依赖问题,本文采用双层LSTM模型来改进语音情感识别效果,提出一种混合多尺度卷积与双层LSTM模型相结合的模型。实验结果表明,在中科院自动化所汉语情感数据库(CASIA)和德国柏林情感公开数据集(Emo-DB)下,本文所提语音情感识别模型相较于其他情感识别模型在准确率方面有较大提高。  相似文献   

3.
针对风洞流量测量中传统静态软测量模型估计精度低、鲁棒性差等问题,提出了注意力机制(Attention mechanism, Attention)、长短时记忆神经网络(Long short-term memory, LSTM)和卡尔曼滤波(Kalman filtering, Kalman)结合的Attention-LSTM-Kalman软测量模型:通过LSTM网络建立静态软测量模型,在此基础上,提出一种基于注意力机制的改进方案,考虑到系统的动态特性,使用卡尔曼滤波动态调整软测量模型输出序列。实验结果表明,静态预测模型LSTM的预测效果优于循环神经网络(Recurrent neural network, RNN)和门控循环单元(Gated recurrent unit, GRU)等模型;基于LSTM、Attention-LSTM和Attention-LSTM-Kalman的3种模型的对比预测测量结果表明,注意力机制能有效提高模型精准度,引入卡尔曼滤波改善了模型的动态测量特性。该模型方案在风洞系统的流量测量验证了其可行性和有效性。  相似文献   

4.
为解决小样本下语音情感识别准确度低的问题,提出一种生成对抗网络模型下的小样本语音情感识别方法。使用生成器和判别器对抗训练学习样本特征,利用生成器生成高质量的模拟样本以扩充数据集;迁移判别器参数到情感识别网络,加快网络训练速度;连接长短时记忆网络(LSTM),进一步提取时序情感特征,提高情感识别率;选用德语语音库(EMODB)的535条语音样本进行训练、测试,其结果表明,与传统的语音情感识别方法、卷积神经网络(VNN)、CNNLSTM相比,该方法将语音情感识别率提高了4.54%-25.31%,验证了该方法的有效性。  相似文献   

5.
采用语音信号进行抑郁倾向识别具有重要的现实意义.针对语音抑郁倾向识别使用深度神经网络方法结构复杂和传统机器学习方法需要手动提取特征及识别率低的问题.本文提出了一种结合残差思想和注意力机制的模型,首先基于心理学自我参照效应(Self-reference Effect, SRE)实验范式设计了抑郁语料,进行语音数据集标注;然后将注意力模块引入残差单元中,利用通道注意力学习其通道维度上的特征,空间注意力反馈其空间维度的特征,并将两者结合得到注意力残差单元;最后堆叠单元构建基于注意力残差网络的语音抑郁倾向识别模型.实验结果表明,与传统机器学习方法相比,该模型在抑郁倾向识别上获得了更优的结果,可满足抑郁倾向识别应用的需求.  相似文献   

6.
属性情感分析是细粒度的情感分类任务。针对传统神经网络模型无法准确构建属性情感特征的问题,提出了一种融合多注意力和属性上下文的长短时记忆(LSTM-MATT-AC)神经网络模型。在双向长短时记忆(LSTM)的不同位置加入不同类型的注意力机制,充分利用多注意力机制的优势,让模型能够从不同的角度关注句子中特定属性的情感信息,弥补了单一注意力机制的不足;同时,融合双向LSTM独立编码的属性上下文语义信息,获取更深层次的情感特征,有效识别特定属性的情感极性;最后在SemEval2014 Task4和Twitter数据集上进行实验,验证了不同注意力机制和独立上下文处理方式对属性情感分析模型的有效性。实验结果表明,模型在Restaurant、Laptop和Twitter领域数据集上的准确率分别达到了80.6%、75.1%和71.1%,较之前基于神经网络的情感分析模型在准确率上有了进一步的提高。  相似文献   

7.
为了解决语言障碍者与健康人之间的交流障碍问题,提出了一种基于神经网络的手语到情感语音转换方法。首先,建立了手势语料库、人脸表情语料库和情感语音语料库;然后利用深度卷积神经网络实现手势识别和人脸表情识别,并以普通话声韵母为合成单元,训练基于说话人自适应的深度神经网络情感语音声学模型和基于说话人自适应的混合长短时记忆网络情感语音声学模型;最后将手势语义的上下文相关标注和人脸表情对应的情感标签输入情感语音合成模型,合成出对应的情感语音。实验结果表明,该方法手势识别率和人脸表情识别率分别达到了95.86%和92.42%,合成的情感语音EMOS得分为4.15,合成的情感语音具有较高的情感表达程度,可用于语言障碍者与健康人之间正常交流。  相似文献   

8.
语音情感识别是计算机理解人类情感最直接的方式,是实现人机交互智能化的重要渠道,但识别模型的性能需要进一步提升。为实现这一目标,提出一种基于循环卷积神经网络的语音情感识别模型ARCNN-GAP。其中,循环卷积层具有弹性路径,在确保网络深度的同时能保证优化时的梯度回传,提取更加有效的情感特征;全局平均池化运算可以在减少计算复杂度的同时降低过拟合风险;而注意力机制能够使模型更多关注情感相关特征。使用韵律特征和谱特征的融合特征在CASIA和EMO-DB数据库上进行研究,分别取得了83.29%和75.28%的识别率。实验结果表明:ARCNN-GAP具有更好的识别性能和泛化性。  相似文献   

9.
情感识别依靠分析生理信号、行为特征等分析情感类别,是人工智能重要研究领域之一。为提高情感识别的准确性和实时性,提出基于语音与视频图像的多模态情感识别方法。视频图像模态基于局部二值直方图法(LBPH)+稀疏自动编码器(SAE)+改进卷积神经网络(CNN)实现;语音模态基于改进深度受限波尔兹曼机(DBM)和改进长短时间记忆网络(LSTM)实现;使用SAE获得更多图像的细节特征,用DBM获得声音特征的深层表达;使用反向传播算法(BP)优化DBM和LSTM的非线性映射能力,使用全局均值池化(GAP)提升CNN和LSTM的响应速度并防止过拟合。单模态识别后,两个模态的识别结果基于权值准则在决策层融合,给出所属情感分类及概率。实验结果表明,融合识别策略提升了识别准确率,在中文自然视听情感数据库(cheavd)2.0的测试集达到74.9%的识别率,且可以对使用者的情感进行实时分析。  相似文献   

10.
为了解决语音情感识别中数据集样本分布不平衡的问题,提出一种结合数据平衡和注意力机制的卷积神经网络(CNN)和长短时记忆单元(LSTM)的语音情感识别方法.该方法首先对语音情感数据集中的语音样本提取对数梅尔频谱图,并根据样本分布特点对进行分段处理,以便实现数据平衡处理,通过在分段的梅尔频谱数据集中微调预训练好的CNN模型...  相似文献   

11.
在基于深度学习的情感分析工作中,传统的注意力机制主要以串行的方式作为其他模型的下一层,用于学习其他神经网络模型输出的权重分布。该文在探究使用深度学习进行句子级情感分析任务的基础上,提出一种注意力增强的双向LSTM模型。模型使用注意力机制直接从词向量的基础上学习每个词对句子情感倾向的权重分布,从而学习到能增强分类效果的词语,使用双向LSTM学习文本的语义信息。最终,通过并行融合的方式提升分类效果。通过在NLPCC 2014情感分析语料上进行测试,该模型的结果优于其他句子级情感分类模型。  相似文献   

12.
正确识别语音中包含的情感信息可以大幅提高人机交互的效率.目前,语音情感识别系统主要由语音特征抽取和语音特征分类两步组成.为了提高语音情感识别准确率,选用语谱图而非传统声学特征作为模型输入,采用基于attention机制的CGRU网络提取语谱图中包含的频域信息和时域信息.实验结果表明:在模型中引入注意力机制有利于减少冗余信息的干扰,并且相较于基于LSTM网络的模型,采用GRU网络的模型预测精确度更高,且在训练时收敛更快,与基于LSTM的基线模型相比,基于GRU网络的模型训练时长只有前者的60%.  相似文献   

13.
虽然卷积神经网络(CNN)可以提取局部特征,长短期记忆网络(LSTM)可以提取全局特征,它们都表现出了较好的分类效果,但CNN在获取文本的上下文全局信息方面有些不足,而LSTM容易忽略词语之间隐含的特征信息。因此,提出了用CNN_BiLSTM_Attention并行模型进行文本情感分类。首先,使用CNN提取局部特征,同时BiLSTM提取带有上下文语义信息的全局特征,之后将两者提取的特征拼接在一起,进行特征融合。这样使得模型既能捕获局部短语级特征,又能捕获上下文结构信息,并对特征词的重要程度,利用注意力机制分配不同权重,进而提高模型的分类效果。通过与单一模型CNN、LSTM等深度神经网络模型的对比,本文所提的CNN_BiLSTM_Attention并行模型在综合评价指标F1 score和准确率上都有提升,实验结果表明,本文所提模型在文本情感分类任务中取得了较好的结果,比其他神经网络模型有更好的实用价值。  相似文献   

14.
基于CNN和LSTM的多通道注意力机制文本分类模型   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统的卷积神经网络(Convolutional Neural Network,CNN)和长短时记忆网络(Long Short-Term Memory,LSTM)在提取特征时无法体现每个词语在文本中重要程度的问题,提出一种基于CNN和LSTM的多通道注意力机制文本分类模型。使用CNN和LSTM提取文本局部信息和上下文特征;用多通道注意力机制(Attention)提取CNN和LSTM输出信息的注意力分值;将多通道注意力机制的输出信息进行融合,实现了有效提取文本特征的基础上将注意力集中在重要的词语上。在三个公开数据集上的实验结果表明,提出的模型相较于CNN、LSTM及其改进模型效果更好,可以有效提高文本分类的效果。  相似文献   

15.
特定目标情感分析作为情感分析一个重要的子任务,近年来得到越来越多研究人员的关注.针对在特定目标情感分析中,将注意力机制和LSTM等序列性输入网络相结合的网络模型训练时间长、且无法对文本进行平行化输入等问题,提出一种基于多注意力卷积神经网络(multi-attention convolution neural networks, MATT-CNN)的特定目标情感分析方法.相比基于注意力机制的LSTM网络,该方法可以接收平行化输入的文本信息,大大降低了网络模型的训练时间.同时,该方法通过结合多种注意力机制有效弥补了仅仅依赖内容层面注意力机制的不足,使模型在不需要例如依存句法分析等外部知识的情况下,获取更深层次的情感特征信息,有效识别不同目标的情感极性.最后在SemEval2014数据集和汽车领域数据集(automotive-domain data, ADD)进行实验,取得了比普通卷积神经网络、基于单注意力机制的卷积神经网络和基于注意力机制的LSTM网络更好的效果.  相似文献   

16.
针对传统英语翻译系统语音识别准确率低,导致语言翻译效果不佳的问题,提出一种语音识别的英语翻译器。在HMM基础上,加入梅尔频率倒谱系数MFCC,通过MFCC提取语音特征,然后利用HMM对语音特征进行识别,最后通过循环神经网络构建Transformer机器翻译模型,从而对提取的中文语音进行翻译。结果表明,提出的HMM+MFCC模型对语音识别的平均识别率高达99.78%,比传统的识别方法高2.89%,且HMM+MFCC模型的平均识别时间仅为1.224 8 s,说明本模型识别效率更高,模型性能更优越;Transformer+词性信息模型的BLEU分数为36.28,比单一Transformer模型的BLEU分数35.69高出了0.59。综合分析可知,采用提出的语音识别和语言翻译方法可提高英语翻译器的语音识别准确率和翻译效果。  相似文献   

17.
情感语音包含语义内容和情感特征,为了寻找最能表达情感的特征,采用基于Attention机制的先进LSTM网络提取语音情感相关特征:该先进LSTM网络当前时刻的输入不仅与前一时刻有关,还与先前所有时刻有关,能够提取语音片段中的所有特征;同时,使用Attention机制选取最能表达情感的特征.实验结果表明:不同参数和优化器...  相似文献   

18.
语音情感识别(Speech emotion recognition, SER)是计算机理解人类情感的关键之处,也是人机交互的重要组成部分。当情感语音信号在不同的介质传播时,使用深度学习模型获得的识别精度不高,识别模型的迁移能力不强。为此,设计了一种融合图像显著性和门控循环的声波动方程情感识别(Image saliency gated recurrent acoustic wave equation emotion recognition, ISGR-AWEER)模型,该模型由图像显著性提取和基于门控循环的声波动模型构成。前者模拟注意力机制,用于提取语音中情感表达的有效区域,后者设计了一个声波动情感识别模型,该模型模拟循环神经网络的流程,可以有效提升跨介质下语音情感识别的精度,同时可快速地实现跨介质下的模型迁移。通过实验,在交互情感二元动作捕捉(Interactive emotional dyadic motion capture, IEMOCAP)情感语料库和自建多介质情感语音语料库上验证了当前模型的有效性,与传统的循环神经网络相比,情感识别精度获得了25%的改善,并且具有较强的跨媒介迁移能力。  相似文献   

19.
《计算机工程》2018,(1):199-205
为提高普米语语音识别系统的性能,引入深度学习模型进行普米语语音识别,该模型是一个高容量复杂的网络模型。以Kaldi语音识别工具包为实验平台,分别训练5种不同的声学模型,且这5种模型中包含一个有4隐层的深度神经网络模型。比较不同声学模型得到的语音识别率发现,G-DNN模型比Monophone模型的语音识别率平均提升49.8%。实验结果表明,当增加训练集的普米语语音语料量时,基于深度学习的普米语语音识别率会提升,而基于深度学习的普米语语音识别系统的鲁棒性比其余4个声学模型的普米语语音识别系统的鲁棒性更强。  相似文献   

20.
基于粒子群优化神经网络的语音情感识别   总被引:1,自引:0,他引:1  
提出了一种基于粒子群优化算法的人工神经网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化。利用粒子群优化算法(PSO)训练随机产生的初始数据,优化神经网络的连接权值和阈值,快速地实现网络的收敛。在实验中比较了BP神经网络、RBF神经网络与PSO神经网络分别用于语音情感识别的识别率,PSO神经网络的平均识别率高于BP神经网络6.7%,高于RBF神经网络5.4%。结果显示,粒子群优化神经网络用于语音情感识别提高了识别性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号