首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 265 毫秒
1.
现有的语音情感识别(SER)模型存在训练参数量大、模型泛化性能差、情感识别准确率低等问题,利用有限的语音情感数据建立一个轻量级的模型以提高识别效率和准确率尤为重要。提出一种轻量级端到端多任务学习的P-CNN+Gender深度模型,该模型由语音特征组合网络、负责情感特征和性别特征提取的主体卷积网络以及情感和性别分类器组成。以语音的梅尔频率倒谱系数(MFCC)特征作为输入,特征组合网络使用多个大小不同的卷积核从MFCC特征中平行提取特征再进行组合,供后续的主体卷积网络进行情感特征和性别特征的提取。考虑到情感表达和性别的相关性,将性别分类作为辅助任务融合到情感分类中以提高模型的情感分类性能。实验结果表明,该模型在IEMOCAP、Emo-DB和CASIA语音情感数据集上的类别分类准确率分别达到73.3%、96.4%和93.9%,较P-CNN模型分别提高3.0、5.8和6.5个百分点,与3D-ACRNN、CNNBiRNN等模型相比,其训练参数量仅为其他模型的1/10~1/2,且处理速度更快、准确率更高。  相似文献   

2.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

3.
为了解决语音情感识别中数据集样本分布不平衡的问题,提出一种结合数据平衡和注意力机制的卷积神经网络(CNN)和长短时记忆单元(LSTM)的语音情感识别方法.该方法首先对语音情感数据集中的语音样本提取对数梅尔频谱图,并根据样本分布特点对进行分段处理,以便实现数据平衡处理,通过在分段的梅尔频谱数据集中微调预训练好的CNN模型,用于学习高层次的片段语音特征.随后,考虑到语音中不同片段区域在情感识别作用的差异性,将学习到的分段CNN特征输入到带有注意力机制的LSTM中,用于学习判别性特征,并结合LSTM和Softmax层从而实现语音情感的分类.在BAUM-1s和CHEAVD2.0数据集中的实验结果表明,本文提出的语音情感识别方法能有效地提高语音情感识别性能.  相似文献   

4.
短文本分类是互联网文本数据处理中的关键任务之一.长短时记忆网络LSTM(long short-term memory)和卷积神经网络CNN(convolutional neural network)是广泛应用于短文本分类任务的两种深度学习模型.在计算机视觉和语音识别领域的深度学习研究表明,深层次的神经网络模型具有较好的表达数据特征的能力.受此启发,面向文本深度学习分类问题,提出基于3层LSTM和CNN网络结构的ResLCNN(residual-LSTM-CNN)深度学习模型.该模型有效结合LSTM获取文本序列数据的长距离依赖特征和CNN通过卷积操作获取句子局部特征的优势,同时借鉴残差模型理论,在第1层LSTM层与CNN层之间加入恒等映射,构建残差层,缓解深层模型梯度消失问题.为了探究深层短文本分类中ResLCNN模型的文本分类能力,在多种数据集上将其与LSTM、CNN及其组合模型进行对比实验.结果表明,相比于单层LSTM与CNN组合模型,ResLCNN深层模型在MR、SST-2和SST-5数据集上分别提高了1.0%、0.5%、0.47%的准确率,取得了更好的分类效果.  相似文献   

5.
针对当前心理健康智能机器人对学前儿童的语音情感识别准确率低,导致无法有效地对儿童进行心理辅导监测的问题,提出构建一个基于注意力机制Attention+长短期神经网络LSTM的学前儿童情感识别模型。该模型采用LSTM神经网络对原始语音中的时序关系进行保留,并在LSTM基础上,加入注意力机制,将传统遗忘门、输出门转换为注意力门,得到基于深度注意力门的Attention+LSTM模型,通过此模型对儿童语音情感特征进行深度挖掘,从而实现儿童语音情感准确识别。通过实验分析发现,在CASIA、e NTERFACE和GEMEP三个儿童情感语料库中,本模型的平均识别率(UAR)分别为90.6%,81.5%和51%,比传统LSTM模型分别高出了0.6%、5.65%和2.5%。由此可知,相较于传统LSTM模型,本模型可提升学前儿童的语音情感识别率,此模型可在心理健康智能机器人中进行应用,可实现儿童心理有效辅导和监测。  相似文献   

6.
情感识别依靠分析生理信号、行为特征等分析情感类别,是人工智能重要研究领域之一。为提高情感识别的准确性和实时性,提出基于语音与视频图像的多模态情感识别方法。视频图像模态基于局部二值直方图法(LBPH)+稀疏自动编码器(SAE)+改进卷积神经网络(CNN)实现;语音模态基于改进深度受限波尔兹曼机(DBM)和改进长短时间记忆网络(LSTM)实现;使用SAE获得更多图像的细节特征,用DBM获得声音特征的深层表达;使用反向传播算法(BP)优化DBM和LSTM的非线性映射能力,使用全局均值池化(GAP)提升CNN和LSTM的响应速度并防止过拟合。单模态识别后,两个模态的识别结果基于权值准则在决策层融合,给出所属情感分类及概率。实验结果表明,融合识别策略提升了识别准确率,在中文自然视听情感数据库(cheavd)2.0的测试集达到74.9%的识别率,且可以对使用者的情感进行实时分析。  相似文献   

7.
藏语音存在语料库缺少和地区方言较多等问题,因此关于藏语音的识别技术相对缺乏。基于此,提出一种使用卷积神经网络(Convolut ional Neural Network,CNN)、长短期记忆(Long Short Term Memory,LSTM)神经网路和动态神经网络(Dynamic Neural Network,DNN)的基于Python平台上TensorFlow框架的深度混合网络模型。首先,录制来自拉萨市、安多县和昌都市3个地区的藏语音数据制作语音数据集,并通过改进模型深度、结构、参数和算法来提升藏语音识别的准确率;其次,使用多层卷积残差网络和改进的LSTM神经网络解决模型训练过程中的梯度爆炸问题;最后,使用反向传播算法提高模型训练的准确度。仿真实验表明,该模型虽然在不同地区的藏语音数据识别准确率上存在差异,但是在整体的识别准确率和模型的收敛性上具有不错的效果。  相似文献   

8.
为进一步提升语音测谎性能,提出了一种基于去噪自编码器(DAE)和长短时记忆(LSTM)网络的语音测谎算法。首先,该算法构建了优化后的DAE和LSTM的并行结构PDL;然后,提取出语音中的人工特征并输入DAE以获取更具鲁棒性的特征,同时,将语音加窗分帧后提取出的Mel谱逐帧输入到LSTM进行帧级深度特征的学习;最后,将这两种特征通过全连接层及批归一化处理后实现融合,使用softmax分类器进行谎言识别。CSC(Columbia-SRI-Colorado)库和自建语料库上的实验结果显示,融合特征分类的识别准确率分别为65.18%和68.04%,相比其他对比算法的识别准确率最高分别提升了5.56%和7.22%,表明所提算法可以有效提高谎言识别精度。  相似文献   

9.
为了克服传统机器学习方法在采用传感器数据进行人体行为识别领域上识别效果对人工特征选取依赖严重、识别准确率不高等问题,提出一种改进的全卷积神经网络和多层循环神经网络并联的深度学习模型(GRU-InFCN),并对传感器数据特征进行自动提取,实现人体动作的识别。该模型通过多尺度卷积神经网络和双层GRU网络(Gated Recurrent Unit,GRU)分别对传感器数据进行特征提取,将特征矩阵在矩阵维度上进行特征拼接再通过Softmax完成特征分类。实验结果表明,在开源人体行为识别(HAR)数据集上采用该方法进行人体行为识别,准确率达到了97.76%。该模型在取得高准确率的同时,避免了复杂的信号预处理和特征工程。  相似文献   

10.
传统声纹识别方法过程繁琐且识别率低,现有的深度学习方法所使用的神经网络对语音信号没有针对性从而导致识别精度不够。针对上述问题,本文提出一种基于非线性堆叠双向LSTM的端到端声纹识别方法。首先,对原始语音文件提取出Fbank特征用于网络模型的输入。然后,针对语音信号连续且前后关联性强的特点,构建双向长短时记忆网络处理语音数据提取深度特征,为进一步增强网络的非线性表达能力,利用堆叠多层双向LSTM层和多层非线性层实现对语音信号更深层次抽象特征的提取。最后,使用SGD优化器优化训练方式。实验结果表明提出的方法能够充分利用语音序列信号特征,具有较强的时序全面性和非线性表达能力,所构造模型整体性强,比GRU和LSTM等模型具有更好的识别效果。  相似文献   

11.
为了提高情感识别的正确率,针对单模情感特征及传统特征融合方法识别低的缺陷,提出了一种核典型相关分析算法(KCCA)的多特征(multi-features)融合情感识别方法(MF-KCCA)。分别提取语音韵律特征和分数阶傅里叶域表情特征,利用两种特征互补性,采用KCCA将它们进行融合,降低特征向量的维数,利用最近邻分类器进行情感分类和识别。采用加拿大瑞尔森大学数据库进行仿真实验,结果表明,MF-KCCA有效提高了语音情感的识别率。  相似文献   

12.
针对单一模态情感识别精度低的问题,提出了基于Bi-LSTM-CNN的语音文本双模态情感识别模型算法.该算法采用带有词嵌入的双向长短时记忆网络(bi-directional long short-term memory network,Bi-LSTM)和卷积神经网络(convolutional neural networ...  相似文献   

13.
为了提高语音和文本融合的情绪识别准确率,提出一种基于Transformer-ESIM(Transformer-enhanced sequential inference model)注意力机制的多模态情绪识别方法.传统循环神经网络在语音和文本序列特征提取时存在长期依赖性,其自身顺序属性无法捕获长距离特征,因此采用Tra...  相似文献   

14.
为降低声学特征在语音识别系统中的音素识别错误率,提高系统性能,提出一种子空间高斯混合模型和深度神经网络结合提取特征的方法,分析了子空间高斯混合模型的参数规模并在减少计算复杂度后将其与深度神经网络串联进一步提高音素识别率。把经过非线性特征变换的语音数据输入模型,找到深度神经网络结构的最佳配置,建立学习与训练更可靠的网络模型进行特征提取,通过比较音素识别错误率来判断系统性能。实验仿真结果证明,基于该系统提取的特征明显优于传统声学模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号