首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
葛磊  强彦  赵涓涓 《软件学报》2016,27(S2):130-136
语音情感识别是人机交互中重要的研究内容,儿童自闭症干预治疗中的语音情感识别系统有助于自闭症儿童的康复,但是由于目前语音信号中的情感特征多而杂,特征提取本身就是一项具有挑战性的工作,这样不利于整个系统的识别性能.针对这一问题,提出了一种语音情感特征提取算法,利用无监督自编码网络自动学习语音信号中的情感特征,通过构建一个3层的自编码网络提取语音情感特征,把多层编码网络学习完的高层特征作为极限学习机分类器的输入进行分类,其识别率为84.14%,比传统的基于提取人为定义特征的识别方法有所提高.  相似文献   

2.
现有的语音情感识别(SER)模型存在训练参数量大、模型泛化性能差、情感识别准确率低等问题,利用有限的语音情感数据建立一个轻量级的模型以提高识别效率和准确率尤为重要。提出一种轻量级端到端多任务学习的P-CNN+Gender深度模型,该模型由语音特征组合网络、负责情感特征和性别特征提取的主体卷积网络以及情感和性别分类器组成。以语音的梅尔频率倒谱系数(MFCC)特征作为输入,特征组合网络使用多个大小不同的卷积核从MFCC特征中平行提取特征再进行组合,供后续的主体卷积网络进行情感特征和性别特征的提取。考虑到情感表达和性别的相关性,将性别分类作为辅助任务融合到情感分类中以提高模型的情感分类性能。实验结果表明,该模型在IEMOCAP、Emo-DB和CASIA语音情感数据集上的类别分类准确率分别达到73.3%、96.4%和93.9%,较P-CNN模型分别提高3.0、5.8和6.5个百分点,与3D-ACRNN、CNNBiRNN等模型相比,其训练参数量仅为其他模型的1/10~1/2,且处理速度更快、准确率更高。  相似文献   

3.
深度信念网络(Deep Belief Network, DBN)是深度学习模型之一,是实现人工智能的重要模型.它是由多个受限玻尔兹曼机(RBM)堆加而成.一般在模型的最后一层加入分类器模型进行分类.目前已在生物特征识别、语音识别、机器故障诊断、疾病诊断等诸多领域得到广泛应用.鉴于深度信念网络模型的优点及其强大的自主学习...  相似文献   

4.
语音情感识别已经成为下一代人机交互技术的重要组成部分,从语音信号中提取与情感相关的特征是语音情感识别的重要挑战.针对单一特征在情感识别中准确度不高的问题,该文提出了特征级-决策级融合的方法融合声学特征和语义特征进行情感识别.首先提取声学特征,包括:1)低层次手工特征集,包括基于谱相关、音质、能量、基频等相关特征,以及基于低层次特征的高级统计特征;2)DNN提取的谱相关特征的深度特征;3)CNN提取的基于Filter_bank特征的深度特征.并且使用基于Listen-Attend-Spell(LAS)模型的语音识别模块提取语义特征.然后将声学特征中的3类特征与语义特征进行特征级融合,在确定融合特征的先后顺序时引入了构造哈夫曼树的方法.最后得到融合后特征和原始4类特征各自的情感识别结果,在结果之上进行决策级融合,使用此方法在IEMOCAP数据集中分类准确度可达76.2%.  相似文献   

5.
近年来,卷积神经网络在图像、文本、语音分类等领域广泛使用,但现有的研究大多忽视了特定场所下语音情感识别的性能。针对上述问题,提出一种基于卷积神经网络(CNN)的火车站语音情感识别模型。模型首先提取每条语音的梅尔倒谱系数(MFCC)特征,然后把提取的特征矩阵送到卷积神经网络训练,最后由网络输出每个语音的所属类别。此外在模型的输出层加入了置信度的设置,认为每一条语音属于某类别的概率大于90%则是可信的,否则不可信。实验结果表明,与循环神经网络(RNN)和多层感知器(MLP)相比,上述模型准确率更高。所提出的方法为深度学习技术在语音情感识别中的应用及火车站等场所危险情况的预警提供了一定的借鉴。  相似文献   

6.
针对深度学习算法在语音情感特征提取方面的不足以及识别准确率不高的问题,本文通过提取语音数据中有效的情感特征,并将特征进行多尺度拼接融合,构造语音情感特征,提高深度学习模型对特征的表现能力。传统递归神经网络无法解决语音情感识别长时依赖问题,本文采用双层LSTM模型来改进语音情感识别效果,提出一种混合多尺度卷积与双层LSTM模型相结合的模型。实验结果表明,在中科院自动化所汉语情感数据库(CASIA)和德国柏林情感公开数据集(Emo-DB)下,本文所提语音情感识别模型相较于其他情感识别模型在准确率方面有较大提高。  相似文献   

7.
为解决人脸特征提取过程中局部特征缺失的问题,借助局部二值模式(LBP)与方向梯度直方图(HOG)提出一种基于多级纹理特征融合的深度信念网络人脸识别算法。以提取局部纹理特征以及边缘纹理特征为出发点,对人脸图像进行三级纹理特征提取。使用MB-LBP提取初级纹理特征;在此基础上进行改进的CS-LBP图像特征提取作为二级纹理特征;使用HOG算子在二级纹理特征上完成三级纹理特征提取。将二级和三级纹理特征直方图顺序串联融合后输入到深度信念网络(DBN)逐层贪婪训练,优化网络参数,并用优化的网络在ORL、YELA人脸标准库中进行测试,识别率均在92%以上。该算法与传统算法(SVM、PCA)相比较拥有更好的人脸识别效果,同时也表明了局部纹理特征的改善为识别过程的特征提取提供强有力的保障,为人脸识别的进一步研究开拓新思路。  相似文献   

8.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

9.
针对维吾尔语句子情感信息:喜、怒、哀、乐和客观五分类任务,提出一种利用深度信念网络模型(Deep Belief Nets, DBN)的深度学习机制进行基于深层语义特征的句子级情感分析方法。该方法通过对维吾尔语情感句及语言特点的深入研究,提取出利于情感分析任务的8项情感特征。为了提高特征对文本语义的表达,将富含词汇深层语义和上下文信息的word embedding特征与情感特征进行融合,作为深度信念网络的输入。利用多层无监督的波尔兹曼机(RBM)训练并提取隐含的深层语义特征,通过有监督的后向传播算法对网络进行微调,进而完成情感分类任务。该方法在维吾尔语句子级情感分类任务中的准确率为83,35%,召回率为84.42%,F值为:83.88%. 实验结果证明,深度学习模型较浅层的学习模型更合适于本文的情感分类任务,对word embedding特征项的引入,有效的提高了情感分类模型的性能.  相似文献   

10.
基于免疫RBF神经网络的语音情感识别   总被引:2,自引:1,他引:1  
本文针对语音情感识别中BP神经网络收敛速度慢和正确率低的问题,提出了一种训练径向基函数(RBF)网络的混合算法。在语音情感特征提取的基础上,采用免疫RBF神经网络进行情感识别,同时还训练了一个BP网络进行对比实验,得到了比较理想的识别结果。  相似文献   

11.
为降低声学特征在语音识别系统中的音素识别错误率,提高系统性能,提出一种子空间高斯混合模型和深度神经网络结合提取特征的方法,分析了子空间高斯混合模型的参数规模并在减少计算复杂度后将其与深度神经网络串联进一步提高音素识别率。把经过非线性特征变换的语音数据输入模型,找到深度神经网络结构的最佳配置,建立学习与训练更可靠的网络模型进行特征提取,通过比较音素识别错误率来判断系统性能。实验仿真结果证明,基于该系统提取的特征明显优于传统声学模型。  相似文献   

12.
针对传统浅层机器学习方法无法有效解决海量入侵数据的分类问题,提出了一种基于深度信念网络的多类支持向量机入侵检测方法(DBN-MSVM)。首先,该方法利用深度信念网络对大量高维、非线性的无标签原始数据进行特征降维,从而获得原始数据的最优低维表示;然后,利用二叉树构造多类支持向量机分类器,并对获得的最优低维表示进行网络攻击行为识别。最后在KDD’ 99数据集上进行实验仿真,DBN-MSVM方法可缩短支持向量机分类器的训练时间和测试时间,提高了海量入侵数据的分类准确率。  相似文献   

13.
针对合成孔径雷达(SAR)图像目标识别问题,在卷积神经网的基础上,提出了一种新的识别框架。 该框架通过连接多个基本操作单元并以层次结构构造一个集特征提取和分类器训练于一体的端到端网络,同时利用深度网络的反向传播完成分类器对特征提取的反馈以改进特征的效果。 在 MSTAR开数据集上,该网络框架分类十类目标达到了98.61% 的精度,与其他方法相比,有效提高了SAR 图像目标的识别精度。 所提框架能有效分类SAR 图像目标,具有良好的识别精度,且具备模块化结构,无须复杂预处理,实现简单。  相似文献   

14.
柏财通  崔翛龙  郑会吉  李爱 《计算机应用》2022,42(10):3217-3223
针对标注神经网络训练数据的成本日益增加与噪声干扰阻碍语音识别系统性能提升的问题,提出一种基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法。首先,在预处理阶段提取原始语音样本的三个人工特征;然后,在训练阶段将特征提取网络生成的高级特征分别通过三个浅层网络来拟合预处理阶段提取的人工特征;同时,把特征提取前端与语音识别后端进行交叉训练,并合并它们的损失函数;最后,通过梯度反向传播令特征提取网络学会提取更有助于去噪语音识别的高级特征,从而实现人工知识迁移与去噪,并高效利用了训练数据。在军事装备控制的应用场景下,基于加噪后的THCHS-30、希尔贝壳数据集AISHELL-1与ST-CMDS这三个开源中文语音识别数据集以及军事装备控制指令的数据集上进行测试,实验结果表明,基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法词错率可以降低到0.12,不仅可以实现对鲁棒性语音识别模型的模型训练,同时通过自监督知识迁移提高了训练样本的利用率,可完成装备控制任务。  相似文献   

15.
王忠民  刘戈  宋辉 《计算机工程》2019,45(8):248-254
在语音情感识别中提取梅尔频率倒谱系数(MFCC)会丢失谱特征信息,导致情感识别准确率较低。为此,提出一种结合MFCC和语谱图特征的语音情感识别方法。从音频信号中提取MFCC特征,将信号转换为语谱图,利用卷积神经网络提取图像特征。在此基础上,使用多核学习算法融合音频特征,并将生成的核函数应用于支持向量机进行情感分类。在2种语音情感数据集上的实验结果表明,与单一特征的分类器相比,该方法的语音情感识别准确率高达96%。  相似文献   

16.
陈师哲  王帅  金琴 《软件学报》2018,29(4):1060-1070
自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.本文探讨了在多文化场景下的多模态情感识别问题.我们从语音声学和面部表情等模态分别提取了不同的情感特征,包括传统的手工定制特征和基于深度学习的特征,并通过多模态融合方法结合不同的模态,比较不同单模态特征和多模态特征融合的情感识别性能.我们在CHEAVD中文多模态情感数据集和AFEW英文多模态情感数据集进行实验,通过跨文化情感识别研究,我们验证了文化因素对于情感识别的重要影响,并提出3种训练策略提高在多文化场景下情感识别的性能,包括:分文化选择模型、多文化联合训练以及基于共同情感空间的多文化联合训练,其中基于共同情感空间的多文化联合训练通过将文化影响与情感特征分离,在语音和多模态情感识别中均取得最好的识别效果.  相似文献   

17.
说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别。通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息。实验结果表明,SCCNN-BiLSTM网络模型在LibriSpeech和AISHELL-1数据集上迭代50 000次时的等错率为7.21%和6.55%,相比于ResCNN基线网络模型提升了25.3%和41.0%。  相似文献   

18.
针对传统入侵检测方法很难快速准确地从海量无标签网络数据中提取特征信息以识别异常入侵,提出了基于改进的深度信念网络的softmax分类(IDBN-SC)入侵检测方法。利用改进的DBN对原始网络数据进行无监督特征学习,引入自适应学习速率减少训练网络模型所需要的时间;采用softmax分类器对获得的降维数据进行网络攻击类型识别。在NSL-KDD数据集上进行测试,相比其他入侵检测方法,实验结果表明IDBN-SC方法不仅识别准确率平均提高3.02%,而且其softmax分类器训练时间平均缩短5.58 s。  相似文献   

19.
提出了一种基于隐马尔可夫模型(HMM)与人工神经网络(ANN)相结合的情感语音识别系统的实现方法.并从情感语音资料的获取、情感语音特征的提取及情感语音识别等方面阐明了情感语音识别系统的建立过程.该系统实现了情感语音特征参数的提取、情感语音模型参数的训练及对录入的情感语音进行识别等功能.研究结果表明了该系统识别效果良好.  相似文献   

20.
基于粒子群优化神经网络的语音情感识别   总被引:1,自引:0,他引:1  
提出了一种基于粒子群优化算法的人工神经网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化。利用粒子群优化算法(PSO)训练随机产生的初始数据,优化神经网络的连接权值和阈值,快速地实现网络的收敛。在实验中比较了BP神经网络、RBF神经网络与PSO神经网络分别用于语音情感识别的识别率,PSO神经网络的平均识别率高于BP神经网络6.7%,高于RBF神经网络5.4%。结果显示,粒子群优化神经网络用于语音情感识别提高了识别性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号