首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
为了解决语音识别中深层神经网络的说话人与环境自适应问题,本文从语音信号中的说话人与环境因素的固有特点出发,提出了使用长时特征的自适应方案:首先基于高斯混合模型,建立说话人-环境联合补偿模型,对说话人与环境参数进行估计,将此参数作为长时特征;然后,将估计出来长时特征与短时特征一起送入深层神经网络,进行训练。Aurora4实验表明,这一方案可以有效地对说话人与环境因素进行分解,并提升自适应效果。  相似文献   

2.
基于深度学习的语音识别技术现状与展望   总被引:1,自引:0,他引:1  
首先对深度学习的发展历史以及概念进行简要的介绍。然后回顾最近几年基于深度学习的语音识别的研究进展。这一部分内容主要分成以下5点进行介绍:声学模型训练准则,基于深度学习的声学模型结构,基于深度学习的声学模型训练效率优化,基于深度学习的声学模型说话人自适应和基于深度学习的端到端语音识别。最后就基于深度学习的语音识别未来可能的研究方向进行展望。  相似文献   

3.
引言:随着计算机计算能力的提升,如何让计算机更多的替代人类脑力资源,让计算机能具有学习能力变成了最为前沿的领域.这种计算机自我学习的方式被称为深度学习,而将深度学习与多媒体技术结合则是当前最有价值的研究领域之一.本文着重介绍了计算机基于卷积神经网络的深度学习在语音识别方面的价值与趋势分析.  相似文献   

4.
众所周知中文普通话被众多的地区口音强烈地影响着,然而带不同口音的普通话语音数据却十分缺乏。因此,普通话语音识别的一个重要目标是恰当地模拟口音带来的声学变化。文章给出了隐式和显式地使用口音信息的一系列基于深度神经网络的声学模型技术的研究。与此同时,包括混合条件训练,多口音决策树状态绑定,深度神经网络级联和多级自适应网络级联隐马尔可夫模型建模等的多口音建模方法在本文中被组合和比较。一个能显式地利用口音信息的改进多级自适应网络级联隐马尔可夫模型系统被提出,并应用于一个由四个地区口音组成的、数据缺乏的带口音普通话语音识别任务中。在经过序列区分性训练和自适应后,通过绝对上 0.8% 到 1.5%(相对上 6% 到 9%)的字错误率下降,该系统显著地优于基线的口音独立深度神经网络级联系统。  相似文献   

5.
6.
7.
近年来,随着我国科学技术的不断深入与发展,神经网络逐渐与语音识别技术联系的越来越密切。在传统的语音识别技术中,模板匹配法是其主要的操作方法,而在现代的语音识别技术中,神经网络已成为主要的发展趋势。神经网络技术主要模拟了人类的神经元活动原理,将人类所特有的自主学习、想象能力综合到了语音识别系统中,为语音识别的发展开辟了一条新的途径。本文我们将综合具体事例简要分析深度学习神经网络与语音识别系统的结合。  相似文献   

8.
语音段的有效表示方法存在易混淆语种和短时语音段识别率较低等问题,为满足不同时长和方言的识别要求,提出基于深度神经网络不同层的有效语音段表示方法.采用含有中间瓶颈层的深层神经网络作为前端特征提取,综合利用该网络的输出层和中间瓶颈层输出结果,得到不同形式的语音段表示并用于语种识别.在美国国家标准技术局语种识别评测2009年和2011年阿拉伯方言数据集上验证了方法的有效性.  相似文献   

9.
研究了一类基于两层动态神经网的仿射型鲁棒适应跟踪问题,对于未知的仿射非线性系统,提出了新的鲁棒学习算法,该算法不需要知道 理想权值的界。  相似文献   

10.
庄志豪  傅洪亮  陶华伟  杨静  谢跃  赵力 《计算机应用研究》2021,38(11):3279-3282,3348
针对不同语料库之间数据分布差异问题,提出一种基于深度自编码器子域自适应的跨库语音情感识别算法.首先,该算法采用两个深度自编码器分别获取源域和目标域表征性强的低维情感特征;然后,利用基于LMMD(local maximum mean discrepancy)的子域自适应模块,实现源域和目标域在不同低维情感类别空间中的特征分布对齐;最后,使用带标签的源域数据进行有监督地训练该模型.在eNTERFACE库为源域、Berlin库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了5.26%~19.73%;在Berlin库为源域、eNTERFACE库为目标域的跨库识别方案中,所提算法的跨库识别准确率相比于其他算法提升了7.34%~8.18%.因此,所提方法可以有效地提取不同语料库的共有情感特征并提升了跨库语音情感识别的性能.  相似文献   

11.
深度卷积神经网络的汽车车型识别方法   总被引:1,自引:0,他引:1  
针对现有汽车车型识别方法计算量大、提取特征复杂等问题,提出一种基于深度卷积神经网络的汽车车型识别方法。该方法借助于深度学习,对经典的卷积神经网络做出改进并得到由多个卷积层和次抽样层构成的深度卷积神经网络。根据五种车型的分类结果,表明该方法在识别率方面较传统方法有明显的提高。实验还研究了网络层数、卷积核大小、特征维数对深度卷积神经网络的性能和识别率的影响。  相似文献   

12.
针对带噪面罩语音识别率低的问题,结合语音增强算法,对面罩语音进行噪声抑制处理,提高信噪比,在语音增强中提出了一种改进的维纳滤波法,通过谱熵法检测有话帧和无话帧来更新噪声功率谱,同时引入参数控制增益函数;提取面罩语音信号的Mel频率倒谱系数(MFCC)作为特征参数;通过卷积神经网络(CNN)进行训练和识别,并在每个池化层后经局部响应归一化(LRN)进行优化.实验结果表明:该识别系统能够在很大程度上提高带噪面罩语音的识别率.  相似文献   

13.
In this paper, we present an on-line learning neural network model, Dynamic Recognition Neural Network (DRNN), for real-time speech recognition. The property of accumulative learning of the DRNN makes it very suitable for real-time speech recognition with on-line learning. A comparison between the DRNN and Hidden Markov Model (HMM) shows that the computational complexity of the former is lower than that of the latter in both training and recognition. Encouraging results are obtained when the DRNN is tested on a BUPT digit database (Mandarin) and on the on-line learning of twenty isolated English computer command words.  相似文献   

14.
基于RBF神经网络的抗噪语音识别   总被引:1,自引:0,他引:1  
针对目前在噪音环境下语音识别系统性能较差的问题,利用RBF神经网络具有最佳逼近性能、训练速度快等特性,分别采用聚类和全监督训练算法,实现了基于RBF神经网络的抗噪语音识别系统。聚类算法的隐含层训练采用K-均值聚类算法,输出层的学习采用线性最小二乘法;全监督算法中所有参数的调整基于梯度下降法,它是一种有监督学习算法,能够选出性能优良的参数。实验表明,在不同的信噪比下,全监督算法较之聚类算法有更高的识别率。  相似文献   

15.
小波网络和RBF网络的抗噪语音识别   总被引:1,自引:0,他引:1       下载免费PDF全文
针对目前在噪音环境下语音识别系统性能较差的问题,利用小波神经网络融合了小波变换良好的时频局域化性质和RBF神经网络具有最佳分类能力和辨识能力等特性。构建了一个用小波基替代RBF网络中激活函数的小波-RBF神经网络结构,并采用全监督训练算法,实现了基于小波-RBF网络的抗噪语音识别系统。实验结果表明该系统比RBF网络具有更好的识别效果,尤其在噪声环境下,具有更强的鲁棒性。  相似文献   

16.
改进的T-S模糊神经网络在语音识别中的应用   总被引:3,自引:1,他引:3       下载免费PDF全文
给出一种改进的具有四层网络结构的T-S模糊神经网络算法,通过在隶属度上加入一个与输入维数有关的补偿因子,使其能够应用到语音识别系统中,并解决了由输入维数过大而引起的规则灾问题。实验结果表明改进的T-S模糊神经网络能够应用于语音识别系统,同时表明该网络的识别率比RBF网络高,并且鲁棒性较好。  相似文献   

17.
基于遗传算法和小波神经网络的语音识别研究   总被引:1,自引:0,他引:1  
小波神经网络算法(WNN)易陷入局部极小,收敛速度慢,全局搜索能力弱,而遗传算法(GA)具有高度并行、随机、自适应搜索性能和全局寻优的特点。因此,将遗传算法和小波神经网络结合起来形成一种训练神经网络的混合算法——GA-WNN算法。仿真实验结果表明,该算法有效地缩短了识别时间,提高了网络训练速度和语音的识别率。  相似文献   

18.
针对目前的视频播放速度识别算法大多存在的提取精度差、模型参数量巨大的问题,提出了一种双支轻量化视频播放速度识别网络。首先,该网络是基于SlowFast双支网络架构组建的一个三维(3D)卷积网络;其次,为了弥补S3D-G网络在视频播放速度识别任务中存在的参数量大、浮点运算数多的缺陷,进行了轻量化的网络结构调整;最后,在网络结构中引入了高效通道注意力(ECA)模块,以通过通道注意力模块生成重点关注的内容对应的通道范围,这有助于提高视频特征提取的准确性。在Kinetics-400数据集上将所提网络与S3D-G、SlowFast网络进行对比实验。实验结果表明,所提网络在精确度差不多的情况下,模型大小和模型参数均比SlowFast减少了大约96%,浮点运算数减少到5.36 GFLOPs,显著提高了运行速度。  相似文献   

19.
目前,基于多模态融合的语音情感识别模型普遍存在无法充分利用多模态特征之间的共性和互补性、无法借助样本特征间的拓扑结构特性对样本特征进行有效地优化和聚合,以及模型复杂度过高的问题。为此,引入图神经网络,一方面在特征优化阶段,将经过图神经网络优化后的文本特征作为共享表示重构基于声学特征的邻接矩阵,使得在声学特征的拓扑结构特性中包含文本信息,达到多模态特征的融合效果;另一方面在标签预测阶段,借助图神经网络充分聚合当前节点的邻接节点所包含的相似性信息对当前节点特征进行全局优化,以提升情感识别准确率。同时为防止图神经网络训练过程中可能出现的过平滑问题,在图神经网络训练前先进行图增强处理。在公开数据集IEMOCAP 和RAVDESS上的实验结果表明,所提出的模型取得了比基线模型更高的识别准确率和更低的模型复杂度,并且模型各个组成部分均对模型性能提升有所贡献。  相似文献   

20.
为了解决传统径向基(Radial basis function,RBF)神经网络在语音识别任务中基函数中心值和半径随机初始化的问题,从人脑对语音感知的分层处理机理出发,提出利用大量无标签数据初始化网络参数的无监督预训练方式代替传统随机初始化方法,使用深度自编码网络作为语音识别的声学模型,分析梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)和基于Gammatone听觉滤波器频率倒谱系数(Gammatone Frequency Cepstrum Coefficient,GFCC)下非特定人小词汇量孤立词的抗噪性能。实验结果表明,深度自编码网络在MFCC特征下较径向基神经网络表现出更优越的抗噪性能;而与经典的MFCC特征相比,GFCC特征在深度自编码网络下平均识别率相对提升1.87%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号