首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
卷积神经网络(Convolutional Neural Networks,CNN)是目前流行的语音识别模型之一,其特有卷积结构保证了语音信号时域和频域的平移不变性。但是CNN存在着对语音信号建模能力有所不足的问题。为此,将链接时序准则(CTC)应用在CNN结构中,构建端到端卷积神经网络(CTC-CNN)模型。同时,引入残差块结构,提出一种新的端到端深度卷积神经网络(CTC-DCNN)模型,并利用maxout激活函数对其进行优化。通过TIMIT和Thchs-30语音库测试实验,结果表明在中英文识别中,采用该模型比现有卷积神经网络模型,准确率分别提高约4.7%和6.3%。  相似文献   

2.
3.
基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型。在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果表明,TCN-Transformer-CTC相较于Transformer字错误率相对降低了10.91%,模型最终字错误率降低至5.31%,验证了提出的模型具有一定的先进性。  相似文献   

4.
5.
6.
杨磊  赵红东  于快快 《计算机应用》2022,42(6):1869-1875
针对语音情感数据集规模小且数据维度高的特点,为解决传统循环神经网络(RNN)长程依赖消失和卷积神经网络(CNN)关注局部信息导致输入序列内部各帧之间潜在关系没有被充分挖掘的问题,提出一个基于多头注意力(MHA)和支持向量机(SVM)的神经网络MHA-SVM用于语音情感识别(SER)。首先将原始音频数据输入MHA网络来训练MHA的参数并得到MHA的分类结果;然后将原始音频数据再次输入到预训练好的MHA中用于提取特征;最后通过全连接层后使用SVM对得到的特征进行分类获得MHA-SVM的分类结果。充分评估MHA模块中头数和层数对实验结果的影响后,发现MHA-SVM在IEMOCAP数据集上的识别准确率最高达到69.6%。实验结果表明同基于RNN和CNN的模型相比,基于MHA机制的端到端模型更适合处理SER任务。  相似文献   

7.
8.
主流神经网络训练的交叉熵准则针对声学数据的每个帧进行分类优化,而连续语音识别需以序列级的转录准确性为性能度量指标。针对这一差异,构建一种基于序列级转录的端到端语音识别系统。以音素为基本单元建模,并采用连接时序分类(CTC)的目标函数改进长短时记忆网络的结构。在解码过程中引入词典和语言模型,并在前端增加音调特征以丰富声学特征。利用序列区分度训练技术提升CTC模型的建模效果。实验结果表明,该系统的识别效率和识别准确率得到提高,词错误率最低可降至19.09%±0.16%。  相似文献   

9.
语音识别是实现人机交互的一种重要途径,是自然语言处理的基础环节,随着人工智能技术的发展,人机交互等大量应用场景存在着流式语音识别的需求。流式语音识别的定义是一边输入语音一边输出结果,它能够大大减少人机交互过程中语音识别的处理时间。目前在学术研究领域,端到端语音识别已经取得了丰硕的研究成果,而流式语音识别在学术研究以及工业应用中还存在着一些挑战与困难,因此,最近两年,端到端流式语音识别逐渐成为语音领域的一个研究热点与重点。从端到端流式识别模型与性能优化等方面对近些年所展开的研究进行全面的调查与分析,具体包括以下内容:(1)详细分析和归纳了端到端流式语音识别的各种方法与模型,包括直接实现流式识别的CTC与RNN-T模型,以及对注意力机制进行改进以实现流式识别的单调注意力机制等方法;(2)介绍了端到端流式语音识别模型提高识别准确率与减少延迟的方法,在提高准确率方面,主要有最小词错率训练、知识蒸馏等方法,在降低延迟方面,主要有对齐、正则化等方法;(3)介绍了流式语音识别一些常用的中英文开源数据集以及流式识别模型的性能评价标准;(4)讨论了端到端流式语音识别模型的未来发展与展望。  相似文献   

10.
11.
为促进矿业领域向信息化、智能化的方向转变,实现对石墨的智能识别尤为关键.针对人工识别石墨花费时间长、效率低等问题,提出了一种改进的AlexNet网络应用于石墨的图像识别.首先通过随机裁剪、依概率水平翻转和归一化处理等手段对数据集进行图像预处理达到数据增强的目的;然后采用激活函数ReLU6压缩动态范围,使算法更稳健;运用...  相似文献   

12.
通过对语音识别技术的发展梳理,简单介绍了语音识别的历史和应用现状,并将传统语音识别的技术和当前的研究进展进行描述.传统语音识别采用基于统计的方法,采用声谱特征,在GMM-HMM混合结构上进行训练和匹配.当前的语音识别模型主要基于深度学习的方法,采用CNN、RNN都可以有效的进行特征提取从而建立声学模型.进一步的研究采用...  相似文献   

13.
针对神经网络态势预测模型训练复杂度高的问题,提出了一种基于改进卷积神经网络的态势预测方法。结合深度可分离卷积与分解卷积技术的优点,提出了一种基于复合卷积结构的改进型卷积神经网络安全态势预测模型,实现了态势要素和态势值的映射。实验仿真结果证明,相比于已有的典型预测方法,该方法明显降低了复杂度,减少了预测时间,并提升了预测准确率。  相似文献   

14.
提出基于深层声学特征的端到端单声道语音分离算法,传统声学特征提取方法需要经过傅里叶变换、离散余弦变换等操作,会造成语音能量损失以及长时间延迟.为了改善这些问题,提出了以语音信号的原始波形作为深度神经网络的输入,通过网络模型来学习语音信号的更深层次的声学特征,实现端到端的语音分离.客观评价实验说明,本文提出的分离算法不仅有效地提升了语音分离的性能,也减少了语音分离算法的时间延迟.  相似文献   

15.
针对目前人脸表情识别准确率不高、网络模型参数复杂等问题,提出一种增强可分离卷积通道特征的人脸表情识别研究方法。设计了一种轻量型卷积神经网络结构提取表情特征,在卷积层中采用深度可分离卷积减少网络参数;引入了压缩激发模块,对不同通道的特征进行权重分配,在不同的卷积层采用不同的压缩率来增强网络对人脸表情的特征提取能力;将提取到的特征送入分类器实现人脸表情分类,在CK+和FER2013数据集上进行实验并分析。实验结果表明:与现有方法相比,提出的网络结构在CK+和FER2013数据集上,识别率分别提高了0.15个百分点和3.29个百分点,且网络模型参数量降低了75%。所提方法在降低网络参数的同时,提高了表情识别准确率。  相似文献   

16.
针对传统的视频图像处理方法对公交车内乘客拥挤状态的检测受运动阴影、动态背景及场景光照变化等因素的影响问题,提出了一种基于改进卷积神经网络VGG-16的公交车内拥挤状态识别方法。该方法在VGG-16的模型基础上,优化全连接层层数,使用迁移学习共享VGG-16预训练模型的各层权值参数进行训练。相对于文中的传统图像处理方法、AlexNet模型、GooleNet模型以及标准VGG-16模型,改进的VGG-16模型对公交车拥挤状态的识别准确率最高,识别精度能够达到96.1%。模型的损失值比标准VGG-16模型收敛得更快,模型表现得更加稳定。实验证明:改进后的VGG-16模型能够更好地提取公交内拥挤状态的特征,解决公交车内拥挤状态的识别问题。  相似文献   

17.
卷积神经网络本身具有丰富的特征表达能力和学习能力,但本质上,其模块中几何变换能力是固定的。因此,引入可变形卷积核来改进VGG16的网络结构,搭建名为DCVGG的卷积神经网络结构来进行手势识别的研究。在不同数据集下,基于可变形卷积神经网络的手势识别方法能够直接把RGB图像数据输入网络。最终输出的结果,对手势的平均识别率达到97%以上,有效提高网络的性能,提升卷积神经网络对样本对象的容忍度和多样性,丰富卷积神经网络的特征表达能力,与传统LeNet5、VGG16结构和传统人工特征提取算法相比效果更佳,比传统结构更深,鲁棒性更好,识别率更强,可以为复杂背景下有效识别手势提供参考,具有一定的延拓能力。  相似文献   

18.
针对现有面部表情识别算法耗时长、收敛速度慢、分类精度低等问题,对LeNet-5网络的框架和内部结构进行双重优化和改进,并提出一种基于改进LeNet-5的面部表情识别方法。为了能够提取更加多样化的特征,同时提升特征表达能力,首先增加卷积层和池化层的个数,调整网络内部参数;其次,通过对卷积层、全连接层进行批规范化处理,提高网络模型的泛化能力;最后,3个池化层以maxpool_avgpool_avgpool的组合方式进行重叠池化。在FER2013人脸表情数据库进行实验,结果表明改进后的模型相较于目前的算法具有更高的识别精度。  相似文献   

19.
最近,基于自注意力的Transformer结构在不同领域的一系列任务上表现出非常好的性能。探索了基于Transformer编码器和LAS(listen,attend and spell)解码器的Transformer-LAS语音识别模型的效果,并针对Transformer不善于捕捉局部信息的问题,使用Conformer代替Transformer,提出Conformer-LAS模型。由于Attention过于灵活的对齐方式,使得在嘈杂环境中的效果急剧下降,采用连接时序分类(connectionist temporal classification,CTC)辅助训练以加快收敛,并加入音素级别的中间CTC损失联合优化,提出了效果更好的Conformer-LAS-CTC语音识别模型。在开源中文普通话Aishell-1数据集上对提出来的模型进行验证,实验结果表明,Conformer-LAS-CTC相对于采用的基线BLSTM-LAS和Transformer-LAS模型在测试集上的字错率分别相对降低了22.58%和48.76%,模型最终字错误率为4.54%。  相似文献   

20.
铁轨探伤技术的可靠性关系到铁路运行的安全性。分析BP神经网络、卷积神经网络算法在图片识别中的优势,提出一种结合BP、卷积网络的新算法应用于铁轨伤损检测。改进算法利用卷积神经网络对铁轨样本进行特征提取,仅一次前向运算获得低维度铁轨图,再由BP神经网络对低维度铁轨图特征进行分类训练与测试。实验结果表明,改进算法在已训练好的模型测试中得到较好的误差收敛曲线与较高的测试精度,与BP算法、卷积算法相比,该算法训练时间更少,对铁轨伤损图片识别效果更好,在铁轨伤损检测方面有较好的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号