首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对前馈神经网络难以处理时序数据的问题,提出将双向循环神经网络(BiRNN)应用在自动语音识别声学建模中。首先,应用梅尔频率倒谱系数进行特征提取;其次,采用双向循环神经网络作为声学模型;最后,测试不同参数对系统性能的影响。在TIMIT数据集上的实验结果表明,与基于卷积神经网络和深度神经网络的声学模型相比,识别率分别提升了1.3%和4.0%,说明基于双向循环神经网络的声学模型具有更好的性能。  相似文献   

2.
基于DNN的低资源语音识别特征提取技术   总被引:1,自引:0,他引:1  
秦楚雄  张连海 《自动化学报》2017,43(7):1208-1219
针对低资源训练数据条件下深层神经网络(Deep neural network,DNN)特征声学建模性能急剧下降的问题,提出两种适合于低资源语音识别的深层神经网络特征提取方法.首先基于隐含层共享训练的网络结构,借助资源较为丰富的语料实现对深层瓶颈神经网络的辅助训练,针对BN层位于共享层的特点,引入Dropout,Maxout,Rectified linear units等技术改善多流训练样本分布不规律导致的过拟合问题,同时缩小网络参数规模、降低训练耗时;其次为了改善深层神经网络特征提取方法,提出一种基于凸非负矩阵分解(Convex-non-negative matrix factorization,CNMF)算法的低维高层特征提取技术,通过对网络的权值矩阵分解得到基矩阵作为特征层的权值矩阵,然后从该层提取一种新的低维特征.基于Vystadial 2013的1小时低资源捷克语训练语料的实验表明,在26.7小时的英语语料辅助训练下,当使用Dropout和Rectified linear units时,识别率相对基线系统提升7.0%;当使用Dropout和Maxout时,识别率相对基线系统提升了12.6%,且网络参数数量相对其他系统降低了62.7%,训练时间降低了25%.而基于矩阵分解的低维特征在单语言训练和辅助训练的两种情况下都取得了优于瓶颈特征(Bottleneck features,BNF)的识别率,且在辅助训练的情况下优于深层神经网络隐马尔科夫识别系统,提升幅度从0.8%~3.4%不等.  相似文献   

3.
针对传统核素识别方法对高本底、低探测率的复杂伽马能谱存在特征提取困难、建模复杂以及识别率低等问题,提出了一种使用卷积神经网络(CNN)进行核素识别的方法。利用CNN可自适应、隐式地提取图像特征并进行分类学习的特点,搭建多层卷积神经网络的核素识别模型,通过网络模型特征提取层和分类器的训练,获取深层次的核素特征描述,实现多核素识别。基于蒙特卡洛分析软件Geant4仿真数据进行了对比分析实验,结果表明:本文提出的方法其时间复杂度为O(n~2),所提方法避免了复杂的显式特征提取过程,能够对IAEA规定的部分常见单一及混合核素实时地多核素识别。  相似文献   

4.
基于多级金字塔卷积神经网络(MLPCNN)的快速特征表示方法   总被引:1,自引:0,他引:1  
近年来,在机器视觉中基于卷积神经网络(CNN)的特征提取方法取得了令人惊叹的成果,主要原因是深度学习在多层和低维的特征表示上有着很大的优势。但是由于在大尺度图像中卷积滤波的过程速度过慢,导致CNN参数调节困难、训练时间过长,针对这一问题,本文基于传统卷积神经网络(TCNN, Traditional convolution neural network)提出一种快速有效的多级金字塔卷积神经网络MLPCNN(Multi-level pyramid CNN)。这一网络使用权值共享的方法将低级的滤波权值共享到高级,保证CNN的训练只在较小尺寸的图像块上进行,加快训练速度。实验表明,在特征维数比较低的情况下,MLPCNN提取到的特征比传统的特征提取方法更加有效,在Caltech101数据库上,MLPCNN识别率达到81.32%,而且训练速度较TCNN网络提高了约2.5倍。  相似文献   

5.
针对单一模态情感识别精度低的问题,提出了基于Bi-LSTM-CNN的语音文本双模态情感识别模型算法。该算法采用带有词嵌入的双向长短时记忆网络(bi-directional long short-term memory network,Bi-LSTM)和卷积神经网络(convolutional neural network,CNN)构成Bi-LSTM-CNN模型,实现文本特征的提取,将其与声学特征融合结果作为联合CNN模型的输入,进行语音情感计算。基于IEMOCAP多模态情感检测数据集的测试结果表明,情感识别准确率达到了69.51%,比单一模态模型提高了至少6个百分点。  相似文献   

6.
主流神经网络训练的交叉熵准则是对声学数据的每个帧进行分类优化,而连续语音识别是以序列级转录准确性为性能度量。针对这个不同,构建基于序列级转录的端到端语音识别系统。针对低资源语料条件下系统性能不佳的问题,其中模型使用卷积神经网络对输入特征进行处理,选取最佳的网络结构,在时域和频域进行二维卷积,从而改善输入空间中因不同环境和说话人产生的小扰动影响。同时神经网络使用批量归一化技术来减少泛化误差,加速训练。基于大型的语言模型,优化解码过程中的超参数,提高模型建模效果。实验结果表明系统性能提升约24%,优于主流语音识别系统。  相似文献   

7.
为解决卷积神经网络在中文语音识别中识别准确率低、鲁棒性差的问题,提出一种基于双路卷积神经网络的声学建模方法。利用多尺度学习方法提取多尺度特征信息;将软阈值非线性转换层和注意力机制进行融合后嵌入残差网络,减轻网络梯度问题,加强网络特征信息传递,提高特征学习效果;采用连接时序分类技术分类,简化语音识别流程。实验结果表明,该模型与传统识别模型相比,词错误率降低了7.52%,在3种噪声环境下,错误率也低于传统模型。  相似文献   

8.
为了克服单一神经网络模型提取表情特征困难,以及堆叠深层网络结构会造成训练过程复杂、参数冗余等问题,本文提出了一种引入注意力机制的轻量级CNN通道和卷积自编码器预训练通道的双通道模型.在轻量级CNN通道中以具有残差思想的深度可分离卷积结构进行深层次特征提取并且减少了模型参数量,还引入了通道域注意力机制使得该通道能够学习到更有用的特征;同时使用卷积自编码器对输入人脸表情图像进行无监督预处理,使得模型提取的特征更加多样化.实验结果表明,在FER2013和CK+表情数据集上分别取得了72.70%和97.50%的识别率.通过与相关方法对比,表明了本文模型在保证较少参数量的同时也具有较高的识别率.  相似文献   

9.
为了解决语言障碍者与健康人之间的交流障碍问题,提出了一种基于神经网络的手语到情感语音转换方法。首先,建立了手势语料库、人脸表情语料库和情感语音语料库;然后利用深度卷积神经网络实现手势识别和人脸表情识别,并以普通话声韵母为合成单元,训练基于说话人自适应的深度神经网络情感语音声学模型和基于说话人自适应的混合长短时记忆网络情感语音声学模型;最后将手势语义的上下文相关标注和人脸表情对应的情感标签输入情感语音合成模型,合成出对应的情感语音。实验结果表明,该方法手势识别率和人脸表情识别率分别达到了95.86%和92.42%,合成的情感语音EMOS得分为4.15,合成的情感语音具有较高的情感表达程度,可用于语言障碍者与健康人之间正常交流。  相似文献   

10.
《计算机工程》2018,(1):199-205
为提高普米语语音识别系统的性能,引入深度学习模型进行普米语语音识别,该模型是一个高容量复杂的网络模型。以Kaldi语音识别工具包为实验平台,分别训练5种不同的声学模型,且这5种模型中包含一个有4隐层的深度神经网络模型。比较不同声学模型得到的语音识别率发现,G-DNN模型比Monophone模型的语音识别率平均提升49.8%。实验结果表明,当增加训练集的普米语语音语料量时,基于深度学习的普米语语音识别率会提升,而基于深度学习的普米语语音识别系统的鲁棒性比其余4个声学模型的普米语语音识别系统的鲁棒性更强。  相似文献   

11.
资源稀缺蒙语语音识别研究   总被引:1,自引:1,他引:0  
张爱英  倪崇嘉 《计算机科学》2017,44(10):318-322
随着语音识别技术的发展,资源稀缺语言的语音识别系统的研究吸引了更广泛的关注。以蒙语为目标识别语言,研究了在资源稀缺的情况下(如仅有10小时的带标注的语音)如何利用其他多语言信息提高识别系统的性能。借助基于多语言深度神经网络的跨语言迁移学习和基于多语言深度Bottleneck神经网络的抽取特征可以获得更具有区分度的声学模型。通过搜索引擎以及网络爬虫的定向抓取获得大量的网页数据,有助于获得文本数据,以增强语言模型的性能。融合多个不同识别结果以进一步提高识别精度。与基线系统相比,多种系统融合的识别绝对错误率减少12%。  相似文献   

12.
针对目前表面肌电信号(surface electromyography,sEMG)端到端手势识别特征提取不充分、多手势识别准确率不高的问题,提出一种融合注意力机制的多流卷积肌电手势识别网络模型.该模型通过滑动窗口将多通道时域sEMG生成肌电子图,并使用多流卷积神经网络充分提取每个采集通道sEMG的语义特征,然后将其聚合得到丰富的多通道手势语义特征;同时从时间和特征通道维度上计算语义特征的注意力分布图,强化有用特征并弱化无用特征,进一步提高多手势识别准确率.实验使用Ninapro数据集进行训练和测试,并与主流的肌电手势识别模型进行对比.实验结果表明,该模型在识别准确率上具有更好的表现,证明了该模型的有效性.  相似文献   

13.
加工特征识别是实现CAD/CAPP/CAM系统集成的关键技术.针对传统基于符号推理加工特征识别模式存在鲁棒性问题,提出一种基于加工面点云数据深度学习的加工特征自动识别方法;基于PointNet点云识别框架,构建了一个面向加工面点云数据的加工特征自动识别卷积神经网络;通过收集CAD模型中的加工特征面集和采样点云,构建了适合该网络学习的三维点云数据样本库.通过样本训练获得加工特征识别器,实现了24类机械加工特征的自动识别,识别准确率达到99%以上,该方法简洁、高效,对有噪音和缺陷的点云数据不敏感,并且对由于特征相交造成加工面破坏仍然具有较好的鲁棒性和识别效果.  相似文献   

14.
群体情绪识别是人机交互领域的前言课题,针对群体情绪识别准确率的问题,结合卷积神经网络(CNN)与长短期记忆网络(LSTM),提出一种多流CNN-LSTM网络模型学习群体情绪的静态和动态特征。以视频序列的原始图像、视觉显著图形和叠加的光流图像分别作为三个通道的输入,利用CNN网络对空间特征和局部运动特征进行分析,得到的特征图直接输入LSTM网络,进行全局运动特征的学习。最后连接Softmax分类器,对三个通道的Softmax输出进行加权融合,得到分类结果。实验结果表明,本文模型可有效地识别4种典型的群体情绪,且识别率高于已有算法,准确度(ACC)和宏平均精度(MAP)分别最高可达82.6%、84.1%。  相似文献   

15.
卷积神经网络(Convolutional Neural Networks,CNN)在图像分类任务中的卓越表现,使得其被广泛应用于计算机视觉的各个领域。图像分类模型精度与效率的提升,除了归功于网络结构的改变外,还有很大一部分原因来自于归一化技术以及分类损失函数的改进。在人脸识别任务中,随着精度的不断提升,分类损失函数从Softmax Loss到Triplet Loss,又从L-Softmax Loss到Arcface Loss,度量方式从几何度量发展到角度度量。度量方式的改变实际上是特征形式的变化,即特征形式从一般特征转变为角度特征。在Mnist数据集上,使用角度度量损失函数训练得到的特征点呈角度分布,同时准确率比几何度量高;将角度度量方式用更直接的角度特征来表示,训练得到的同类特征点呈直线分布,准确度也比一般角度度量更高。这不禁令人思考,在CNN分类模型中是否可以使用角度特征来代替一般特征。在CNN分类模型中,其主要架构往往由多个卷积层和一个或多个全连接层组成,通过统一卷积层与全连接层的归一化操作,得到角度卷积层与角度全连接层。在普通分类网络的基础上,用角度卷积层替换卷积层,用角度全连接层替换全连接层,可以得到一个由角度特征组成的角度分类网络。在Cifar-100数据集上,基于ResNet-32构造的角度分类网络相比原分类网络,分类准确率提高了2%,从而论证了角度特征在分类网络中的有效性。  相似文献   

16.
为提高卷积神经网络的识别性能,提出了一种基于多种卷积神经网络模型的特征融合方法。论文通过构建一个深度学习网络,将多种卷积神经网络模型如ResNet、InceptionV3和VGG19提取的特征进行融合,并将融合后的特征应用到人脸识别中,据此训练出特征融合网络模型的网络参数;最后利用计算求出的阈值来区分类别。实验结果表明,在人脸库LFW数据集上,论文算法的人脸识别率可达98%;与现有的单一卷积神经网络相比,论文算法识别率更高。  相似文献   

17.
情感识别在人机交互中具有重要意义,为了提高情感识别准确率,将语音与文本特征融合。语音特征采用了声学特征和韵律特征,文本特征采用了基于情感词典的词袋特征(Bag-of-words,BoW)和N-gram模型。将语音与文本特征分别进行特征层融合与决策层融合,比较它们在IEMOCAP四类情感识别的效果。实验表明,语音与文本特征融合比单一特征在情感识别中表现更好;决策层融合比在特征层融合识别效果好。且基于卷积神经网络(Convolutional neural network,CNN)分类器,语音与文本特征在决策层融合中不加权平均召回率(Unweighted average recall,UAR)达到了68.98%,超过了此前在IEMOCAP数据集上的最好结果。  相似文献   

18.
卷积神经网络(Convolutional Neural Networks,CNN)是目前流行的语音识别模型之一,其特有卷积结构保证了语音信号时域和频域的平移不变性。但是CNN存在着对语音信号建模能力有所不足的问题。为此,将链接时序准则(CTC)应用在CNN结构中,构建端到端卷积神经网络(CTC-CNN)模型。同时,引入残差块结构,提出一种新的端到端深度卷积神经网络(CTC-DCNN)模型,并利用maxout激活函数对其进行优化。通过TIMIT和Thchs-30语音库测试实验,结果表明在中英文识别中,采用该模型比现有卷积神经网络模型,准确率分别提高约4.7%和6.3%。  相似文献   

19.
The parallel phone recognition followed by language model (PPRLM) architecture represents one of the state-of-the-art spoken language identification systems. A PPRLM system comprises multiple parallel subsystems, where each subsystem employs a phone recognizer with a different phone set for a particular language. The phone recognizer extracts phonotactic attributes from the speech input to characterize a language. The multiple parallel subsystems are devised to capture the phonetic diversification available in the speech input. Alternatively, this paper investigates a new approach for building a PPRLM system that aims at improving the acoustic diversification among its parallel subsystems by using multiple acoustic models. These acoustic models are trained on the same speech data with the same phone set but using different model structures and training paradigms. We examine the use of various structured precision (inverse covariance) matrix modeling techniques as well as the maximum likelihood and maximum mutual information training paradigms to produce complementary acoustic models. The results show that acoustic diversification, which requires only one set of phonetically transcribed speech data, yields similar performance improvements compared to phonetic diversification. In addition, further improvements were obtained by combining both diversification factors. The best performing system reported in this paper combined phonetic and acoustic diversifications to achieve EERs of 4.71% and 8.61% on the 2003 and 2005 NIST LRE sets, respectively, compared to 5.77% and 9.94% using phonetic diversification alone.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号