首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式,在效果和效率两个方面具有一定的局限性。从特征提取模块的效果以及声学模型的训练效率角度,提出多时间频率分辨率卷积网络与带记忆模块的前馈神经网络相结合的端到端语音识别模型。实验结果表明,所提方法语音识别在真实录制数据集上较传统方法字错误率下降10%,训练时间减少80%。  相似文献   

2.
光学乐谱识别对推动音乐智能化与数字化有着重大意义。传统的乐谱识别流程冗杂,易导致错误积累,但目前基于序列建模的乐谱识别方法不能从全尺度上获取音符上下文信息,在识别效果上仍有提升空间。为此,提出一种基于残差门控循环卷积和注意力机制的端到端光学乐谱识别方法。以残差门控循环卷积作为骨干网络,丰富模型提取上下文信息能力;结合一个注意力机制解码器,能更好地挖掘乐谱特征信息及其内部相关性,增强模型表征能力并对乐谱图像中的音符及音符序列进行识别。实验结果表明,改进后的网络与原卷积循环神经网络(CRNN)模型相比,符号错误率和序列错误率均显著下降。  相似文献   

3.
说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征。针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别。通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息。实验结果表明,SCCNN-BiLSTM网络模型在LibriSpeech和AISHELL-1数据集上迭代50 000次时的等错率为7.21%和6.55%,相比于ResCNN基线网络模型提升了25.3%和41.0%。  相似文献   

4.
基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题。针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型。实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52%,且鲁棒性较好。  相似文献   

5.
语音信号在传播过程中会产生持续时长不等的音素特征,这些特征会影响语音识别的正确率.针对这一问题,提出一种多核卷积融合网络(Multi-core Convolution Fusion Network,MCFN),用于对不同长度的音素特征进行标准化,用标准化后的特征训练语音识别模型.此外,还利用子空间高斯混合模型(Subspace Gaussian Mixture Model,SGMM)将一般说话者的语音和信息加入到模型中,减小语料稀疏性对模型的影响.通过在Thchs30和ST-CMDS数据集对模型进行评估,结果显示,基于MCFN的BLSTM-CTC语音识别模型的识别字错误率(WER)较传统的语音识别模型有所降低.  相似文献   

6.
恶意代码文件大小差异巨大,使用传统卷积神经网络对其可视化图像进行训练时会因分辨率调整导致大量信息丢失。为此,文章提出一种基于多尺度卷积神经网络的恶意代码分类方法。该方法首先将不同大小的恶意代码生成为多种特定分辨率的图像;然后利用DenseNet网络提取特征,避免因调整至同一分辨率导致信息损失;最后通过空间金字塔模型处理多尺度特征,进而训练分类模型。实验结果表明,该方法有效提高了恶意代码分类性能。  相似文献   

7.
针对传统卷积神经网络在人脸表情识别过程中存在有效特征提取针对性不强、识别准确率不高的问题,提出一种基于多尺度特征注意力机制的人脸表情识别方法。用两层卷积层提取浅层特征信息;在Inception结构基础上并行加入空洞卷积,用来提取人脸表情的多尺度特征信息;引入通道注意力机制,提升模型对重要特征信息的表示能力;最后,将得到的特征输入Softmax层进行分类。通过在公开数据集FER2013和CK+上进行仿真实验,分别取得了68.8%和96.04%的识别准确率,结果表明该方法相比许多经典算法有更好的识别效果。  相似文献   

8.
针对传统钢轨探伤大多依赖人工获取特征信息、工作繁琐且效率低的问题,提出了融合改进残差模块的多尺度卷积网络钢轨表面伤损图像识别模型。该网络模型采用深度可分离卷积代替传统卷积减少模型参数量,加快模型训练速度;运用残差网络模块,避免网络堆叠过深引起的过拟合现象;并利用多尺度卷积取代了传统的单尺度卷积,使得网络加宽以获取更多的特征信息,增强了模型特征信息的提取能力,从而提高了模型的识别精度。通过对三种典型钢轨伤损进行对比试验,本方法检测精度和运算速度优于传统方法。  相似文献   

9.
基于卷积神经网络和深度信念网络各自的优点,通过把卷积神经网络的局部感受野引入到深度信念网络的单层中,把深度信念网络的单层分成多个子RBM,提出一种改进的深度信念网络。分别用BP网络、卷积神经网络、深度信念网络和改进的深度信念网络对模型MNIST和Cifar-10数据库进行小图像分类识别实验;根据实验结果,改进的深度信念网络在Cifar-10库上错误率为30.16%,比卷积神经网络低了9%,比传统的深度信念网络低了40%;在MNIST上的识别错误率为1.21%,比传统的深度信念网络分别降低了16%,略高于卷积神经网络。试验结果表明改进的DBN网络在小图像分类应用中是有效的。  相似文献   

10.
为了同时计算行为序列样本在时间和空间的特征,提出了一种基于包含多尺度卷积算子的卷积神经网络识别模型。首先通过叠加的方式将序列样本中的骨骼向量信息整合为一个行为矩阵,然后将矩阵输入识别模型。为了挖掘具有不同邻接关系的骨骼点在描述人体行为时的作用,将卷积神经网络各层中的卷积算子拓展为多尺度卷积算子,并使用该网络得到的特征进行分类。实验在MSR-Action3D数据集和HDM05数据集获得较好的识别率。  相似文献   

11.
针对传统的人工特征选取需要耗费大量时间和精力的问题,本文在传统卷积神经网络(convolutional neural networks,CNN)模型的基础上,提出了一种基于多尺度卷积核CNN的特征提取与分类方法,并在脑电情绪识别分类上进行了验证.本文首先进行了通道选择方面的研究,其次使用多尺度卷积核CNN模型对提取了微分熵(differential entropy feature,DE)特征的脑电数据进行情绪三分类实验,相比于传统的CNN模型,多尺度卷积核CNN模型在卷积层中采用多个尺度的卷积核,同时从高维度与低维度对脑电信号进行二次特征提取.实验结果表明,预处理数据在33通道的情绪分类平均准确率为89.72%,几乎接近全通道的平均准确率;多尺度卷积核CNN在微分熵特征上的情绪三分类取得了98.19%的平均分类准确率,实验结果证明了该模型的有效性和鲁棒性.  相似文献   

12.
基于Transformer的端到端语音识别系统获得广泛的普及,但Transformer中的多头自注意力机制对输入序列的位置信息不敏感,同时它灵活的对齐方式在面对带噪语音时泛化性能较差。针对以上问题,首先提出使用时序卷积神经网络(TCN)来加强神经网络模型对位置信息的捕捉,其次在上述基础上融合连接时序分类(CTC),提出TCN-Transformer-CTC模型。在不使用任何语言模型的情况下,在中文普通话开源语音数据库AISHELL-1上的实验结果表明,TCN-Transformer-CTC相较于Transformer字错误率相对降低了10.91%,模型最终字错误率降低至5.31%,验证了提出的模型具有一定的先进性。  相似文献   

13.
倪春晓 《信息与电脑》2023,(11):208-210
本研究为了解决传统面部表情识别模型准确率较低的问题,基于深度卷积神经网络(Deep Convolutional Neural Network,DCNN)提出一种新的改进神经网络模型,与传统模型相对比,本模型将其核心的卷积层替换成了深度可分离卷积层,同时搭配卷积残差块的使用,使网络能够有效减少参数的情况下,能够提取多尺度上的特征信息,从而有效地保留了细节特征。最后通过仿真对比,证明本研究提出的DCNN网络具有突出的性能特点,适合用于面部表情识别任务。  相似文献   

14.
针对深度学习算法在语音情感特征提取方面的不足以及识别准确率不高的问题,本文通过提取语音数据中有效的情感特征,并将特征进行多尺度拼接融合,构造语音情感特征,提高深度学习模型对特征的表现能力。传统递归神经网络无法解决语音情感识别长时依赖问题,本文采用双层LSTM模型来改进语音情感识别效果,提出一种混合多尺度卷积与双层LSTM模型相结合的模型。实验结果表明,在中科院自动化所汉语情感数据库(CASIA)和德国柏林情感公开数据集(Emo-DB)下,本文所提语音情感识别模型相较于其他情感识别模型在准确率方面有较大提高。  相似文献   

15.
卷积神经网络的感受野大小与卷积核的尺寸相关,传统的卷积采用了固定大小的卷积核,限制了网络模型的特征感知能力;此外,卷积神经网络使用参数共享机制,对空间区域中所有的样本点采用了相同的特征提取方式,然而带噪频谱图噪声信号与干净语音信号的分布存在差异,特别是在复杂噪声环境下,使得传统卷积方式难以实现高质量的语音信号特征提取和过滤.为了解决上述问题,提出了多尺度区域自适应卷积模块,利用多尺度信息提升模型的特征感知能力;根据对应采样点的特征值自适应地分配区域卷积权重,实现区域自适应卷积,提升模型过滤噪声的能力.在TIMIT公开数据集上的实验表明,提出的算法在语音质量和可懂度的评价指标上取得了更优的实验结果.  相似文献   

16.
杨磊  赵红东  于快快 《计算机应用》2022,42(6):1869-1875
针对语音情感数据集规模小且数据维度高的特点,为解决传统循环神经网络(RNN)长程依赖消失和卷积神经网络(CNN)关注局部信息导致输入序列内部各帧之间潜在关系没有被充分挖掘的问题,提出一个基于多头注意力(MHA)和支持向量机(SVM)的神经网络MHA-SVM用于语音情感识别(SER)。首先将原始音频数据输入MHA网络来训练MHA的参数并得到MHA的分类结果;然后将原始音频数据再次输入到预训练好的MHA中用于提取特征;最后通过全连接层后使用SVM对得到的特征进行分类获得MHA-SVM的分类结果。充分评估MHA模块中头数和层数对实验结果的影响后,发现MHA-SVM在IEMOCAP数据集上的识别准确率最高达到69.6%。实验结果表明同基于RNN和CNN的模型相比,基于MHA机制的端到端模型更适合处理SER任务。  相似文献   

17.
为了克服传统机器学习方法在采用传感器数据进行人体行为识别领域上识别效果对人工特征选取依赖严重、识别准确率不高等问题,提出一种改进的全卷积神经网络和多层循环神经网络并联的深度学习模型(GRU-InFCN),并对传感器数据特征进行自动提取,实现人体动作的识别。该模型通过多尺度卷积神经网络和双层GRU网络(Gated Recurrent Unit,GRU)分别对传感器数据进行特征提取,将特征矩阵在矩阵维度上进行特征拼接再通过Softmax完成特征分类。实验结果表明,在开源人体行为识别(HAR)数据集上采用该方法进行人体行为识别,准确率达到了97.76%。该模型在取得高准确率的同时,避免了复杂的信号预处理和特征工程。  相似文献   

18.
赖文辉  乔宇鹏 《计算机应用》2018,38(9):2469-2476
对垃圾短信进行过滤识别研究具有重要的社会价值和时代背景意义。针对传统的人工设计短信特征选择方法中存在数据稀疏、特征信息共现不足和特征提取困难的问题,提出一种基于词向量和卷积神经网络(CNN)的垃圾短信识别方法。首先,使用word2vec的skip-gram模型根据维基中文语料库训练出短信数据集中每个词的词向量,并将每条短信中各个词组所对应的词向量组成表示短信的二维特征矩阵;然后,把特征矩阵作为卷积神经网络的输入,通过卷积层的不同尺度卷积核提取多尺度短信特征,以及利用1-max pooling池化策略得到局部最优特征;最后,将局部最优特征组成融合特征向量放入softmax分类器中得出分类结果。在10万条短信数据上进行的实验结果表明,在特征提取方式相同的情况下,基于卷积神经网络模型的识别准确率能够达到99.5%,比传统的机器学习模型提高了2.4%~5.1%,且各模型的识别准确率均保持在94%以上。  相似文献   

19.
袁单飞  陈慈发  董方敏 《计算机工程》2022,48(5):258-262+271
深度卷积神经网络能够解决复杂的计算机视觉问题,被广泛应用于图像识别任务中。在基于深度卷积神经网络的图像识别过程中,增加网络的深度和宽度能够产生丰富的特征信息,使用多尺度分割方法能够有效减少冗余的特征信息。然而,增加网络的深度和进行多尺度分割都会影响识别速度。如何在保证精度的同时提高识别速度,成为设计高效网络的关键问题。通过增加网络宽度的方法对ResNet残差网络进行改进,在保证精度的基础上提升识别速度。使用ResNet-D中的残差结构并减少网络长度,得到长度只有7层的残差网络,同时对HS-ResNet中的多尺度分割方法进行优化,只保留最后一次连接合并操作,得到图像识别残差网络SSRNet。在CIFAR 10和CIFAR 100数据集上的实验结果显示,SSRNet速度最高较ResNet网络提升7倍多,同时错误率最高下降8.81%,表明缩短网络长度可大幅加快图像识别速度,同时结合多尺度分割方法能够有效提升识别精度。  相似文献   

20.
针对基于卷积神经网络的步态识别模型不能充分利用局部细粒度信息的问题,提出基于多支路残差深度网络的跨视角步态识别方法.将多支路网络引入卷积神经网络中,分别提取步态轮廓序列图中不同粒度的特征,并利用残差学习和多尺度特征融合技术,增强网络的特征学习能力.在公开步态数据集CASIA-B和OU-MVLP上的实验证实文中方法的识别...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号