首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
为提高道路交通安全,解决司机分心驾驶问题,对基于卷积神经网络的驾驶员行为识别模型进行了改进。首先对基于DenseNet的驾驶行为识别模型进行研究,在其基础上引入注意力机制对其进行改进;将注意力机制模块化后设计了三种改进模型;最后将实验结果进行对比分析,确定性能较优的改进模型为SE-PRE模型。实验结果显示,提出的改进模型在相关数据集上达到了94.21%的准确率,上述模型能够准确且高效的识别驾驶行为,为后续的车辆智能化研究奠定了基础。  相似文献   

2.
为了提高声纹识别技术的识别性能,将DenseNet应用于语谱图实现声纹识别,从提高网络的运算效率和增强声纹特征的表征能力2个方面对DenseNet进行优化,提出采用深度可分离卷积来减少网络的参数量,以及增加中心损失函数项来提高声纹特征的表征能力.从训练结果可以看出,通过深度可分离卷积,网络的参数量减少了25.5%,模型...  相似文献   

3.
针对现有人体动作识别方法需输入固定长度的视频段、未充分利用时空信息等问题,提出一种基于时空金字塔和注意力机制相结合的深度神经网络模型,将包含时空金字塔的3D-CNN和添加时空注意力机制的LSTM模型相结合,实现了对视频段的多尺度处理和对动作的复杂时空信息的充分利用。以RGB图像和光流场作为空域和时域的输入,以融合金字塔池化层的运动和外观特征后的融合特征作为融合域的输入,最后采用决策融合策略获得最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了94.2%和70.5%的识别准确率。实验结果表明,改进的网络模型在基于视频的人体动作识别任务上获得了较高的识别准确率。  相似文献   

4.
目前基于注意力机制的序列到序列声学模型成为语音识别领域的研究热点。针对该模型训练耗时长和鲁棒性差等问题,提出一种结合瓶颈特征的注意力声学模型。该模型由基于深度置信网络(Deep Belief Network,DBN)的瓶颈特征提取网络和基于注意力的序列到序列模型两部分组成:DBN能够引入传统声学模型的先验信息来加快模型的收敛速度,同时增强瓶颈特征的鲁棒性和区分性;注意力模型利用语音特征序列的时序信息计算音素序列的后验概率。在基线系统的基础上,通过减少注意力模型中循环神经网络的层数来减少训练的时间,通过改变瓶颈特征提取网络的输入层单元数和瓶颈层单元数来优化识别准确率。在TIMIT数据库上的实验表明,该模型在测试集上的音素错误率降低至了17.80%,训练的平均迭代周期缩短了52%,训练迭代次数由139减少至89。  相似文献   

5.
为解决卷积神经网络在中文语音识别中识别准确率低、鲁棒性差的问题,提出一种基于双路卷积神经网络的声学建模方法。利用多尺度学习方法提取多尺度特征信息;将软阈值非线性转换层和注意力机制进行融合后嵌入残差网络,减轻网络梯度问题,加强网络特征信息传递,提高特征学习效果;采用连接时序分类技术分类,简化语音识别流程。实验结果表明,该模型与传统识别模型相比,词错误率降低了7.52%,在3种噪声环境下,错误率也低于传统模型。  相似文献   

6.
花卉识别在生活中有重要的应用和研究价值。目前传统的花卉识别方法都是通过人工手动选择多个特征进行分类,存在识别准确率低、泛化能力较弱和分类时间长等问题。由于不同的花朵之间存在相似度,通过对每张图片随机变化,增强数据集,把花卉作为研究对象,提出了一种基于ResNet18网络模型优化的花卉识别方法。将ResNet18网络模型中残差块的基础卷积替换为空洞卷积,提取花卉图片更多的细节特征来实现高精度,接着在每个残差块后分别加入经过改进的通道注意力机制优化网络权重,构造改进的ResNet18网络模型,在Oxford 102 Flowers牛津花卉数据集上的实验进行了仿真。实验结果显示,在Oxford 102 Flowers牛津花卉数据集上ResNet网络模型相较于基础AlexNet、VGG-16网络模型准确率高。改进的ResNet网络模型识别精度可以高达97.78%,比仅使用空洞卷积的模型提高了3.11个百分点,比原模型提高了4.45个百分点。改进的ResNet18网络模型在花卉识别的泛化和拟合能力有显著的提高。  相似文献   

7.
针对传统卷积神经网络对多传感器指纹识别泛化能力降低、准确率不高的问题,提出改进的Stacking集成学习算法。首先将AlexNet进行改进,在AlexNet中引入深度可分离卷积减少参数量,加快训练速度;引入空间金字塔池化,提升网络获取全局信息的能力;引入批归一化,加快网络收敛速度,同时提升网络在测试集上的准确率;使用全局平均池化替代全连接层,防止过拟合。然后将DenseNet和改进的AlexNet 2种卷积神经网络作为Stacking的基学习器对指纹进行分类,获得预测结果。最后对相同基学习器训练得到的各个模型,根据预测精度对各预测结果赋权,得到的预测结果再由元分类器分类。改进的Stacking算法在多传感器指纹数据库上进行实验,最终识别准确率达98.43%,相对AlexNet提升了20.05%,相对DenseNet提升了4.25%。  相似文献   

8.
针对现有的手写数学公式识别(HMER)方法经过卷积神经网络(CNN)多次池化后,图像分辨率降低、特征信息丢失,从而引起解析错误的问题,提出基于注意力机制编码器-解码器的HMER模型。首先,采用稠密卷积网络(DenseNet)作为编码器,使用稠密连接加强特征提取,促进梯度传播,并缓解梯度消失;其次,采用门控循环单元(GRU)作为解码器,并引入注意力机制,将注意力分配到图像的不同区域,从而准确地实现符号识别和结构分析;最后,对手写数学公式图像进行编码,将编码结果解码为LaTeX序列。在在线手写数学公式识别竞赛(CROHME)数据集上的实验结果表明,所提模型的识别率提升到40.39%,而在3个级别的允许误差范围内,识别率分别提升到52.74%、58.82%和62.98%。相较于双向长短期记忆(BLSTM)网络模型,所提模型的识别率提高了3.17个百分点;而在3个级别的允许误差范围内,识别率分别提高了8.52、11.56和12.78个百分点。可见,所提模型能够准确地解析手写数学公式图像,生成LaTeX序列,提升识别率。  相似文献   

9.
语音是一种重要的信息资源传递与交流方式,人们经常使用语音作为交流信息的媒介,在语音的声学信号中包含大量的说话者信息、语义信息和丰富的情感信息,因此形成了解决语音学任务的3个不同方向,即声纹识别(Speaker Recognition,SR)、语音识别(Auto Speech Recognition,ASR)和情感识别(Speech Emotion Recognition,SER),3个任务均在各自的领域使用不同的技术与特定的方法进行信息提取与模型设计。文中首先综述了3个任务在国内外早期的发展历史路线,将语音任务的发展归纳为4个不同阶段,同时总结了3个语音学任务在特征提取时所采用的公共语音学特征,并针对每类特征的侧重点进行了说明。然后,随着近年来深度学习技术在各个领域中的广泛应用,语音任务也得到了很好的发展,文中针对目前流行的深度学习模型在声学建模中的应用分别进行了分析,按照有监督、无监督的方式总结了针对3种不同语音任务的声学特征提取方式及技术路线,还总结了基于多通道并融合注意力机制的模型,用于语音的特征提取。为了同时完成语音识别、声纹识别和情感识别任务,针对声学信号的个性化特征提出了一个基于多任务的Tandem模型;此外,提出了一个多通道协作网络模型,利用这种设计思路可以提升多任务特征提取的准确度。  相似文献   

10.
传统声纹识别方法过程复杂,模型识别准确率低,是声纹识别应用发展的关键问题。利用深度学习具有自主特征提取及分类的特点,结合卷积神经网络(CNN)和长短期记忆网络(LSTM),提出一种结合的网络模型学习声纹识别特征及对其进行身份认证。将原始语音转换为固定长度语谱图,顺序进入CNN、LSTM,结合网络进行训练以及声纹特征学习。通过对比CNN、LSTM以及DNN网络,验证CNN-LSTM网络在声纹识别中具有较少迭代次数情况下高准确率的特性。经实验结果可以得出,语音空间特征及时序特征均是声纹识别中重要的影响因素,实验中的CNN-LSTM网络模型准确率达到95.42%,损失低值达到0.097 3。该方法有利于实际声纹识别的应用。  相似文献   

11.
在图像处理和深度学习的中药材鉴技术的研究中,针对识别速度与精度的提升问题,提出一种基于改进TCM-Net的鉴别方法。先是创建了规范化的中药图像数据集为鉴别技术提供了数据支持,同时引入注意力机制的概念,设计了相关的系统模型,即Attention-T CM-Net,应用于中药识别的实际操作中。首先提升了关注每种药材特征的性能,然后改进移动倒置瓶颈卷积模块,此设计既保证了轻量级网络的实现,又加强了中药识别的准确性。结果表明:无迁移学习中模型top-1准确率为97.48%,宏准确率98.26%;引入注意力机制后模型的top-1准确率和宏准确率分别是98.15%和98.62%。实验证明此系统模型适用于图像处理和深度学习的中药材鉴别。  相似文献   

12.
基于DCNN模型的农作物病害识别方法在实验室环境下识别准确率高,但面对噪声时缺少鲁棒性.为了兼顾农作物病害识别的精度和鲁棒性,本文在标准ViT模型基础上加入增强分块序列化和掩码多头注意力,解决标准ViT模型缺乏局部归纳偏置和视觉特征序列的自注意力过于关注自身的问题.实验结果表明,本文的EPEMMSA-ViT模型对比标准ViT模型可以更高效的从零学习;当添加预训练权重训练网络时,EPEMMSA-ViT模型在数据增强的PlantVillage番茄子集上能够得到99.63%的分类准确率;在添加椒盐噪声的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了6.08%、9.78%、29.78%和12.41%;在添加均值模糊的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了18.92%、31.11%、20.37%和19.58%.  相似文献   

13.
郑志强  胡鑫  翁智  王雨禾  程曦 《计算机应用》2021,41(9):2780-2784
针对牛眼图像特征提取过程中由于梯度消失和过拟合造成的识别准确率较低的问题,提出一种基于改进DenseNet的牛眼图像特征提取方法。首先采用缩放指数线性单元(SeLU)激活函数防止网络梯度消失;其次通过DropBlock随机丢弃牛眼图像的特征块,从而防止过拟合,并加强网络的泛化能力;最后将改进后的稠密层进行叠加以组成改进的DenseNet(Dense convolutional Network)。在自建牛眼图像数据集上进行特征信息提取识别实验的结果表明,改进后的DenseNet识别准确率、精确率和召回率分别为97.47%、98.11%和97.90%;较改进前的网络在识别准确率、精确率和召回率上分别提升了2.52个百分点、3.32个百分点和2.94个百分点,可见改进后的网络具有较高的精度与鲁棒性。  相似文献   

14.
为提高细粒度图像分类的精确度,提出一种基于双线性网络(Bilinear CNN)的改进方法.首先,选取结构紧密的DenseNet121卷积部分作为特征提取模块,运用改进的Relu-and-Softplus激活函数;接着,结合注意力机制引入空间注意力模块和通道注意力模块,在整体性和局部性上有效提取细节特征;并增加一层卷积层实现调整特征图维度的过渡作用,通过特征图分组策略有效降低特征向量维度减少参数;在双线性池化后采用全局最大池化层处理N个双线性特征向量,融合得到用于Softmax分类的最终向量.经实验证明,新模型的分类精确度可达到96.869%,参数量也大幅度降低,工作效率显著提高.  相似文献   

15.
众所周知中文普通话被众多的地区口音强烈地影响着,然而带不同口音的普通话语音数据却十分缺乏。因此,普通话语音识别的一个重要目标是恰当地模拟口音带来的声学变化。文章给出了隐式和显式地使用口音信息的一系列基于深度神经网络的声学模型技术的研究。与此同时,包括混合条件训练,多口音决策树状态绑定,深度神经网络级联和多级自适应网络级联隐马尔可夫模型建模等的多口音建模方法在本文中被组合和比较。一个能显式地利用口音信息的改进多级自适应网络级联隐马尔可夫模型系统被提出,并应用于一个由四个地区口音组成的、数据缺乏的带口音普通话语音识别任务中。在经过序列区分性训练和自适应后,通过绝对上 0.8% 到 1.5%(相对上 6% 到 9%)的字错误率下降,该系统显著地优于基线的口音独立深度神经网络级联系统。  相似文献   

16.
在语音模态中,利用OpenSMILE工具箱可以从语音信号中提取浅层声学特征,通过Transformer Encoder网络从浅层声学特征中挖掘深层特征,并将深浅层特征融合,从而获取更丰富的情感表征。在文本模态中,考虑到停顿因素与情感之间的关联性,将语音和文本对齐以获得说话停顿信息,采用停顿编码的方式将停顿信息添加到转录文本中,再通过DC-BERT模型获取话语级文本特征。将获得的声学与文本特征进行融合,利用基于注意力机制的双向长短时记忆(Bi-directional long short-term memory-attention,BiLSTM-ATT)神经网络进行情感分类。最后,本文对比了3种不同注意力机制融入BiLSTM网络后对情感识别的影响,即局部注意力、自注意力和多头自注意力,发现局部注意力的效果最优。实验表明,本文提出的方法在IEMOCAP数据集上的4类情感分类的加权准确率达到了78.7%,优于基线系统。  相似文献   

17.
目前, 基于局部注意力机制的卷积神经网络(CNNs)用于亲属关系识别特征提取获得了不错的效果, 但基于卷积神经网络的主干模型提升不明显, 同时鲜有研究者使用具有全局信息捕获能力的自注意机制. 因此, 提出使用基于一种无卷积主干特征提取网络的S-ViT模型, 即用具有自全局注意力机制的Vision Transformer作为基础主干特征提取网络, 通过构建孪生网络与具有局部注意力机制的CNN相结合, 扩大传统分类网络, 用于亲属关系识别相关问题的研究. 最终实验结果表明, 相比RFIW2020挑战赛领先的方法, 所提出的方法在亲属关系识别3个任务上获得了良好的效果, 第1个任务中获得了76.8%验证精度排名第二, 第2个和第3个任务中排名第三, 证明了该方法的可行性和有效性, 为亲属关系识别提出了一种新的解决方法.  相似文献   

18.
针对于遥感图像中背景复杂噪声多、小目标多且排布密集、目标尺度差异大等问题,提出了一种改进通道注意力与残差收缩网络的遥感图像目标检测算法。该算法借助卷积神经网络,以YOLOV3模型作为基础网络,选择Mosaic图像增强的方式进行数据预处理,采用深度残差收缩模块重构了特征提取网络,并结合通道注意力机制与组合池化构建空间金字塔池化融合层,采用CIOU进行定位损失计算,最终实现遥感图像目标检测。实验结果表明:改进算法相比于原算法的总体mAP由89.2%提升至92.2%,获得了更好的性能表现。  相似文献   

19.
综合了语音识别中常用的高斯混合模型和人工神经网络框架优点的Tandem特征提取方法应用于维吾尔语声学模型训练中,经过一系列后续处理,将原始的MFCC特征转化为Tandem特征,以此作为基于隐马尔可夫统计模型的语音识别系统的输入,并使用最小音素错误区分性训练准则训练声学模型,进而完成在测试集上的识别实验。实验结果显示,Tandem区分性训练方法使识别系统的单词错误率比原先的基于最大似然估计准则的系统相对减少13%。  相似文献   

20.
针对传统声纹识别方法在实际应用场景中跨设备情况下声纹识别性能较差的问题,提出了一种基于深度学习的跨设备声纹识别方法,采用了卷积循环网络的模型架构,在声纹注册阶段录制多段语音进行声纹特征的拟合建模,在识别阶段使用了切片降噪方式提取音频中的语音信息,在设备端使用了DSP芯片支持的双麦克采集现场声音。实验结果表明,在跨设备声纹识别条件下,本文提出的声纹识别方法识别准确率高于目前主流的方法,达到80%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号