首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对基于传统机器学习遥感图像场景分类无法快速有效提取图像特征造成分类结果不准确的问题,提出一种基于注意力残差网络的遥感图像场景分类的方法,以残差网络为基准模型,在通道和空间两个维度上建立注意力模块,实验过程中对参数进行合理有效的设置,调整网络层数优化模型,达到对UC Merced Land-Use数据集的有效分类.实验结果表明,与基于卷积神经网络结构的遥感图像场景分类方法相比,该方法达到了98.1%的准确率.  相似文献   

2.
通过不同角度和方位的视频传感器对进入重点区域的人员视频数据进行分析管控,精准、快速定位视频中的目标人员对于保障社会安全具有重大意义.为解决传统方法受复杂环境干扰严重,识别准度低的问题,本文提出一种基于随机擦除和残差注意力网络的行人重识别方法.首先使用随机擦除的方法对原始数据进行数据增强,其次基于原始ResNet网络,提出一种融合注意力机制的残差网络模型,能够提取通道维度的视频序列特征,并且抑制冗余背景干扰,提高模型对重要特征的关注程度和提取能力,最后使用级联的难采样三元组损失函数和交叉熵损失函数对网络模型进行训练,使样本能够在高维特征空间中实现聚类,从而有效提供识别精度.实验结果表明,该算法在CUHK03数据集上的精准度优于其它被比较的方法,证明了该方法能够应用于不同条件下的行人重识别任务.  相似文献   

3.
针对现有行人重识别方法过于注重对行人图像强辨别性特征的提取导致模型缺乏鲁棒性,以及无法很好地结合空间和通道维度信息的问题,提出一种基于空间弱化和通道增强注意力的行人重识别方法。通过弱化对于高响应区域的注意,迫使模型学习更全面的特征信息,提升模型的泛化能力。嵌入通道注意力机制,通过学习特征通道之间的相关性,自动校准通道维度上的注意力。在Market-1501、DukeMTMC-ReID、CUHK03和MSMT17数据集上进行的实验结果表明,该方法具有较好的鲁棒性和识别准确率,能有效提高行人重识别性能。特别地,在CUHK03数据集中提升了7.6%的Rank-1精度和10.4%的mAP。  相似文献   

4.
跨模态行人重识别主要面临 2 个问题:①成像机制不同所导致的红外图像和可见光图像之间的 模态差异;②图像特征的身份判别性不足导致的类内差异。针对上述 2 个问题,基于残差增强注意力的跨模态 行人重识别方法被提出用来提高行人特征的模态不变性和身份判别性。首先,设计网络浅层参数独立、网络深 层参数共享的双路卷积神经网络作为骨干网络。然后,分析现有注意力机制存在的全局弱化,设计了残差增强 注意力方法解决该问题,提升注意力机制的性能,将其分别应用在网络浅层的通道维度和深层的空间位置上, 提升模型对于模态差异的消除能力和行人特征的身份鉴别能力。在 SYSU-MM01 和 RegDB 2 个数据集上进行 的实验证明了该方法的先进性,大量的对比实验也充分证明本文方法的有效性。  相似文献   

5.
视频场景识别是机器学习和计算机视觉一个重要的研究领域.但是当前对于视频场景识别的探索工作还远远不够,而且目前提出的模型大都使用视频级的特征信息,忽略了多粒度的视频特征关联.本文提出了一种基于多粒度的视频特征的注意力机制的模型架构,可以动态高效的利用各维度视频信息之间存在的丰富的语义关联,提高识别准确度.本文在中国多媒体大会(CCF ChinaMM 2019)最新推出的VideoNet数据集上进行了实验,实验结果表明基于多粒度的视频特征的注意力机制的模型与传统方法相比具有明显的优越性.  相似文献   

6.
水声信号识别近年来备受关注,由于海洋信道具有时变空变性、信号传播的衰落特性和水下目标声源具有复杂多变性,水声信号识别任务面临巨大挑战.传统的水声信号识别方法难以充分获取目标的表征信息且不具备良好的抗噪声能力,识别效果有待提升.针对上述问题,本文提出一种基于多分支外部注意力网络(multi-branch external attention network, MEANet)的水声信号识别方法,可以在复杂海洋环境下充分获取水声信号的特征并进行识别. MEANet由多分支主干网络,通道、空间注意力模块和外部注意力模块组成.首先,输入数据通过多个并行的主干网络分支,提取水声信号不同层级的特征信息;其次,辅以通道、空间注意力模块对水声信号的通道和空间维度分别进行加权,调节不同通道和空间位置对特征表示的重要性;最后,整合外部注意力模块,以外部记忆单元和附加计算来引导网络的特征提取和预测,从而显著提高模型的识别率和鲁棒性.实验结果表明,本文提出的MEANet在ShipsEar数据集上的水声信号识别率达到98.84%,显著优于其他对比算法,证实了其有效性.  相似文献   

7.
针对传统的基于深度学习的文本情感分类模型特征抽取不全面以及不能区分一词多义的问题,提出一种基于门控注意力的双通道情感分类模型BGA-DNet。该模型使用BERT预训练模型对文本数据进行处理,然后经过双通道网络提取文本特征,其中通道一利用TextCNN提取局部特征,通道二利用BiLSTM-Attention提取全局特征。同时引入门控注意力单元将部分无用的注意力信息过滤掉,并结合残差网络思想,确保双通道的输出在网络学习到饱和状态下保留原始编码信息。BGA-DNet在公开的酒店评论和餐饮评论两个数据集上进行实验评估,并与最新的情感分类方法进行对比,分别取得了准确率94.09%和91.82%的最佳效果。最后将BGA-DNet模型应用到真实的学生实验心得体会评价任务上,与其他方法相比准确率和F1值也是最高的。  相似文献   

8.
为解决卷积神经网络在中文语音识别中识别准确率低、鲁棒性差的问题,提出一种基于双路卷积神经网络的声学建模方法。利用多尺度学习方法提取多尺度特征信息;将软阈值非线性转换层和注意力机制进行融合后嵌入残差网络,减轻网络梯度问题,加强网络特征信息传递,提高特征学习效果;采用连接时序分类技术分类,简化语音识别流程。实验结果表明,该模型与传统识别模型相比,词错误率降低了7.52%,在3种噪声环境下,错误率也低于传统模型。  相似文献   

9.
人脸表情是人类内心情绪最真实最直观的表达方式之一,不同的表情之间具有细微的类间差异信息。因此,提取表征能力较强的特征成为表情识别的关键问题。为提取较为高级的语义特征,在残差网络(ResNet)的基础上提出一种注意力金字塔卷积残差网络模型(APRNET50)。该模型融合金字塔卷积模块、通道注意力和空间注意力。首先用金字塔卷积提取图像的细节特征信息,然后对所提特征在通道和空间维度上分配权重,按权重大小定位显著区域,最后通过全连接层构建分类器对表情进行分类。以端到端的方式进行训练,使得所提网络模型更适合于精细的面部表情分类。实验结果表明,在FER2013和CK+数据集上识别准确率可以达到73.001%和94.949%,与现有的方法相比识别准确率分别提高了2.091个百分点和0.279个百分点,达到了具有相对竞争力的效果。  相似文献   

10.
海面温度(SST)与全球气候变化、海洋灾害、海洋生态系统密切相关,因此准确地预测SST是一个重要课题。现有区域型SST预测方法将SST时间序列处理为二维矩阵序列并作为模型输入,每个矩阵对应着特定时刻的区域SST,通过提取时空特征来实现其预测,但未充分考虑不同时空特征在时间维度和空间维度上对SST影响的不均衡性,限制了预测精度地提高。为了解决该问题,提出了一种结合时间注意力机制和空间注意力机制的区域SST预测方法(CRA-ConvLSTM),使得模型动态关注不同时刻的时间特征和区域内不同点的空间特征,赋予不同的影响权重,进而提高SST预测精度。具体来说,首先将输入的区域SST时间序列通过卷积神经网络(CNN)编码为多层特征向量,提取局部特征;然后构建了残差时间注意力模块,自适应地学习不同时刻的注意力权重,提取时间维度上的关键特征,并设计了残差空间注意力模块,提取区域内不同点在空间维度上的关键特征,此外,将注意力机制结合残差结构避免了网络中信息量过少导致的性能下降问题;最后通过卷积长短时记忆神经网络(ConvLSTM)将特征向量映射为SST预测结果。实验结果显示,该模型的均方根误差(RMS...  相似文献   

11.
为了解决语音情感识别中时空特征动态依赖问题,提出一种基于注意力机制的非线性时空特征融合模型。模型利用基于注意力机制的长短时记忆网络提取语音信号中的时间特征,利用时间卷积网络提取语音信号中的空间特征,利用注意力机制将时空特征进行非线性的融合,并将非线性融合后的高级特征输入给全连接层进行语音情感识别。实验在IEMOCAP数据集中进行评估,实验结果表明,该方法可以同时考虑时空特征的内在关联,相对于使用线性融合的方法,利用注意力机制进行非线性特征融合的网络可以有效地提高语音情感识别准确率。  相似文献   

12.
转炉炼钢的状态判别对成品钢材质量的好坏有直接影响。根据人工经验的状态判别需要持续观察炉口的火焰变化,存在主观性强、成本高等问题。为了提升转炉炼钢状态判别的准确率,提出一种基于注意力机制的3D残差卷积神经网络模型。改进的通道注意力将平均池化和最大池化进行特征融合,可以推断出更精细的通道特征,空间注意力能提取到空间上的重点信息。实验结果表明,改进的模型效果好于SE、CBAM和ECA注意力模块,与未加注意力机制的3D残差模型相比,F1分数提高了1.03个百分点,准确度提高了1.06个百分点。最后通过消融实验,分析通道注意力和空间注意力对于网络模型的影响。  相似文献   

13.
《微型机与应用》2020,(1):59-62
针对目前传统人脸表情识别算法存在特征提取复杂、表情识别率低等问题,提出一种基于混合注意力机制的Res Net人脸表情识别方法。该方法把通道注意力模块和空间注意力模块组成混合注意力模块,将混合注意力模块嵌入Res Net残差学习分支中。针对CK+人脸表情数据集过小问题,采用数据增强策略扩充数据集。实验结果表明,改进后的Res Net在CK+数据集上表情识别准确率为97. 04%,有效提高了表情识别准确率。  相似文献   

14.
卷积神经网络在手势识别领域应用广泛,但现有的卷积神经网络存在特征表征不足的问题,导致手势识别精度较低。提出一种轻量级静态手势识别算法r-mobilenetv2,通过串联通道注意力与空间注意力,将两者输出的特征图以跳跃连接的形式线性相加,得到一种全新的注意力机制。使用一维卷积调整低层特征的通道维度,将低级特征与经过上采样的高层特征进行空间维度匹配及通道维度匹配,并进行线性相加,其结果经卷积操作后与高层特征按通道维度连接,从而实现特征融合。在此基础上,将所提注意力机制与特征融合相结合,并用于改进后的轻量级网络MobileNetV2中,得到r-mobilenetv2算法。实验结果表明,与MobileNetV2算法相比,r-mobilenetv2算法的参数量降低了27%,错误率下降了1.82个百分点。  相似文献   

15.
目前基于注意力机制的序列到序列声学模型成为语音识别领域的研究热点。针对该模型训练耗时长和鲁棒性差等问题,提出一种结合瓶颈特征的注意力声学模型。该模型由基于深度置信网络(Deep Belief Network,DBN)的瓶颈特征提取网络和基于注意力的序列到序列模型两部分组成:DBN能够引入传统声学模型的先验信息来加快模型的收敛速度,同时增强瓶颈特征的鲁棒性和区分性;注意力模型利用语音特征序列的时序信息计算音素序列的后验概率。在基线系统的基础上,通过减少注意力模型中循环神经网络的层数来减少训练的时间,通过改变瓶颈特征提取网络的输入层单元数和瓶颈层单元数来优化识别准确率。在TIMIT数据库上的实验表明,该模型在测试集上的音素错误率降低至了17.80%,训练的平均迭代周期缩短了52%,训练迭代次数由139减少至89。  相似文献   

16.
针对双线性卷积网络忽略特征图中不同通道和空间位置对分类的不同作用问题,提出一种基于双注意力机制的核化双线性卷积网络模型。从通道和空间两个维度上对局部区域进行双注意力建模,通道注意力机制对通道加权,空间注意力机制对位置加权,将两个机制的注意力特征图矩阵相加后进行外积聚合。采用sigmoid核函数对外积矩阵进行核化,建模通道间的非线性关系。实验在CUB-200-2011、FGVC-Aircraft以及Standford-Cars这3个细粒度数据集上对该方法进行测试,实验结果表明,该方法在3个数据集上均优于同类方法。  相似文献   

17.
针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型中的概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征;然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明,该方法在1 000 h及10 000 h级别的语音识别任务上分别较端到端语音识别基线方法在准确率上相对提升了5.2%和5.0%,进一步改善了语音识别结果的可懂度。  相似文献   

18.
张亚茹  孔雅婷  刘彬 《自动化学报》2022,48(7):1805-1815
现有基于深度学习的立体匹配算法在学习推理过程中缺乏有效信息交互, 而特征提取和代价聚合两个子模块的特征维度存在差异, 导致注意力方法在立体匹配网络中应用较少、方式单一. 针对上述问题, 本文提出了一种多维注意力特征聚合立体匹配算法. 设计2D注意力残差模块, 通过在原始残差网络中引入无降维自适应2D注意力残差单元, 局部跨通道交互并提取显著信息, 为匹配代价计算提供丰富有效的特征. 构建3D注意力沙漏聚合模块, 以堆叠沙漏结构为骨干设计3D注意力沙漏单元, 捕获多尺度几何上下文信息, 进一步扩展多维注意力机制, 自适应聚合和重新校准来自不同网络深度的代价体. 在三大标准数据集上进行评估, 并与相关算法对比, 实验结果表明所提算法具有更高的预测视差精度, 且在无遮挡的显著对象上效果更佳.  相似文献   

19.
针对多类别运动想象脑电信号识别精度不高的问题,提出了一种融合注意力模块的卷积神经网络模型。该模型利用注意力模块充分挖掘脑电信号的通道和空间特征,建立其与识别任务之间的重要程度关系,从而提高运动想象脑电信号的识别准确率。信号经过共空间模式提高信噪比,利用小波变换将信号转换成二维时频图,通过注意力模块中通道和空间两个维度进行特征的调整,以强化有用特征弱化无用特征,使卷积网络充分提取更高层次的抽象特征,并最终执行运动想象任务的识别。分别在BCI竞赛IV Datasets 2a和BCI竞赛III-IIIa数据集上进行了有效性评价,并与卷积神经网络以及其他算法进行了比较。实验结果表明,提出的方法可达到良好的准确率,能够有效提高脑电信号运动想象任务的识别准确率。  相似文献   

20.
针对目前表面肌电信号(surface electromyography,sEMG)端到端手势识别特征提取不充分、多手势识别准确率不高的问题,提出一种融合注意力机制的多流卷积肌电手势识别网络模型.该模型通过滑动窗口将多通道时域sEMG生成肌电子图,并使用多流卷积神经网络充分提取每个采集通道sEMG的语义特征,然后将其聚合得到丰富的多通道手势语义特征;同时从时间和特征通道维度上计算语义特征的注意力分布图,强化有用特征并弱化无用特征,进一步提高多手势识别准确率.实验使用Ninapro数据集进行训练和测试,并与主流的肌电手势识别模型进行对比.实验结果表明,该模型在识别准确率上具有更好的表现,证明了该模型的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号