首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
车辆重识别的目的是从大型车辆数据库中找到与查询车辆相同特征的所有车辆图片。目前,由于同一车辆在不同视角下外观差异大或颜色、车型相同的不同车辆在特定视角下外观差异小,导致车辆重识别的准确度和鲁棒性均有待提高。提出一个视角感知局部注意力网络,采用弱监督注意力学习方式代替人工手动的车辆局部部件标注,自适应学习每个视角内所有显著性局部特征。通过局部注意力裁剪操作裁剪并放大该视角领域内部件细节信息,并基于局部注意力擦除操作擦除一些局部区域,以鼓励模型发掘该视角领域内其他更多的显著性局部线索。构建一种共同视角的注意力增强模块,以强化共同视角特征学习,并根据视角的相似度给每个视角分配相应的权重,使同一视角特征学习得到增强,不同视角特征学习受到抑制。实验结果表明,所提网络在VeRi-776数据集下的mAP为81.2%,在VehicleID数据集下的CMC@1、CMC@5分别为85.7%、98.0%,相较于PRN、PVEN、SAVER等重识别网络具有更高的识别精度和更强的泛化能力。  相似文献   

2.
为了解决Transformer编码器在行人重识别中因图像块信息丢失以及行人局部特征表达不充分导致模型识别准确率低的问题,本文提出改进型Transformer编码器和特征融合的行人重识别算法。针对Transformer在注意力运算时会丢失行人图像块相对位置信息的问题,引入相对位置编码,促使网络关注行人图像块语义化的特征信息,以增强行人特征的提取能力。为了突出包含行人区域的显著特征,将局部patch注意力机制模块嵌入到Transformer网络中,对局部关键特征信息进行加权强化。最后,利用全局与局部信息特征融合实现特征间的优势互补,提高模型识别能力。训练阶段使用Softmax及三元组损失函数联合优化网络,本文算法在Market1501和DukeMTMC-reID两大主流数据集中评估测试,Rank-1指标分别达到97.5%和93.5%,平均精度均值(mean Average precision, mAP)分别达到92.3%和83.1%,实验结果表明改进型Transformer编码器和特征融合算法能够有效提高行人重识别的准确率。  相似文献   

3.
Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transformer块和通道交叉注意力机制的DualF ormer模型,用以检测地铁站台屏蔽门与列车门间隙中存在的异物。针对输入图像块尺寸固定的问题,提出双通道策略,通过设计2种不同的特征提取通道对不同尺度的输入图像块进行特征提取,增强网络对粗、细粒度特征的提取能力,提高对多尺度目标的识别精度;针对计算成本高的问题,构建金字塔轻量化Transformer块,将级联卷积引入到多头自注意力(MHSA)模块中,并利用卷积的维度压缩能力来降低模型的计算成本;针对局部与全局信息交互匮乏的问题,提出通道交叉注意力机制,利用提取到的粗细粒度特征在通道层面进行交互,优化局部与全局信息在网络中的权重。在标准化地铁异物检测数据集上的实验结果表明,DualFormer模型参数量为1.98×107,实现了89.7%的精度和24帧/s的速度,优于对比的Tra...  相似文献   

4.
针对现有的人体行为识别算法不能充分利用网络多层次时空信息的问题,提出了一种基于三维残差稠密网络的人体行为识别算法。首先,所提算法使用三维残差稠密块作为网络的基础模块,模块通过稠密连接的卷积层提取人体行为的层级特征;其次,经过局部特征聚合自适应方法来学习人体行为的局部稠密特征;然后,应用残差连接模块来促进特征信息流动以及减轻训练的难度;最后,通过级联多个三维残差稠密块实现网络多层局部特征提取,并使用全局特征聚合自适应方法学习所有网络层的特征用以实现人体行为识别。设计的网络算法在结构上增强了对网络多层次时空特征的提取,充分利用局部和全局特征聚合学习到更具辨识力的特征,增强了模型的表达能力。在基准数据集KTH和UCF-101上的大量实验结果表明,所提算法的识别率(top-1精度)分别达到了93.52%和57.35%,与三维卷积神经网络(C3D)算法相比分别提升了3.93和13.91个百分点。所提算法框架有较好的鲁棒性和迁移学习能力,能够有效地处理多种视频行为识别任务。  相似文献   

5.
针对自然环境中存在人脸遮挡、姿势变化等复杂因素,以及卷积神经网络(CNN)中的卷积滤波器由于空间局部性无法学习大多数神经层中不同面部区域之间的长程归纳偏差的问题,提出一种用于动态人脸表情识别(DFER)的混合注意力机制模型(HA-Model),以提升DFER的鲁棒性和准确性。HA-Model由空间特征提取和时序特征处理两部分组成:空间特征提取部分通过两种注意力机制——Transformer和包含卷积块注意力模块(CBAM)的网格注意力模块,引导网络从空间角度学习含有遮挡、姿势变化的鲁棒面部特征并关注人脸局部显著特征;时序特征处理部分通过Transformer引导网络学习高层语义特征的时序联系,用于学习人脸表情特征的全局表示。实验结果表明,HA-Model在DFEW和AFEW基准上的准确率分别达到了67.27%和50.41%,验证了HA-Model可以有效提取人脸特征并提升动态人脸表情识别的精度。  相似文献   

6.
近年来, RGB-D显著性检测方法凭借深度图中丰富的几何结构和空间位置信息, 取得了比RGB显著性检测模型更好的性能, 受到学术界的高度关注. 然而, 现有的RGB-D检测模型仍面临着持续提升检测性能的需求. 最近兴起的Transformer擅长建模全局信息, 而卷积神经网络(CNN)擅长提取局部细节. 因此, 如何有效结合CNN和Transformer两者的优势, 挖掘全局和局部信息, 将有助于提升显著性目标检测的精度. 为此, 提出一种基于跨模态交互融合与全局感知的RGB-D显著性目标检测方法, 通过将Transformer网络嵌入U-Net中, 从而将全局注意力机制与局部卷积结合在一起, 能够更好地对特征进行提取. 首先借助U-Net编码-解码结构, 高效地提取多层次互补特征并逐级解码生成显著特征图. 然后, 使用Transformer模块学习高级特征间的全局依赖关系增强特征表示, 并针对输入采用渐进上采样融合策略以减少噪声信息的引入. 其次, 为了减轻低质量深度图带来的负面影响, 设计一个跨模态交互融合模块以实现跨模态特征融合. 最后, 5个基准数据集上的实验结果表明, 所提算法与其他最新的算法相比具有显著优势.  相似文献   

7.
如何在多目标并列的情况下,确定符合人类思维习惯的核心目标是遥感图像识别的关键之一.因此,在全局视野下,为各目标分配符合人类视觉习惯的注意力,是甄选核心目标的有效途径之一.文中结合Transformer提取全局特征的思想和Swin Transformer对图像栅格化处理可降低计算量的优点,提出基于伪全局Swin Transformer的遥感图像识别算法.构建伪全局Swin Transformer模块,将遥感图像栅格化后的各局部信息聚合为一个特征值,替代以像素为基础的全局信息,以较小计算量为代价,获取全局特征,有效提升模型对所有目标的感知能力.同时,通过以可变形卷积为基础的感受野自适应缩放模块,使感受野向核心目标偏移,提高网络对核心目标信息的关注,从而实现对遥感图像的精确识别.在RSSCN7、AID和OPTIMAL-31遥感图像数据集上的实验表明,文中算法取得较高的识别精度和参数识别效率.  相似文献   

8.
廖光锴  张正  宋治国 《计算机应用》2022,42(6):1876-1883
针对现有的基于卷积神经网络(CNN)的车辆重识别方法所提取的特征表达力不足的问题,提出一种基于小波特征与注意力机制相结合的车辆重识别方法。首先,将单层小波模块嵌入到卷积模块中代替池化层进行下采样,减少细粒度特征的丢失;其次,结合通道注意力(CA)机制和像素注意力(PA)机制提出一种新的局部注意力模块——特征提取模块(FEM)嵌入到卷积网络中,对关键信息进行加权强化。在VeRi数据集上与基准残差网络ResNet-50、ResNet-101进行对比。实验结果表明,在ResNet-50中增加小波变换层数能提高平均精度均值(mAP);在消融实验中,虽然ResNet-50+离散小波变换(DWT)比ResNet-101的mAP降低了0.25个百分点,但是其参数量和计算复杂度都比ResNet-101低,且mAP、Rank-1和Rank-5均比单独的ResNet-50高,说明该模型在车辆重识别中能够有效提高车辆检索精度。  相似文献   

9.
多器官医学图像分割有助于医生做出临床诊断. 针对CNN提取全局特征能力弱, Transformer提取局部特征能力弱, 以及Transformer具有二次方计算复杂度的问题, 提出了用于多器官医学图像分割的多级特征交互Transformer模型. 所提模型采用CNN提取局部特征, 局部特征经Swin Transformer输出全局特征; 通过下采样分别产生多级局部和全局特征, 每级局部和全局特征经过交互并增强; 每级增强后的特征经多级特征融合模块进行交叉融合; 再次融合后的特征经过上采样和分割头输出分割掩码. 所提模型在Synapse和ACDC数据集上进行实验, 平均DSC和平均HD95系数值为80.16%和19.20 mm, 均优于LGNet和RFE-UNet等代表性模型. 该模型对多器官医学图像分割是有效的.  相似文献   

10.
周云  陈淑荣 《计算机应用》2020,40(8):2236-2240
针对传统卷积神经网络(CNN)对人体行为动作仅能提取局部特征易导致相似行为动作识别准确率不高的问题,提出了一种基于双流非局部残差网络(NL-ResNet)的行为识别方法。首先提取视频的RGB帧和密集光流图,分别作为空间流和时间流网络的输入,并通过角落裁剪和多尺度相结合的预处理方法进行数据增强;其次分别利用残差网络的残差块提取视频的局部表观特征和运动特征,再通过在残差块之后接入的非局部CNN模块提取视频的全局信息,实现网络局部特征和全局特征的交叉提取;最后将两个分支网络分别通过A-softmax损失函数进行更精细的分类,并输出加权融合后的识别结果。该方法能充分利用局部和全局特征提高模型的表征能力。在UCF101数据集上,NL-ResNet取得了93.5%的识别精度,与原始双流网络相比提高了5.5个百分点。实验结果表明,所提模型能更好地提取行为特征,有效提高行为识别的准确率。  相似文献   

11.
现有视频行人重识别方法无法有效地提取视频连续帧之间的时空信息,因此提出一种基于非局部关注和多重特征融合的行人重识别网络来提取全局与局部表征特征和时序信息。首先嵌入非局部关注模块来提取全局特征;然后通过提取网络的低中层特征和局部特征实现多重特征融合,从而获得行人的显著特征;最后将行人特征进行相似性度量并排序,计算出视频行人重识别的精度。在大数据集MARS和DukeMTMC-VideoReID上进行实现,结果显示所提出的模型较现有的多尺度三维卷积(M3D)和学习片段相似度聚合(LCSA)模型的性能均有明显提升,平均精度均值(mAP)分别达到了81.4%和93.4%,Rank-1分别达到了88.7%和95.3%;同时在小数据集PRID2011上,所提模型的Rank-1也达到94.8%。  相似文献   

12.
程广涛  巩家昌  李建 《计算机应用》2020,40(5):1465-1469
针对传统烟雾检测方法中提取的图像特征鲁棒性较差的问题,提出了基于稠密卷积神经网络(DenseNet)的烟雾识别方法。首先,利用卷积操作和特征图融合构建稠密网络块,在卷积层之间设计稠密连接机制,以增强稠密网络块结构内的信息流通和特征重利用;然后,将已构建的稠密网络块叠加成稠密卷积神经网络用于烟雾识别,节省计算资源的同时提升对烟雾图像特征的表达能力;最后,针对烟雾图像数据量较小的问题,采取数据增强技术进一步改善训练模型的识别能力。在公开烟雾数据集上对提出的方法进行实验验证,实验结果表明,所提方法的模型大小只有0.44 MB,在两个测试集上的准确率分别为96.20%和96.81%。  相似文献   

13.
针对现有的直接跨数据集的行人重识别方法泛化性不足、跨域能力较差的问题,文中提出逐点特征匹配的跨域行人重识别方法,只需在源域上进行模型训练,在目标域上进行测试,就可达到较好效果.首先,为了解决网络对于跨域的行人图像风格、颜色等鲁棒性不高的问题,在ResNet50基础网络中引入实例归一化层,提取图像特征.然后,利用Transformer的多头自注意力模块与卷积结合,增强特征的表示能力.最后,通过在深层特征中建立一种逐点的特征映射关系,将图像匹配视为逐点寻找局部最优的过程,在未知场景中提升模型的抗视角变化能力,增强模型的泛化性.实验表明,文中方法在提高模型泛化能力上具有一定的优越性.  相似文献   

14.
肺炎常缺乏明显呼吸系症状,症状多不典型,易发生漏诊、错诊.利用深度学习技术辅助医务人员安全、高效地检测感染者是一种有效途径.针对COVID-19感染者CT图像的磨玻璃影、铺路石征、血管扩张等特点,提出一种可有效地提取CT图像中的局部与全局特征的轻量级模型——DL-CTNet.输入预处理的CT图像后,首先采用空洞卷积和动态双路径多尺度特征融合(D-DMFF)模块的2个支路提取浅层特征;然后使用局部与全局特征拼接模块(LGFC)中的D-DMFF模块提取局部特征、Swin Transformer提取全局特征,并通过拼接获得深层特征;最后经过全连接层输出分类标签.实验结果表明,在2个CT图像数据集上,验证了LGFC模块以及DL-CTNet的低复杂度与有效性; DL-CTNet的分类准确率高达98.613%,与其他方法相比,其能更准确地识别肺炎的CT图像.  相似文献   

15.
针对皮革缺陷形态多变、局部相似程度高导致细节信息难以提取、类型错分的问题,提出一种基于改进U-Net结构的表面缺陷精细化分割方法.编码端,在保留原始图像细节特征的同时嵌入级联扩张卷积模块获取全局特征,同时在跳跃连接中添加特征融合模块,改善因高低特征张量直接拼接造成的局部信息丢失;解码端使用基于通道注意力机制的解码模块代替原始卷积层,自适应地指导网络关注缺陷区域;为进一步整合高层信息,还嵌入全局平均池化模块,将输出结果作为解码端的语义指导增强网络对相似缺陷的分辨能力.在包含7种缺陷的皮革数据集上进行实验的结果表明,所提方法在PA, MPA, FWIoU和MIoU上分别达到99.17%, 93.27%, 98.39%和88.88%,对比U-Net分别提升0.28,2.78,0.53和4.03个百分点;定性分析和定量分析结果表明,该方法对于皮革缺陷能得到更加精细的分割结果.  相似文献   

16.
现有基于深度学习的多模态医学图像融合方法存在全局特征表示能力不足的问题。对此,提出一种基于局部全局特征耦合与交叉尺度注意的医学图像融合方法。该方法由编码器、融合规则和解码器三部分组成。编码器中采用并行的卷积神经网络(CNN)和Transformer双分支网络分别提取图像的局部特征与全局表示。在不同尺度下,通过特征耦合模块将CNN分支的局部特征嵌入Transformer分支的全局特征表示中,最大程度地结合互补特征,同时引入交叉尺度注意模块实现对多尺度特征表示的有效利用。编码器提取待融合原始图像的局部、全局以及多尺度特征表示,根据融合规则融合不同源图像的特征表示后再输入到解码器中生成融合图像。实验结果表明,与CBF、PAPCNN、IFCNN、DenseFuse和U2Fusion方法相比,该方法在特征互信息、空间频率、边缘信息传递因子、结构相似度、感知图像融合质量这5个评价指标上分别平均提高6.29%、3.58%、29.01%、5.34%、5.77%,融合图像保留了更清晰的纹理细节和更高的对比度,便于疾病的诊断与治疗。  相似文献   

17.
针对多模态行人重识别中存在较大的类内差异和模态差异的问题,提出了一种使用双端共享网络的多模态行人重识别方法。通过裁剪和填充对不同模态的图片进行数据处理;将Resnet50的后4个卷积层中嵌入非局部注意力块,使用改进的Resnet50作为骨干网络分别对不同模态的图片进行特征提取,再将不同的特征输入共享网络;最后使用基于类内距离和模态差异的聚类损失对模型进行训练。实验结果表明,使用非局部注意力块和聚类损失的模型准确率有所提升,且模型更具有鲁棒性。  相似文献   

18.
关注全局轮廓和行人局部细节对现有行人重识别方法非常重要。为了能够提取这些更具代表性的特征,提出一种基于特征金字塔分支和非局部关注模块的行人重识别网络方法来提取行人全局和局部表征特征。该方法首先引入一种轻量级别的特征金字塔分支结构,从不同的网络层中提取特征,并且聚合成一个双向金字塔结构。其次为进一步提高行人重识别的精度,使用非局部关注模块提取全局特征,这样既能获取行人的全局信息,又能注重行人的局部细节,使两者最终融合的特征更具代表性。最后将不同层间的特征融合起来,并使用联合损失函数策略对网络模型进行训练,显著提高骨干网络的性能。通过在MSMT17、Market1501、DukeMTMC-ReID和PersonX四个公共行人重识别数据集上的大量实验,证明所提出的基于特征金字塔分支和非局部关注的方法相较于目前一些先进的行人重识别方法,具有一定的竞争力。  相似文献   

19.
为更有效对非线性信号进行识别,提出一种经验模态分解神经网络模型,实现经验模态分解算法与卷积神经网络模型的紧耦合.在EMD层利用经验模态分解算法完成信号的自适应分解;引入权重参数,将分解得到的本征模函数依据其对识别的重要性进行自适应加权重构提取特征,增强时域特征提取能力;将提取的特征通过Softmax层完成信号的识别.将该网络模型应用于美国麻省理工学院提供的MIT-BIH心律失常数据库,对心律失常信号的识别准确率为99.38%,高于其它算法的识别准确率,验证了该模型的有效性.  相似文献   

20.
目前,基于深度学习的图像超分辨网络主要由卷积实现。相较于传统的卷积神经网络(CNN),Transformer在图像超分辨率任务中的主要优势是它的长距离依赖建模能力;然而大多数基于Transformer的图像超分辨率模型在参数量小、网络层数少的情况下无法建立全局依赖,限制了模型的性能。为了在超分辨率网络中建立全局依赖,提出了基于全局依赖Transformer的图像超分辨率网络(GDTSR),主要组成部分为残差方形轴向窗口块(RSAWB),它的内部轴向窗口Transformer残差层利用轴向窗口和自注意力,可以使每个像素与整个特征图建立起全局依赖。此外,目前大多数图像超分辨率模型的超分辨率图像重建模块都由卷积组成,为了动态整合提取到的特征信息,结合Transformer与卷积,共同重建超分辨率图像。实验结果表明,GDTSR在5个标准测试集Set5、Set14、B100、Urban100和Manga109上的测试结果中,3个倍数(×2,×3,×4)的峰值信噪比(PSNR)和结构相似性(SSIM)均达到了最优,特别是在大尺寸图像的Urban100和Manga109数据集上模型性能的提升尤为明显...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号