首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对Transformer的自注意力机制计算量大、容易被背景分心,导致有效信息抓取不足,从而降低跟踪性能的问题,提出特征增强的Sparse Transformer目标跟踪算法。基于孪生网络骨干进行特征提取;特征增强模块利用多尺度特征图生成的上下文信息,增强目标局部特征;利用Sparse Transformer的最相关特性生成目标聚焦特征,并嵌入位置编码提升跟踪定位的精度。提出的跟踪模型以端到端的方式进行训练,在OTB100,VOT2018和LaSOT等5个数据集上进行了大量实验,实验结果表明所提算法取得了较好的跟踪性能,实时跟踪速度为34帧/s。  相似文献   

2.
针对现有图像去雨算法不能更好地保留图像背景细节的问题,提出一种基于高效通道注意力的多阶段图像去雨网络。首先,网络使用3×3卷积提取雨图的浅层特征并传递给高效通道注意力模块,为不同的特征通道分配不同的权重;然后,传递给3个并行阶段,在前2个阶段中,使用编码-解码器进行多尺度特征提取,减少雨纹信息丢失,其中使用Transformer模块抑制无用信息传递;最后,在第3个阶段使用初始分辨率模块代替编码-解码器,从而保留输出图像的精细特征。实验结果表明,所提算法在Rain800、Rain12、Rain100L和Rain100H公开测试集上的结构相似性分别为0.830、0.968、0.960和0.944,峰值信噪比分别为27.33 dB、35.27 dB、36.79 dB和28.94 dB。所提算法相比于经典和新颖的图像去雨算法,在去除雨纹和恢复背景细节上具有更好的效果。  相似文献   

3.
目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了一种红外与可见光图像多尺度Transformer融合方法。以Swin Transformer为组件,架构了Conv Swin Transformer Block模块,利用卷积层增强图像全局特征的表征能力。构建了多尺度自注意力编码-解码网络,实现了图像全局特征提取与全局特征重构;设计了特征序列融合层,利用SoftMax操作计算特征序列的注意力权重系数,突出了源图像各自的显著特征,实现了端到端的红外与可见光图像融合。在TNO、Roadscene数据集上的实验结果表明,该方法在主观视觉描述和客观指标评价都优于其他典型的传统与深度学习融合方法。本方法结合自注意力机制,利用Transformer建立图像的长距离依赖关系,构建了图像全局特征融合模型,比其他深度学习融合方法具有更优的融合性能和更强的泛化能力。  相似文献   

4.
近年来,随着空间感知技术的不断发展,对多源遥感图像的融合处理需求也逐渐增多,如何有效地提取多源图像中的互补信息以完成特定任务成为当前的研究热点。针对多源遥感图像融合语义分割任务中,多源图像的信息冗余和全局特征提取难题,本文提出一种将多光谱图像(Multispectral image, MS)、全色图像(Panchromatic image, PAN)和合成孔径雷达 (Synthetic Aperture Radar, SAR)图像融合的基于Transformer的多源遥感图像语义分割模型Transformer U-Net (TU-Net)。该模型使用通道交换网络(Channel-Exchanging-Network, CEN)对融合支路中的多源遥感特征图进行通道交换,以获得更好的信息互补性,减少数据冗余。同时在特征图拼接后通过带注意力机制的Transformer模块对融合特征图进行全局上下文建模,提取多源遥感图像的全局特征,并以端到端的方式分割多源图像。在MSAW数据集上的训练和验证结果表明,相比目前的多源融合语义分割算法,在F1值和Dice系数上分别提高了3.31%~11.47%和4.87%~8.55%,对建筑物的分割效果提升明显。   相似文献   

5.
为确保源图像中的显著区域在融合图像保持显著,提出了一种自注意力引导的红外与可见光图像融合方法。在特征学习层引入自注意力学习机制获取源图像的特征图和自注意力图,利用自注意力图可以捕获到图像中长距离依赖的特性,设计平均加权融合策略对源图像的特征图进行融合,最后将融合后的特征图进行重构获得融合图像。通过生成对抗网络实现了图像特征编码、自注意力学习、融合规则和融合特征解码的学习。TNO真实数据上的实验表明,学习到注意力单元体现了图像中显著的区域,能够较好地引导融合规则的生成,提出的算法在客观和主观评价上优于当前主流红外与可见光图像融合算法,较好地保留了可见光图像的细节信息和红外图像的红外目标信息。  相似文献   

6.
针对遥感图像中目标尺度差异较大和方向分布随机等导致检测精度较低的问题,提出一种基于稀疏掩模Transformer的遥感目标检测方法。该方法以Transformer网络为基础,首先引入角度参量,使其适应遥感目标的旋转特性;其次在特征提取部分以多层级特征金字塔为输入,以应对遥感图像目标尺寸变化大的特点,提高对不同尺度目标的检测效果,尤其对小目标的检测效果提升明显;最后以稀疏-插值注意力模块代替自注意力模块,有效缓解了Transformer网络检测高分辨遥感图像时计算量大的缺陷,并且加快了网络的收敛速度。在大型遥感数据集DOTA上的实验结果表明,所提方法的平均检测精度为78.43%,检测速度为12.5 frame/s,与基准方法相比,平均精度均值(mAP)提高了3.07个百分点,证明了所提方法的有效性。  相似文献   

7.
个体间关系信息的获取是群组行为识别中关键问题.为了获取更加丰富的关系信息,本文提出了一种时空自注意力转换网络(Spatio-Temporal Transformer Network).空间自注意力转换模块可以同时处理群组中的所有个体,包括其外观特征和位置特征,以便提取个体间空间关系信息.使用时序自注意力转换模块进行时序建模.为了获得更加丰富有效的关系信息,提出了全局空间注意图,用以增强模型空间关系推理能力,使用时序掩膜优化时序自注意力转换模块.通过在Volleyball和Collective Activity数据集上实验验证,结果表明本文方法性能优于其它方法.  相似文献   

8.
针对已有去雨网络在不同环境中去雨不彻底和图像细节信息损失严重的问题,本文提出一种基于注意力机制的多分支特征级联图像去雨网络。该模型结合多种注意力机制,形成不同类型的多分支网络,将图像空间细节和上下文特征信息在整体网络中自下而上地进行传递并级联融合,同时在网络分支间构建的阶段注意融合机制,可以减少特征提取过程中图像信息的损失,更大限度地保留特征信息,使图像去雨任务更加高效。实验结果表明,本文算法的客观评价指标优于其他对比算法,主观视觉效果得以有效提升,去雨能力更强,准确性更加突出,能够去除不同密度的雨纹,并且能够更好地保留图像背景中的细节信息。  相似文献   

9.
盖杉  王俊生 《电子学报》2000,48(10):1899-1908
单幅图像去雨技术的瓶颈问题是在缺少帧与帧时间序列信息的情况下,如何能够在有效去除多密度雨条纹的同时保留图像背景的细节结构信息.针对该问题,本文提出了一种新的基于编码解码器结构的单幅图像去雨算法.首先利用非局部操作获得不同像素点间的位置关系信息,从而获得图像全局信息表征.其次,采用空间注意力机制对全局信息在空间维度位置上进行权值重标定,即在通道维度上对特征进行非线性建模,从而达到聚集相似特征和有用信息的目的.最后,利用反卷积与长距离残差连接逐层恢复去雨图像的大小.分析和实验结果表明,本文提出算法雨痕去除效果明显,有效解决了去除具有不同雨密度大小雨条纹的现实困难,同时较好地保留图像的细节和边缘信息.  相似文献   

10.
针对单幅图像雨线偏离垂直方向的现象,实现了斜角度雨线平移的全局稀疏去雨模型.文章算法利用中值滤波器对雨图像进行滤波处理,得到一个初步的雨线估计,并通过转换、平移、计算竖直方向梯度等策略使雨线垂直,然后,通过三个稀疏正则项构建全局稀疏模型进行去雨,最后,将通过全局稀疏模型进行雨线去除得到的图像进行对应的逆变换操作,得到无...  相似文献   

11.
针对传统表面缺陷检测算法检测效率低下,难以应对复杂性检测等问题,结合深度学习和注意力机制技术,提出一种新型注意力机制算法。首先,反思卷积神经网络(CNN)与Transformer架构,重新设计高维特征提取模块;其次,改进最新注意力机制来捕获全局特征。该算法可轻松嵌入各类CNN,提升图像分类和表面缺陷检测的性能。使用该算法的Res Net网络在CIFAR-100数据集和纺织品缺陷数据集上的准确率分别达到83.22%和77.98%,优于经典注意力机制SE与最新的Fca等方法。  相似文献   

12.
针对自然街景文本角度倾斜、形状弯曲、长度不定等特点,提出一种基于注意力机制的自然街景文本检测方法,通过利用注意力机制的优势,对主干网络提取的特征进行加权融合,从而提升整体网络的检测性能.首先,针对特征金字塔(FPN)横向连接中特征信息丢失的问题,引入注意力融合模块AFFM(Attention Feature Fusion Module),通过计算高维和低维特征的融合权重,来改进原FPN中简单直接相加的特征融合方式,从而减少FPN特征融合过程中文本信息丢失,增强网络的特征提取能力.其次,针对不同尺度特征图中的文本特征,引入一个子空间注意力模块SAM(Subspace Attention Module),通过将多尺度融合特征图按通道划分为数个子空间特征图,分别学习每个子空间中的文本特征权重,使得融合后的特征图包含更多不同尺度的文本特征,从而增强融合特征图对文本实例的表征能力,进而提升网络的检测效果.在公开数据集Total-Text上对模型进行评估,实验结果表明,该算法与目前快速高效的DBNet相比,准确率、召回率和F值分别提高了0.5%、0.4%和0.4%.  相似文献   

13.
本文针对背景干扰、特征信息不足以及尺度剧烈变化等问题,提出了一种基于多尺度及双注意力机制(Multi-Scale and Dual Attention,MSDA)的小尺寸人群计数网络.MSDA网络主要由空间一通道双注意力(Spatial Channel-dual Attention,SCA)模块和多尺度特征融合(Multi-scale Feature Fusion,MFF)模块构成.MFF模块将特征送入三列拥有不同卷积核的膨胀卷积来扩大小目标的空间尺度,再通过特征级联及卷积操作进行多尺度特征融合;SCA模块把特征送入通道注意力网络,使用空间注意力中的池化操作及逐像素相乘操作加强细节信息;最后将处理好的特征送入密度图生成模块,通过1 x 1卷积获得密度图.在Mall数据集和Shanghaitech数据集上进行了测试,取得了较好的准确率与鲁棒性.  相似文献   

14.
赵琰  赵凌君  匡纲要 《电子学报》2021,49(9):1665-1674
针对合成孔径雷达(Synthetic Aperture Radar,SAR)图像中飞机目标散射点离散化程度高,周围背景干扰复杂,现有算法对飞机浅层语义特征表征能力弱等问题,本文提出了基于注意力特征融合网络(Attention Feature Fu-sion Network,AFFN)的SAR图像飞机目标检测算法.通过引入瓶颈注意力模块(Bottleneck Attention Module,BAM),本文在AFFN中构建了包含注意力双向特征融合模块(Attention Bidirectional Feature Fusion Module,ABFFM)与注意力传输连接模块(Attention Transfer Connection Block,ATCB)的注意力特征融合策略并合理优化了网络结构,提升了算法对飞机离散化散射点浅层语义特征的提取与判别.基于自建的Gaofen-3与TerraSAR-X卫星图像混合飞机目标实测数据集,实验对AFFN与基于深度学习的通用目标检测以及SAR图像特定目标检测算法进行了比较,其结果验证了AFFN对SAR图像飞机目标检测的准确性与高效性.  相似文献   

15.
通过肉眼识别鱼类疫病依赖于诊断人员的经验,疫病数据存在类间差距较小与识别效率低等细粒度问题。由于Transformer缺乏卷积神经网络(CNN)的归纳偏差,需要大量的数据进行训练;CNN对全局特征提取不足,泛化性能较差等问题限制模型的分类精度。基于特征图对所有像素的全局交互建立算法模型,提出一种基于CNN与Vision Transformer相结合的鱼类疫病识别模型(CViT-FDRM)。首先,搭建鱼类疫病的数据库FishData01;其次,利用CNN提取鱼类图像细粒度特征,采用Transformer模型自注意力机制获取图像全局信息进行并行训练;然后,采用组归一化层将样本通道分组求均值与标准差;最后,采用404张鱼类疫病图像进行测试,CViT-FDRM达到97.02%的识别准确率。在细粒度图像开源数据库Oxford Flowers上的实验结果表明,CViT-FDRM的分类精度优于主流的细粒度图像分类算法,可达95.42%,提高4.84个百分点。CViT-FDRM在细粒度图像识别方面可达到较好的效果。  相似文献   

16.
张弘  刘保洋  高月 《激光杂志》2023,(12):47-55
针对X光安检图像中存在背景信息复杂以及物体相互遮挡的情况,以YOLOv5m模型为基础,改进自注意力机制,提出新的视觉自注意力机制与卷积模型结合的叠加混合模型YOLOv5m-CRCS。该网络在视觉自注意力机制中,加入相对位置编码,引入高效变体卷积(TVConv)和动态归一化(DTN),增强图像特征中的全局语义信息和位置信息。在网络特征融合阶段将坐标注意力(CA)与改进后的自注意力机制结合,进一步加强输出特征中的位置关系信息,同时引入改进的双自注意力模块,将残差卷积模块(CSPLayer)与双自注意力叠加混合,使得每个输出在原有特征的基础上增加了全局特征的相关性。在X光安检数据集上的实验结果表明,与原始目标检测网络相比,所提出模型的识别精度提高了4.72%,明显降低了由于X光安检图像中的背景信息复杂、相互遮挡而出现的漏检情况。  相似文献   

17.
现有残缺文字图像的修复需要确定Mask区域后对其填补,如果文字残缺部分剩余信息量过于稀疏,将无法确定Mask区域。针对该问题,提出了一种基于内容风格迁移的残缺稀疏文字图像盲修复方法。利用循环生成对抗网络构建修复前后文字图像间的全局关联像素信息,将残缺文字的图像内容风格特征迁移为完整文字图像从而进行修复;并在网络中加入自注意力机制对稀疏像素进行全局约束,解决迁移过程中相隔较远文字稀疏像素之间依赖关系较弱的问题;同时在自注意力机制中使用最大池化,提高迁移修复后的文字图像纹理特征;使用最小二乘损失替换原网络模型中的sigmoid交叉熵损失函数,提高迁移精度。实验结果表明,所提方法不借助Mask指导,能够盲修复稀疏性残缺文字图像中的随机未知缺失区域。  相似文献   

18.
图像去雾工作目前还存在真实数据集过少、局部对比度失衡和去雾图像失真等问题。针对去雾图像失真这一问题,提出一种新型去雾网络模型(Densely Resnet with SKattention-Dehaze Net,DRS-Dehaze Net)。首先带雾图像经预处理模块转换为多角度特征输入图,然后设计密集残差架构并引入注意力机制完成特征信息的提取与再分配,最后将特征融合,输出无雾图像。实验结果表明,所提算法相比于其他对比算法有着较好的去雾效果,有效改善了去雾图像失真问题,且在一定程度上对图像的清晰度进行了提升。  相似文献   

19.
针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%.  相似文献   

20.
针对城市交通场景多目标检测算法检测速度慢,检测精度低等问题,本文提出多阶段提议稀疏区域卷积网络算法(Multi-stage Proposal Sparse Region-based Convolutional Neural Network,MPS R-CNN).算法主要有以下特点:提出了一种多阶段提议框过滤更新机制,提高算法检测精度;提出了一种双向并联特征金字塔网络(Bidirectional Parallel Feature Pyramid Network,BPFPN),增强了模型的特征融合能力;针对城市交通场景目标检测问题引入了CopyPaste数据增强方法和CIoU损失函数.实验结果显示,MPS R-CNN算法在Urban Object Dataset数据集上mAP达到了77%,算法检测速度保持在37 fps,优于目前其他城市交通场景目标检测算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号