首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
近年来,基于自注意力机制的编码器-解码器框架已经成为主流的图像描述模型。然而,编码器中的自注意力只建模低尺度特征的视觉关系,忽略了高尺度视觉特征中的一些有效信息,从而影响了生成描述的质量。针对该问题,文中提出了一种基于跨尺度特征融合自注意力的图像描述方法。该方法在进行自注意力运算时,将低尺度和高尺度的视觉特征进行跨尺度融合,从视觉角度上提高自注意力关注的范围,增加有效视觉信息,减少噪声,从而学习到更准确的视觉语义关系。在MS COCO数据集上的实验结果表明,所提方法能够更精确地捕获跨尺度视觉特征间的关系,生成更准确的描述。特别地,该方法是一种通用的方法,通过与其他基于自注意力的图像描述方法相结合,能进一步提高模型性能。  相似文献   

2.
为了解决现有遥感图像超分辨率重建模型对长期特征相似性和多尺度特征相关性关注不足的问题, 提出了一种基于跨尺度混合注意力机制的遥感图像超分辨率重建算法. 首先提出了一个全局层注意力机制(global layer attention, GLA), 利用层注意力机制加权融合不同层级的全局特征, 建模低分辨率与高分辨率图像特征间的长期依赖关系. 同时, 设计了跨尺度局部注意力机制(cross-scale local attention, CSLA), 在多尺度的低分辨率特征图中寻找与高分辨率图像匹配的局部信息补丁, 并融合不同尺度的补丁特征, 以优化模型对图像细节信息的恢复能力. 最后, 提出一种局部信息感知损失函数来指导图像的重建过程, 进一步提高了重建图像的视觉质量和细节保留能力. 在UC-Merced数据集上的实验结果表明, 本文方法在3种放大倍数下的平均PSNR/SSIM优于大多数主流方法, 并在视觉效果方面展现出更高的质量和更好的细节保留能力.  相似文献   

3.
针对卷积神经网络(CNN)平等地对待输入图像中潜在的对象信息和背景信息,而遥感图像场景又存在许多小对象和背景复杂的问题,提出一种基于注意力机制和多尺度特征变换的尺度注意力网络模型。首先,开发一个快速有效的注意力模块,基于最优特征选择生成注意力图;然后,在ResNet50网络结构的基础上嵌入注意力图,增加多尺度特征融合层,并重新设计全连接层,构成尺度注意力网络;其次,利用预训练模型初始化尺度注意力网络,并使用训练集对模型进行微调;最后,利用微调后的尺度注意力网络对测试集进行分类预测。该方法在实验数据集AID上的分类准确率达到95.72%,与ArcNet方法相比分类准确率提高了2.62个百分点;在实验数据集NWPU-RESISC上分类准确率达到92.25%,与IORN方法相比分类准确率提高了0.95个百分点。实验结果表明,所提方法能够有效提高遥感图像场景分类准确率。  相似文献   

4.
为了进一步提高图像描述生成文本的精度,提出一种结合全局-局部特征和注意力机制的图像描述方法。该方法在传统的编码器-解码器模型上进行改进,从整体角度来看,编码器阶段使用残差网络ResNet101提取图像的全局特征和局部特征,以避免对象丢失或对象预测错误问题,在解码器阶段采用嵌入改进后的注意力机制的双向[GRU]生成文本序列。从局部角度来看,该模型提出的注意力机制是一种独立的循环结构,通过计算图像局部特征向量与语义向量之间的相似度来获取注意力权重,增强图像特征与语义信息之间的映射。在MSCOCO数据集上的实验结果显示,该算法在BLEU、CIDEr、METEOR等评价指标上均获得了不同程度的提升,表明使用该模型生成的描述文本准确度高且细节丰富。  相似文献   

5.
针对大场景遥感图像内容复杂,并且具有目标种类较多、尺度不一、方向多变等特点,导致遥感图像中目标多类多尺度多方向的问题,提出一种基于多尺度注意力特征金字塔网络(MAFPN)以及滑动顶点回归(GVR)机制的遥感图像目标检测方法.首先利用骨干网络提取多层特征作为MAFPN的输入,MAFPN结合特征融合和注意力机制,在融合多个尺度的特征映射的基础上使用通道域注意力和空间域注意力机制来抑制噪声,增强有效特征复用,提高网络对目标多尺度特征的自适应性;将MAFPN输出的融合特征图输入区域建议网络(RPN)生成感兴趣区域,然后将其送入分类/回归网络;在分类/回归网络中使用GVR机制在预测水平框的基础上增加4个顶点偏移比例参数和旋转因子,将水平框转换为旋转框,以减少边框中冗余区域,使预测得到的旋转边框更贴合目标.在DOTA公开数据集上与多种基于卷积神经网络的经典检测算法进行对比的实验结果表明,该方法的平均检测精度得到显著提高,能够更加准确地检测多个尺度以及多个方向的目标,实现了多尺度目标的鲁棒性检测.  相似文献   

6.
刘茂福  施琦  聂礼强 《软件学报》2022,33(9):3210-3222
图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,本文提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention,简称VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明本文所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升.  相似文献   

7.
图像描述是连接计算机视觉与自然语言处理两大人工智能领域内的一项重要任务.近几年来,基于注意力机制的编码器-解码器架构在图像描述领域内取得了显著的进展.然而,许多基于注意力机制的图像描述模型仅使用了单一的注意力机制.本文提出了一种基于双路细化注意力机制的图像描述模型,该模型同时使用了空间注意力机制与通道注意力机制,并且使用了细化图像特征的模块,对图像特征进行进一步细化处理,过滤掉图像中的冗余与不相关的特征.我们在MS COCO数据集上进行实验来验证本文模型的有效性,实验结果表明本文的基于双路细化注意力机制的图像描述模型与传统方法相比有显著的优越性.  相似文献   

8.
针对图像描述生成中对图像细节表述质量不高、图像特征利用不充分、循环神经网络层次单一等问题,提出基于多注意力、多尺度特征融合的图像描述生成算法。该算法使用经过预训练的目标检测网络来提取图像在卷积神经网络不同层上的特征,将图像特征分层输入多注意力结构中,依次将多注意力结构与多层循环神经网络相连,构造出多层次的图像描述生成网络模型。在多层循环神经网络中加入残差连接来提高网络性能,并且可以有效避免因为网络加深导致的网络退化问题。在MSCOCO测试集中,所提算法的BLEU-1和CIDEr得分分别可以达到0.804及1.167,明显优于基于单一注意力结构的自上而下图像描述生成算法;通过人工观察对比可知,所提算法生成的图像描述可以表现出更好的图像细节。  相似文献   

9.
图像描述是机器学习和计算机视觉的重要研究领域,但现有方法对于视觉特征和模型架构之间存在的语义信息关联性探索还存在不足.本文提出了一种基于用户标签、视觉特征的注意力模型架构,能够有效地结合社交图像特征和图像中用户标签生成更加准确的描述.我们在MSCOCO数据集上进行了实验来验证算法性能,实验结果表明本文提出的基于用户标签、视觉特征的注意力模型与传统方法相比具有明显的优越性.  相似文献   

10.
基于遥感图像多尺度、无法准确提取微小物体、物体类别易混淆的问题,提出了一种融合对象和多尺度视觉特征的遥感图像描述模型(Fusion of Object and Multiscale Visual Feature,FO-MSV),通过构建的对象提取器分析文本信息,提取其中的对象信息;设计了一种多尺度交互模块,获取遥感图像的多尺度视觉特征,以适应多尺度的特点;为了充分利用对象信息并融合视觉信息,提出了一种新的对象-视觉特征融合机制,调整视觉上下文和对象上下文之间的平衡。基于该领域内三个数据集的实验结果表明,该模型能明显提升描述的性能,与其他先进模型相比具有竞争力。  相似文献   

11.
改进U-Net的高分辨率遥感图像轻量化分割   总被引:1,自引:0,他引:1  
胡伟  文武  魏敏 《计算机系统应用》2022,31(12):135-146
针对传统图像分割方法分割效率低下,遥感图像特征复杂多样,复杂场景下分割性能受到限制等问题,在基于U-Net网络架构的基础上,提出一种能够较好提取遥感图像特征并兼顾效率的改进U-Net模型.首先,以EfficientNetV2作为U-Net的编码网络,增强特征提取能力,提高训练和推理效率,然后在解码部分使用卷积结构重参数化方法并结合通道注意力机制,几乎不增加推理时间的前提下提升网络性能,最后结合多尺度卷积融合模块,提高网络对不同尺度目标的特征提取能力和更好地结合上下文信息.实验表明,改进的网络在遥感图像分割性能提升的同时分割效率也提高.  相似文献   

12.
遥感影像的地块背景特征复杂,当前地块分割方法不能较好地处理模糊的边缘信息,导致分割精度不理想;文章利用注意力机制处理地块特征,提出了一种基于全局坐标注意力机制的遥感地块分割网络:GCAT-U-Net;该方法在U-Net网络基础上嵌入了全局坐标注意力机制,加强了深度神经网络对于遥感影像数据中重要特征的关注度;在公开的GID数据集上的实验结果表明,文章提出的模型将准确率从0.9041提升到了0.9227,比传统U-Net网络提高了2百分点;结合特征自身重要性和特征位置信息的全局坐标注意力机制有助于更精确的目标定位,其输出相较于嵌入单一注意力机制,地块边界更为清晰,提升效果更为显著。  相似文献   

13.
袁星星  吴秦 《计算机科学》2021,48(4):174-179
遥感图像中的目标具有密集性、多尺度和多角度等特性,这使得遥感图像多类别目标检测成为一项具有挑战性的课题。因此,文中提出了一种新的端到端的遥感图像目标检测框架。该框架通过提取显著性特征和不同卷积通道之间的相互关系来增强目标信息,抑制非目标信息,从而提高特征的表示能力。同时,在不增加模型参数的情况下,在卷积模块中添加多尺度特征模块来捕获更多的上下文信息。为了解决遥感图像中目标角度多变这一问题,该框架在区域建议网络中加入了角度信息,得到有角度的矩形候选框,并在训练过程中添加注意力损失函数来引导网络学习显著性特征。该框架在公开的遥感图像数据集上进行了相关验证,在水平任务框和方向任务框上的实验结果证明了所提方法的有效性。  相似文献   

14.
目的 遥感图像道路提取在城市规划、交通管理、车辆导航和地图更新等领域中发挥了重要作用,但遥感图像受光照、噪声和遮挡等因素以及识别过程中大量相似的非道路目标干扰,导致提取高质量的遥感图像道路有很大难度。为此,提出一种结合上下文信息和注意力机制的U-Net型道路分割网络。方法 使用Resnet-34预训练网络作为编码器实现特征提取,通过上下文信息提取模块对图像的上下文信息进行整合,确保对道路的几何拓扑结构特征的提取;使用注意力机制对跳跃连接传递的特征进行权重调整,提升网络对于道路边缘区域的分割效果。结果 在公共数据集Deep Globe道路提取数据集上对模型进行测试,召回率和交并比指标分别达到0.847 2和0.691 5。与主流方法U-Net和CE-Net(context encoder network)等进行比较,实验结果表明本文方法在性能上表现良好,能有效提高道路分割的精确度。结论 本文针对遥感图像道路提取中道路结构不完整和道路边缘区域不清晰问题,提出一种结合上下文信息和注意力机制的遥感道路提取模型。实验结果表明该网络在遥感图像道路提取上达到良好效果,具有较高的研究和应用价值。  相似文献   

15.
郑顾平  王敏  李刚 《图学学报》2018,39(6):1069
航拍影像同一场景不同对象尺度差异较大,采用单一尺度的分割往往无法达到最 佳的分类效果。为解决这一问题,提出一种基于注意力机制的多尺度融合模型。首先,利用不 同采样率的扩张卷积提取航拍影像的多个尺度特征;然后,在多尺度融合阶段引入注意力机制, 使模型能够自动聚焦于合适的尺度,并为所有尺度及每个位置像素分别赋予权重;最后,将加 权融合后的特征图上采样到原图大小,对航拍影像的每个像素进行语义标注。实验结果表明, 与传统的 FCN、DeepLab 语义分割模型及其他航拍影像分割模型相比,基于注意力机制的多尺 度融合模型不仅具有更高的分割精度,而且可以通过对各尺度特征对应权重图的可视化,分析 不同尺度及位置像素的重要性。  相似文献   

16.
高分辨率遥感图像有丰富的空间特征, 针对遥感土地覆盖方法中模型复杂, 边界模糊和多尺度分割等问题, 提出了一种基于边界与多尺度信息的轻量化语义分割网络. 首先, 使用轻量化的MobileNetV3分类器, 采用深度可分离卷积来减少计算量. 其次, 使用自顶向下和自底向上的特征金字塔结构来进行多尺度分割. 接着, 设计了一个边界增强模块, 为分割任务提供丰富的边界细节信息. 然后, 设计了一个特征融合模块, 融合边界与多尺度语义特征. 最后, 使用交叉熵损失函数和Dice损失函数来处理样本不平衡的问题. 在 WHDLD数据集的平均交并比达到了59.64%, 总体精度达到了87.68%. 在DeepGlobe数据集的平均交并比达到了70.42%, 总体精度达到了88.81%. 实验结果表明, 该模型能快速有效地实现遥感图像土地覆盖分类.  相似文献   

17.
本文针对现有光学遥感图像超分辨率重建模型对感受野尺度关注不足和对特征通道信息提取不充分带来的问题, 提出了一种基于多尺度特征提取和坐标注意力的光学遥感图像超分辨率重建模型. 该重建模型基于深度残差网络结构, 在网络的高频分支中设计了多个级联的多尺度特征和坐标注意力模块 (multi-scale feature & coordinate attention block, MFCAB), 对输入的低分辨率光学遥感图像的高频特征进行充分发掘: 首先, 在MFCAB模块中引入Inception子模块, 使用不同尺度的卷积核捕捉不同感受野下的空间特征; 其次, 在Inception子模块后增加坐标注意力子模块, 同时关注通道与坐标两个维度, 以获得更好的通道注意力效果; 最后, 对各MFCAB模块提取的特征进行多路径融合, 实现多重多尺度空间信息与通道注意信息的有效融合. 本文模型在NWPU4500数据集上2倍、3倍放大中PSNR值达到34.73 dB和30.12 dB, 较EDSR分别提升0.66 dB和0.01 dB, 在AID1600数据集上2倍、3倍、4倍放大中PSNR值达到34.71 dB、30.58 dB、28.44 dB, 较EDSR分别提升0.09 dB、0.03 dB、0.04 dB. 实验结果表明, 该模型在光学遥感图像数据集上的重建效果优于主流的图像超分辨率重建模型.  相似文献   

18.
目的 遥感图像语义分割是根据土地覆盖类型对图像中每个像素进行分类,是遥感图像处理领域的一个重要研究方向。由于遥感图像包含的地物尺度差别大、地物边界复杂等原因,准确提取遥感图像特征具有一定难度,使得精确分割遥感图像比较困难。卷积神经网络因其自主分层提取图像特征的特点逐步成为图像处理领域的主流算法,本文将基于残差密集空间金字塔的卷积神经网络应用于城市地区遥感图像分割,以提升高分辨率城市地区遥感影像语义分割的精度。方法 模型将带孔卷积引入残差网络,代替网络中的下采样操作,在扩大特征图感受野的同时能够保持特征图尺寸不变;模型基于密集连接机制级联空间金字塔结构各分支,每个分支的输出都有更加密集的感受野信息;模型利用跳线连接跨层融合网络特征,结合网络中的高层语义特征和低层纹理特征恢复空间信息。结果 基于ISPRS (International Society for Photogrammetry and Remote Sensing) Vaihingen地区遥感数据集展开充分的实验研究,实验结果表明,本文模型在6种不同的地物分类上的平均交并比和平均F1值分别达到69.88%和81.39%,性能在数学指标和视觉效果上均优于SegNet、pix2pix、Res-shuffling-Net以及SDFCN (symmetrical dense-shortcut fully convolutional network)算法。结论 将密集连接改进空间金字塔池化网络应用于高分辨率遥感图像语义分割,该模型利用了遥感图像不同尺度下的特征、高层语义信息和低层纹理信息,有效提升了城市地区遥感图像分割精度。  相似文献   

19.
为了解决在街道场景图像语义分割任务中传统U-Net网络在多尺度类别下目标分割的准确率较低和图像上下文特征的关联性较差等问题,提出一种改进U-Net的语义分割网络AS-UNet,实现对街道场景图像的精确分割.首先,在U-Net网络中融入空间通道挤压激励(spatial and channel squeeze&excitation block, scSE)注意力机制模块,在通道和空间两个维度来引导卷积神经网络关注与分割任务相关的语义类别,以提取更多有效的语义信息;其次,为了获取图像的全局上下文信息,聚合多尺度特征图来进行特征增强,将空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)多尺度特征融合模块嵌入到U-Net网络中;最后,通过组合使用交叉熵损失函数和Dice损失函数来解决街道场景目标类别不平衡的问题,进一步提升分割的准确性.实验结果表明,在街道场景Cityscapes数据集和Cam Vid数据集上AS-UNet网络模型的平均交并比(mean intersection over union, MIo U)相较于传统U-Net网络分别提...  相似文献   

20.
遥感影像中目标的检测问题一直是遥感图像处理领域的热点和难点。传统的检测算法,在解决场景复杂,尺度差异大的目标时性能不高,而使用深度学习很难兼顾遥感目标的准确性和实时性。针对这一问题,设计了一种利用多尺度融合特征检测目标的轻量级网络,并提出一种能够从三个维度上生成像素自适应特征权重的注意力机制帮助提取显著特征,同时采用了最新的优化算法改善模型的性能,在减少计算量的同时保证了检测精度。实验结果表明,该模型MAP@0.5可达0.945,F1可达0.841,检测速度满足实时性要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号