首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
提出了一种基于特征融合与自注意力机制的图像语义分割方法,设计了特征融合模块、自注意力模块、增强模块、全局空间信息融合模块和损失函数。特征融合模块融合多个图像的所有组件,通过自注意力机制来执行。自注意力模块从而有效地捕获远程上下文信息。增强模块旨在增强输入图像以获得更多样化的特征。全局空间信息注意模块相对于图像尺寸只有线性的复杂度,能够带来显著的提升效果。利用损失函数,对模型进行优化,将每个像素的分类结果优化到最接近真实值。实验结果表明,所提出的方法可以显著提高PASCAL VOC 2012数据集、COCO-Stuff 10K数据集和ISIC 2018数据集这3个数据集的性能,并在3个数据集上进行了验证,实验还通过对自注意力、推理速度和消融实验进行比较,验证了本文方法的优越性。  相似文献   

2.
本文提出了一种场景文本检测方法,用于应对复杂自然场景中文本检测的挑战。该方法采用了双重注意力和多尺度特征融合的策略,通过双重注意力融合机制增强了文本特征通道之间的关联性,提升了整体检测性能。在考虑到深层特征图上下采样可能引发的语义信息损失的基础上,提出了空洞卷积多尺度特征融合金字塔(dilated convolution multi-scale feature fusion pyramid structure, MFPN),它采用双融合机制来增强语义特征,有助于加强语义特征,克服尺度变化的影响。针对不同密度信息融合引发的语义冲突和多尺度特征表达受限问题,创新性地引入了多尺度特征融合模块(multi-scale feature fusion module, MFFM)。此外,针对容易被冲突信息掩盖的小文本问题,引入了特征细化模块(feature refinement module, FRM)。实验表明,本文的方法对复杂场景中文本检测有效,其F值在CTW1500、ICDAR2015和Total-Text 3个数据集上分别达到了85.6%、87.1%和86.3%。  相似文献   

3.
在深度学习技术的发展驱动下,智慧应用场景对文本识别任务提出了更高的要求。现有方法更加侧重构建强大的视觉特征提取网络,忽略了文本序列特征的提取能力。针对该问题,提出了一种基于层次自注意力的场景文本识别网络。通过融合卷积和自注意力可以建立并增强文本序列信息与视觉感知信息间的联系。由于视觉特征和序列特征在全局空间中的充分交互,有效地减小了复杂背景噪声对识别精度的影响,实现了对规则和不规则场景文本的鲁棒性预测。实验结果表明,所提方法在各数据集上均表现出竞争力。尤其是在CUTE数据集上可以实现81.4%,6.24 ms的最佳精度和速度,具备一定的应用潜力。  相似文献   

4.
高分辨率遥感影像中地物目标往往与所处场景类别息息相关,如能充分利用场景对地物目标的约束信息,有望进一步提升目标检测性能。考虑到场景信息和地物目标之间的关联关系,提出全局关系注意力(RGA)引导场景约束的高分辨率遥感影像目标检测方法。首先在多尺度特征融合检测器的基础网络之后,加入全局关系注意力学习全局场景特征;然后以学到的全局场景特征作为约束,结合方向响应卷积模块和多尺度特征模块进行目标预测;最后利用两个损失函数联合优化网络实现目标检测。在NWPU VHR-10数据集上进行了4组实验,在场景信息约束的条件下取得了更好的目标检测性能。  相似文献   

5.
针对复杂城市监控场景中由于目标尺寸变化大、目标遮挡、天气影响等原因导致目标特征不明显的问题,该文提出一种基于注意力机制的多尺度全场景监控目标检测方法。该文设计了一种基于Yolov5s模型的多尺度检测网络结构,以提高网络对目标尺寸变化的适应性。同时,构建了基于注意力机制的特征提取模块,通过网络学习获得特征的通道级别权重,增强了目标特征,抑制了背景特征,提高了特征的网络提取能力。通过K-means聚类算法计算全场景监控数据集的初始锚框大小,加速模型收敛同时提升检测精度。在COCO数据集上,与基本网络相比,平均精度均值(mAP)提高了3.7%,mAP50提升了4.7%,模型推理时间仅为3.8 ms。在整个场景监控数据集中,mAP50达到89.6%,处理监控视频时为154 fps,满足监控现场的实时检测要求。  相似文献   

6.
为了解决自然场景文本检测中由于文本实例分布随机、形态与尺度多样造成的检测难题,设计了一种基于注意力机制特征融合与增强的自然场景文本检测算法。利用注意力机制对有效特征提取的优势,在模型的解码融合阶段设计并引入了一种基于注意力的特征融合模块(Attention-based Feature Fusion Module, AFFM),利用空间和通道注意力分别为高层特征和低层特征引入更丰富的细节和全局信息,进一步提高了检测的准确率;设计了联合注意力特征增强模块(Joint Attention Feature Enhancement Module, JAM),利用卷积对级联后的特征在不同通道之间、空间位置间的联系建模,并生成联合特征权重mask对级联特征做加权,从而提高信息的表征能力,有效减少误检与漏检。在Total-Text和ICDAR2015两个数据集上对模型做评估,测试结果表明,该方法的F1综合指标分别达到了85.1%和87.6%,均优于当前主流算法。  相似文献   

7.
针对场景文本识别在长距离建模时容易产生信息丢失和对低分辨率文本图像表征能力较弱的问题,提出了一种基于多模态迭代及修正的文本识别算法。本文算法的视觉模型(vision model)是由CoTNet(contextual transformer networks for visual recognition)、动态卷积注意力模块(dynamic convolution attention module,DCAM)、EA-Encoder(external attention encoder)和位置注意力机制组合而成的。其中CoTNet可以有效起到缓解长距离建模产生的信息丢失问题;DCAM在增强表征能力、专注于重要特征的同时,将重要的特征传给EA-Encoder,进而提高CoTNet和EA-Encoder之间的联系;EA-Encoder可以学习整个数据集上最优区分度的特征,捕获最有语义信息的部分,进而增强表征能力。经过视觉模型后,再经过文本修正模块(text correction model)和融合模块(fusion model)得到最终的识别结果。实验数据显示,本文所提出的算法在多个公共场景文本数据集上表现良好,尤其是在不规则数据集ICDAR2015上准确率高达85.9%。  相似文献   

8.
地铁场景行人目标存在大小不一、不同程度遮挡以及环境过暗导致目标模糊等问题,很大程度影响了行人目标检测的准确性。针对上述问题,本研究提出了一种改进YOLOv5s目标检测算法以增强地铁场景行人目标检测的效果。构建地铁场景行人数据集,标注对应标签,进行数据预处理操作。本研究在特征提取模块中加入深度残差收缩网络,将残差网络、注意力机制和软阈值化函数相结合以增强有用特征信道,削弱冗余特征信道;利用改进空洞空间金字塔池化模块,在不丢失图像信息的前提下获得多尺度、多感受野的融合特征,有效捕获图像全局上下文信息;设计了一种改进非极大值抑制算法,对目标预测框进行后处理,保留检测目标最优预测框。实验结果表明:提出的改进YOLOv5s算法能有效提高地铁场景行人目标检测的精度,尤其对小行人目标和密集行人目标的检测,效果提升更为显著。  相似文献   

9.
针对多方向排列的文本因其尺度变化大、复杂背景干扰而导致检测效果仍不甚理想的问题,本文提出了一种基于注意力机制的多方向文本检测方法。首先,考虑到自然场景下干扰信息多,构建文本特征提取网络(text feature information ResNet50,TF-ResNet),对图像中的文本特征信息进行提取;其次,在特征融合模型中加入文本注意模块(text attention module, TAM),抑制无关信息的同时突出显示文本信息,以增强文本特征之间的潜在联系;最后,采用渐进扩展模块,逐步融合扩展前部分得到的多个不同尺度的分割结果,以获得精确检测结果。本文方法在数据集CTW1500、ICDAR2015上进行实验验证和分析,其F值分别达到80.4%和83.0%,比次优方法分别提升了2.0%和2.4%,表明该方法在多方向文本检测上与其他方法相比具备一定的竞争力。  相似文献   

10.
针对无锚框目标检测算法CenterNet中,目标特征利用程度不高、检测结果不够准确的问题,该文提出一种双分支特征融合的改进算法。在算法中,一个分支包含了特征金字塔增强模块和特征融合模块,以对主干网络输出的多层特征进行融合处理。同时,为利用更多的高级语义信息,在另一个分支中仅对主干网络的最后一层特征进行上采样。其次,对主干网络添加了基于频率的通道注意力机制,以增强特征提取能力。最后,采用拼接和卷积操作对两个分支的特征进行融合。实验结果表明,在公开数据集PASCAL VOC上的检测精度为82.3%,比CenterNet算法提高了3.6%,在KITTI数据集上精度领先其6%,检测速度均满足实时性要求。该文提出的双分支特征融合方法将不同层的特征进行处理,更好地利用浅层特征中的空间信息和深层特征中的语义信息,提升了算法的检测性能。  相似文献   

11.
Video-based person re-identification (Re-ID) is of important capability for artificial intelligence and human–computer interaction. The spatial and temporal features play indispensable roles to comprehensively represent the person sequences. In this paper, we propose a comprehensive feature fusion mechanism (CFFM) for video-based Re-ID. We use multiple significance-aware attention to learn attention-based spatial–temporal feature fusion to better represent the person sequences. Specifically, CFFM consists of spatial attention, periodic attention, significance attention and residual learning. The spatial attention and periodic attention aim to respectively make the system focus on more useful spatial feature extracted by CNN and temporal feature extracted by the recurrent networks. The significance attention is to measure the two features that contribute to the sequence representation. Then the residual learning plays between the spatial and temporal features based on the significance scores for final significance-aware feature fusion. We apply our approach to different representative state-of-the-art networks, proposing several improved networks for improving the video-based Re-ID task. We conduct extensive experimental results on the widely utilized datasets, PRID-2011, i-LIDS-VID and MARS, for the video-based Re-ID task. Results show that the improved networks perform favorably against existing approaches, demonstrating the effectiveness of our proposed CFFM for comprehensive feature fusion. Furthermore, we compare the performance of different modules in CFFM, investigating the varied significance of the different networks, features and sequential feature aggregation modes.  相似文献   

12.
在许多地球科学应用中要用到大量的高时空分辨力的地球观测数据。时空图像融合方法为产生高时空分辨力的数据提供了一种可行且经济的解决方案。然而,现有的一些基于学习的方法对于图像深层特征提取能力较弱,对于高分辨力图像细节特征利用度不够。针对这些问题,提出一种基于多级特征补偿的遥感图像时空融合方法。该方法使用2个分支进行多层级的特征补偿,并提出了融合通道注意力机制的残差模块作为网络的基本组成单元,可以将高分辨力输入图像的深层特征更为详尽地提取利用。提出一种基于拉普拉斯算子的边缘损失,在节省预训练计算开销的同时取得了很好的融合效果。使用从山东和广东2个地区采集的Landsat和中分辨力成像光谱仪(MODIS)卫星图像对所提出的方法进行实验评估。实验结果表明,提出的方法在视觉外观和客观指标方面都具有更高质量。  相似文献   

13.
针对已有去雨网络在不同环境中去雨不彻底和图像细节信息损失严重的问题,本文提出一种基于注意力机制的多分支特征级联图像去雨网络。该模型结合多种注意力机制,形成不同类型的多分支网络,将图像空间细节和上下文特征信息在整体网络中自下而上地进行传递并级联融合,同时在网络分支间构建的阶段注意融合机制,可以减少特征提取过程中图像信息的损失,更大限度地保留特征信息,使图像去雨任务更加高效。实验结果表明,本文算法的客观评价指标优于其他对比算法,主观视觉效果得以有效提升,去雨能力更强,准确性更加突出,能够去除不同密度的雨纹,并且能够更好地保留图像背景中的细节信息。  相似文献   

14.
In recent years, artificial intelligence has been widely used in such fields as agricultural informatization, precision agriculture and precision animal husbandry. Due to limited research on deep learning in real-time agricultural and pastoral situations, deep learning and computer vision have become very important topics in the agricultural field. Recent studies have shown that the fusion of features under different attention mechanisms will help advance the utilization of such features, and will thus influence the accuracy and generalization ability of the models used. In this paper, we propose a lightweight network structure based on feature fusion under a dual attention mechanism with the same activation and joint loss functions. More specifically, we propose an innovative method to improve the network structure of two different attention mechanisms, and achieve feature fusion by combining the two. At the same time, we keep the activation functions consistent with those of the original network structure, and we develop a joint loss function to expand the use of various features. We also take the novel approach of applying the trajectory behavior analysis method to walking and standing. Experiments using both a publicly available data set and a data set obtained from a farm show that our algorithm achieves state-of-the-art performance in terms of accuracy and generalization ability, as compared to other methods.  相似文献   

15.
由于强大的高质量图像生成能力,生成对抗网络在图像融合和图像超分辨率等计算机视觉的研究中得到了广泛关注。目前基于生成对抗网络的遥感图像融合方法只使用网络学习图像之间的映射,缺乏对遥感图像中特有的全锐化领域知识的应用。该文提出一种融入全色图空间结构信息的优化生成对抗网络遥感图像融合方法。通过梯度算子提取全色图空间结构信息,将提取的特征同时加入判别器和具有多流融合架构的生成器,设计相应的优化目标和融合规则,从而提高融合图像的质量。结合WorldView-3卫星获取的图像进行实验,结果表明,所提方法能够生成高质量的融合图像,在主观视觉和客观评价指标上都优于大多先进的遥感图像融合方法。  相似文献   

16.
密集人群计数是计算机视觉领域的一个经典问题,仍然受制于尺度不均匀、噪声和遮挡等因素的影响.该文提出一种基于新型多尺度注意力机制的密集人群计数方法.深度网络包括主干网络、特征提取网络和特征融合网络.其中,特征提取网络包括特征支路和注意力支路,采用由并行卷积核函数组成的新型多尺度模块,能够更好地获取不同尺度下的人群特征,以...  相似文献   

17.
提出一种基于注意力和中间融合表示的三维重建模型,旨在重建具有精细化结构的三维模型。该方法利用轴向空间注意力机制学习不同方向的信息,将其嵌入编码器中以捕获局部结构特征;并基于双流网络推测深度图和三维平均形状以设计中间融合表示模块,该模块能够有效地融合可见表面细节信息,从而更好地描绘对象的三维空间结构。实验结果表明:所提出的轴向空间注意力机制和中间融合表示模块增强了特征提取的能力,IoU和F-score比PixVox++分别提升了1.3%和0.4%,三维重建效果更优。  相似文献   

18.
Attention mechanism has been found effective for human gaze estimation, and the attention and diversity of learned features are two important aspects of attention mechanism. However, the traditional attention mechanism used in existing gaze model is more prone to utilize first-order information that is attentive but not diverse. Though the existing bilinear pooling-based attention could overcome the shortcoming of traditional attention, it is limited to extract high-order contextual information. Thus we introduce a novel bilinear pooling-based attention mechanism, which could extract the second-order contextual information by the interaction between local deep learned features. To make the gaze-related features robust for spatial misalignment, we further propose an attention-in-attention method, which consists of a global average pooling and an inner attention on the second-order features. For the purpose of gaze estimation, a new bilinear pooling-based attention networks with attention-in-attention is further proposed. Extensive evaluation shows that our method surpasses the state-of-the-art by a big margin.  相似文献   

19.
结合遥感图像融合的特点,提出一种联合辐射指数的多流融合生成对抗网络的遥感图像融合方法。该方法从初始的多光谱图像和全色图像中按照特定的规则提取特征图,利用生成器子网络分别提炼输入的多源图像,在特征域上叠加特征后通过生成器的主网络进行融合。根据遥感领域中多光谱图像和全色图像在波段上的特性,在判别器中引入调制传递函数(MTF)来判别融合图像的光谱信息和空间结构信息。为评估所提方法的有效性,进行视觉分析,并与其他算法进行客观评价的比较。实验结果表明,该方法在视觉效果和客观评价上优于其他算法。  相似文献   

20.
目前,已经有很多研究人员将卷积神经网络应用到红外与可见光图像融合任务中,并取得了较好的融合效果。其中有很多方法是基于自编码器架构的网络模型,这类方法通过自监督方式进行训练,在测试阶段需要采用手工设计的融合策略对特征进行融合。但现有的基于自编码器网络的方法很少能够充分地利用浅层特征和深层特征,而且卷积神经网络受到感受野的限制,建立长距离依赖较为困难,因而丢失了全局信息。而Transformer借助于自注意力机制,可以建立长距离依赖,有效获取全局上下文信息。在融合策略方面,大多数方法设计的较为粗糙,没有专门考虑不同模态图像的特性。因此,在编码器中结合了CNN和Transformer,使编码器能够提取更加全面的特征。并将注意力模型应用到融合策略中,更精细化地优化特征。实验结果表明,该融合算法相较于其他图像融合算法在主观和客观评价上均取得了优秀的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号