首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 234 毫秒
1.
针对输电线路无人机巡检中绝缘子设备及缺陷图像检测过程中存在的绝缘子目标尺寸变化大、缺陷目标尺寸小、背景复杂干扰多和难易样本不平衡等问题,提出一种基于改进YOLOv7的绝缘子设备及缺陷检测算法:1)针对绝缘子缺陷目标尺寸小问题,在YOLOv7特征提取网络浅层引入卷积注意力机制,聚焦缺陷;2)针对绝缘子目标尺度变化大问题,在YOLOv7特征提取网络底部引入感受野增强模块,提取不同尺度目标特征;3)针对背景干扰问题,改进YOLOv7特征融合网络,在顶部引入显示视觉中心模块,同时关注全局信息与局部信息;4)针对难易样本不平衡问题,使用Focal-EIoU损失替换YOLOv7坐标回归损失。在合并的绝缘子及其缺陷无人机图像公开数据集上,该算法的多类目标检测精度均值达到了97.36%。  相似文献   

2.
为了降低高空作业意外事故发生的风险,高空吊钩作业违规检测识别并及时告警显得十分重要.针对高空 吊钩目标小以及图像目标模糊等问题,现有的基于 YOLOv5的目标检测方法存在误检测率高、效率低等问题,为此 采用一种 Transformer模块来引导 YOLOv5对高空吊钩违规操作检测的算法.首先,在 Backbone中添加 Transformer 模块有效捕获全局信息和目标图像的上下文内容信息,有利于捕获复杂背景干扰下目标的特征信息;其次在 Neck中 使用 BiFPN 模块,能有效挖掘小目标图像内容信息及深层图像语义信息;最后使用SIoU损失函数,可以更准确定位 目标框的位置信息.  相似文献   

3.
车辆重识别是智能交通领域重要应用之一,现有的车辆识别方法大多集中于预定义的局部区域特征或全局外观特征。然而,在复杂的交通环境下,传统的方法难以获取预定义的局部区域,同时很难捕捉有价值的车辆全局特征信息。因此,本文提出一种具有多视图融合的混合注意力机制和全局特征增强的端到端双分支网络。该网络旨在通过增强车辆的特征表达能力和特征质量来获得更完整、更多样的车辆特征。本文通过视图解析网络对车辆图片4个视角的视图进行分割,并通过视图拼接方法缓解分割不准确导致的信息丢失问题。为了更好地突出拼接视图中的显著性局部区域,本文提出一种由通道注意力机制和自注意力机制组成的混合注意力模块。通过该模块从车辆拼接视图中分别获取关键局部信息和局部信息之间的相关性,更好地凸显拼接视图中车辆局部的细节信息。除此之外,还提出了一个全局特征增强模块,通过池化和卷积获得全局特征的空间和通道关系。该模块不仅能提取到语义增强的车辆特征,而且还使车辆特征中包含完好的细节信息,解决获取的车辆图像受视角变化、光照条件变化等因素的影响。在Veri-776和VehicleID数据集上的大量实验表明,mAP、CMC@1和CMC@5分别达到...  相似文献   

4.
为快速准确识别混凝土坝面作业风险,针对坝面交叉作业复杂场景特征,基于YOLOv8网络,提出了一种混凝土坝面交叉作业安全风险智能识别方法(YOLO-CDSRI)。首先,采用跨阶段局部网络(CSPNet)和快速空间金字塔池化模块(SPPF)构建主干网络,提高模型对图像中安全风险的态势感知能力。其次,针对小目标安全风险的误识别、漏识别问题,引入双向特征金字塔网络(Bi FPN),经双向跨尺度连接和加权特征融合,增强风险特征间的信息耦合,提升模型对小目标安全风险的关注度。最后,以Wise-IoU为边界框回归损失函数,结合动态非单调聚焦机制,利用“离群度”评估锚框质量,避免标注框几何因素对模型的过度影响。研究表明:经500次迭代训练,YOLO-CDSRI的综合性能优于YOLOv5s、SSD和Faster-RCNN模型,可为智能识别混凝土坝面交叉作业安全风险提供技术支撑。  相似文献   

5.
面向复杂多变的遥感场景下目标检测易受干扰的问题,提出了结合自校准模块和D_Triplet Attention的任意方向目标检测模型SD-Centernet。该方法在网络结构中引入旋转角度,为检测框提供角度信息。在Dlanet特征提取网络中引入self-Calibrated模块,通过自适应校准操作融合来自两个不同空间尺度的信息,增大输出特征的感受野。同时为了加强图像局部信息的聚焦,引入D_Triplet Attention,更好的解决了跨维度交互问题。SD-Centernet在HRSC-2016数据集上的检测精度达到86.25%,检测速度达到14.9帧/秒,有效提高了遥感航拍中多方位目标的检测效果。  相似文献   

6.
手和工具的交互是区分车间人员作业行为的关键信息。为防止泵件装配工序错漏,达到实时监测的目的,提出基于空间特征融合的车间作业工具检测算法。首先,为了提高对目标的定位能力和检测精度,基于帧差法分割前景中的手部运动区域,获得具有运动空间特征的纹理图像,结合装配过程的RGB图像构成目标检测网络的双通道输入。设计空间感知模块实现双通道输入的空间特征融合,获得全局空间信息。利用特征增强模块融合全局空间信息和深层语义信息,加强显著位置的特征响应。然后,采用ESNet(enhance shuffleNet)重构主干网络,基于深度可分离卷积实现多尺度特征提取,提高检测速度。最后,针对图像背景中局部元素变化问题,采用CutOut数据增强方法,提高模型抗干扰能力。实验结果表明,本文所提算法有效降低了误检率,较传统YOLOv5s的mAP提高6.4%,能够快速准确检测车间人员作业时使用的工具。  相似文献   

7.
如今,利用合成的成对数据集训练的有监督模型泛化能力弱,在多变的实际水下环境中表现不佳,而无监督模型虽摆脱 了成对数据集的依赖,但生成图像可能因缺少特征信息导致图像视觉质量较差。 故以循环生成对抗网络为架构,提出多特征选 择与双向残差融合的水下图像增强方法。 一方面,设计以混合注意力为基础的多特征选择模块对水下图像的多种特征进行选 择,再由双向残差融合对传统 U 型跳跃连接进行优化,使图像特征高效表达,有效恢复水下图像的纹理与色彩。 另一方面,在 判别器中引入混合注意力并提出内容感知损失和风格感知损失,保证增强图像在全局内容、局部纹理、风格特征等方面和清晰 图像一致。 与现有的无监督和有监督模型相比较,该模型 PSNR 分别提高了 6%和 2%,SSIM 分别提高了 4%和 3%,对水下图像 有着显著的增强效果,在色彩真实度和饱和度上相比其他现有方法更加优秀。  相似文献   

8.
针对工业生产中钢材表面背景复杂导致缺陷检测精度低的问题,本文提出一种基于改进YOLOX的钢材表面缺陷检测算法。首先,引入了Swin Transformer模块来捕获缺陷钢材表面区域全局上下文信息并提取更多差异化特征;其次,采用加权双向特征金字塔网络(BiFPN),能够方便、快速的进行跨尺度特征融合;最后,对原始目标定位损失函数进行改进,建立了一种融合边界框中心位置的CIoU损失函数从而实现目标框高精度定位。实验表明,算法在NEU-DET数据集上的mAP为80.7%,检测精度相较于原始YOLOX-S网络提高了6.2%,同时也明显高于一些其他主流算法,具有较高的准确率和实用性。  相似文献   

9.
现有的视频描述生成方法提取的特征及特征组合的方式较为简单,导致模型丢失了部分与视频描述相关的重要语义信息,限制了对视频内容的准确描述和理解。分析存在的不足,提出了一种基于增强全局-局部特征融合的视频描述生成方法。首先采用不同特征提取器分别对视频片段提取局部特征和全局特征,为了建模不同级别特征(局部和全局)的相关性,利用特征融合增强网络进行特征融合,丰富模型的特征信息。解码器使用的双向长短期记忆网络,并在其后加入重构网络,重构经编码器处理得到的视频特征序列,最终经过长短期记忆网络生成视频的描述语句。在MSVD与MSR-VTT数据集上的实验结果表明,提出的模型可以显著提高生成的描述语句的准确性。  相似文献   

10.
可见光红外行人重新识别是一种跨模态检索的问题。由于可见光和红外图像模态差异较大,能够精确的匹配行人仍然具有很大的挑战。最近的研究表明,利用池化描述身体部位的局部特征以及人图像本身的全局特征,即使在身体部位缺失的情况下,也能给出鲁棒的特征表示,但是简单的全局平均池化很难获取行人的细节特征。针对这个问题,本文提出一种新的全局多粒度池化的方法,利用全局平均池化和全局最大池化结合的方法,提取行人更多的背景和纹理信息。此外,传统的三元组损失在跨模态行人重识别上效果并不好。我们设计了一种新的跨模态三元损失,以优化类内和类间距离,并监督网络学习有区别的特征表示。本文通过实验证明了所提方法的有效性,并在RegDB和SYSU-MM01数据集上分别取得了88.01%Rank-1,79.26%mAP,和60.24%Rank-1,57.50%mAP的结果。  相似文献   

11.
针对目前大多数图像去雾算法由于细节丢失导致去雾后的图像颜色失真,雾霾残留以及纹理细节模糊等问题,提出 一种基于多残差和多重特征融合端到端的去雾算法。首先通过设计浅层特征提取模块,为深层网络提高丰富信息的特征图; 其次设计多残差级联模块,提取多层次特征,帮助模型学习更加复杂的特征表示;然后设计局部-全局特征融合模块,捕获从最 细微到最广泛的特征;最后设计结合残差注意力的跨层特征融合模块,避免上下采样后的细节缺失,更好地提取图像中的局 部与全局信息特征。实验结果表明,所提算法在 SOTS 室内、室外测试集上峰值信噪比(PSNR) 分别取得了33.12、31.07 dB, 结构相似性(SSIM) 分别取得0.986、0.983,与当前大多数主流算法相比得到了明显的提升,且在合成雾图像和真实雾霾图像 均取得了不错的去雾效果,复原图像细节更加清晰,更符合人类视觉感知。  相似文献   

12.
Recently, people have been paying more and more attention to mental health, such as depression, autism, and other common mental diseases. In order to achieve a mental disease diagnosis, intelligent methods have been actively studied. However, the existing models suffer the accuracy degradation caused by the clarity and oc-clusion of human faces in practical applications. This paper, thus, proposes a multi-scale feature fusion network that obtains feature information at three scales by locating the sentiment region in the image, and integrates global feature information and local feature information. In addition, a focal cross-entropy loss function is designed to improve the network''s focus on difficult samples during training, enhance the training effect, and increase the model recognition accuracy. Experimental results on the challenging RAF_DB dataset show that the proposed model exhibits better facial expression recognition accuracy than existing techniques.  相似文献   

13.
针对现有的遥感图像目标检测方法中对小尺寸飞机目标的检测精度不高、特征信息传递不准确、信息交互不充分等问题,提出了一种基于可辨别特征提取和上下文感知的遥感图像飞机目标检测方法。设计了以可辨别特征提取模块为主体的主干网络,用以加强对多尺度飞机目标的特征提取;引入自适应特征增强模块,选择性关注小目标、优化特征信息的传递与信息交互;并设计了特征融合上采样模块对特征图进行上采样操作,用以提升高层语义信息的准确性。在DOTAv1数据集上的检测精度达到了95.2%,相较于YOLOv5s、SCRDet、ASSD等主流算法,飞机目标的检测精度提高了3.7%~18%。此外,该方法的检测速度以及模型参数量分别为147 fps和13.4 M,相较于当前主流算法具备较强的竞争力,满足在遥感背景下对飞机目标的实时检测需求。  相似文献   

14.
在自动视频监控应用中,准确地识别出人类的异常行为是非常困难的任务。为了解决监测系统中异常人类活动的高 效识别问题,提出了一种加强局部以及全局特征信息融合的异常行为识别模型 ICBAM-ResNet50 。在 UTI 和 CASIA 两个数 据集上进行实验,结果表明该研究比ResNet50 模型准确率分别提高了7%和8%。ICBAM 模块引入一维卷积替换了原始 CBAM 中通道注意力的 MLP 操作,将局部的时间特征整合到通道描述符中,缓解了通道维度由于全局处理产生的忽略信息 交互的问题;其次引入时空注意力机制替换 CBAM 中的单一空间注意力机制,来提高模型的时空表征能力。最后,将优化的 CBAM 模块嵌入到 ResNet50 中,通过在 ImageNet 上对其进行预训练,在两个基准数据集上该模型分别达到了98.8%和97.9%的准确率。使用相同的数据集,将实验结果与原始识别方法进行了比较,结果表明该模型优于所比较的其他方法。  相似文献   

15.
基于深度哈希的图像检索方法往往利用卷积和池化技术去提取图像局部信息,并且需要不断加深网络层次来获得全局长依赖关系,这些方法一般具有较高的复杂度和计算量。本文提出了一种注意力增强的视觉Transformer图像检索算法,算法使用预训练的视觉Transformer作为基准模型,提升模型收敛速度,通过对骨干网络的改进和哈希函数的设计,实现了高效的图像检索。一方面,本文设计了一个注意力增强模块,来捕获输入特征图的局部显著信息和视觉细节,学习相应的权重以突出重要特征,并增强输入到Transformer编码器的图像特征的表征力。另一方面,为了提高图像检索的效率,设计了一种对比哈希损失函数,生成具有判别力的二进制哈希码,从而降低了内存需求与计算复杂度。在CIFAR-10和NUS-WIDE数据集上的实验结果表明,本文提出的方法,在两个不同数据集上使用不同哈希码长度的平均精度均值达到了96.8%和86.8%,性能超过多种经典的深度哈希算法和其他两种基于Transformer架构的图像检索算法。  相似文献   

16.
实时影像监理系统是针对建筑业中信息化管理存在的不足而开发的,系统会产生大量的视频信息,如何才能够有效且快速地对这些视频信息进行检索显得至关重要,传统的基于标签的检索方式并不适用于视觉信息的检索.基于内容的视频检索(CBVR)是近年来研究的热点,本文针对实时影像监理系统的特点,对基于内容的视频检索关键技术进行了分析,介绍了系统对于各项技术的需求和应用的重点,并设计了系统中视频检索模块的基本结构.实时影像监理系统的开发是对基于内容视频检索技术应用领域的一个拓展.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号