首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 10 毫秒
1.
为改善自然场景文本检测任务中存在的分割边界粗糙和多尺度文本漏检等问题,提出了一种多尺度特征融合方法。首先,将密集连接型金字塔池化(DenseASPP)和卷积块注意力模块(CBAM)与渐进式尺度扩展网络(PSENet)进行紧密结合,前者作为尺度感知模块,可以提取丰富的多尺度信息,感知不同规模的文本;而后者作为注意力模块,能够突出多尺度信息中的关键特征,改善边界定位。然后,在骨干网络中添加空洞卷积扩大感受野。最后,在后处理阶段采用渐进式扩展算法优化文字行合成。在ICDAR2015和ICDAR2017-MLT数据集上的实验结果表明,综合评估指标F值相较于PSENet分别提升了2.47%和6.57%。可视化结果表明,该方法能够更好地分割文本边界,检测出PSENet漏检的文本。  相似文献   

2.
王凤随      陈金刚      王启胜      刘芙蓉     《智能系统学报》2022,17(2):276-285
识别多尺度目标是检测任务中的一项挑战,针对检测中的多尺度问题,提出自适应上下文特征的多尺度目标检测算法。针对不同尺度的目标需要不同大小感受野特征进行识别的问题,构建了一种多感受野特征提取网络,通过多分支并行空洞卷积,从高层语义特征中挖掘标签中的上下文信息;针对不同尺度目标的语义特征出现在不同分辨率特征图中的问题,基于改进的通道注意力机制,提出自适应的特征融合网络,通过学习不同分辨率特征图之间的相关性,在全局语义特征中融合局部位置特征;利用不同尺度的特征图识别不同尺度的物体。在PASCAL VOC数据集上对本文算法进行验证,本文方法的检测精度达到了85.74%,相较于Faster R-CNN检测精度提升约8.7%,相较于基线检测算法YOLOv3+提升约2.06%。  相似文献   

3.
寻找场景中的有效信息是场景识别领域中的关键性问题.针对构建场景图像的有效表示,提出了一种基于多尺度注意力网络的场景识别方法.通过在模型中融入改进的通道注意力结构,获得值得关注的局部特征和全局特征;同时针对空间注意力计算过程中的信息丢失问题,提出了基于不同尺度的空间注意力结构,利用特征互补得到场景图像的最终表示;并且引入...  相似文献   

4.
伪装目标检测是一项在复杂场景中定位和识别伪装目标的任务. 目前基于深度神经网络的方法已初步运用, 但在复杂场景下遇到干扰时, 许多方法无法充分利用目标的多级特征来提取丰富的语义信息, 仅依靠固定尺寸特征识别伪装目标. 为解决这一问题, 本文提出了一种基于多尺度特征融合交互的伪装目标检测网络. 该网络包含两个创新设计: 多尺度特征感知模块和双阶段邻级交互模块. 前者旨在通过结合多尺度特征的方式充分捕获复杂场景中丰富的局部-全局场景对比信息. 后者则是整合来自相邻层的特征以利用跨层相关性将有价值的上下文信息从编码器传输到解码器网络. 本文在CHAMELEON、CAMO-Test、COD10K-Test这3个公共数据集上对提出的方法进行了评测并与当前的主流方法对比. 实验结果表明, 本文方法的性能超越了当前的主流方法, 在各项指标上达到了优异的性能水平.  相似文献   

5.
本文致力于设计一个有效且高效的伪装物体分割(camouflaged object segmentation, COS)模型.为此,本文开发了一个生物启发的框架,称为金字塔定位和聚焦网络(pyramid positioning and focus network, PFNet+),其模仿了自然界中的捕食过程.具体地,本文的PFNet+包含3个关键模块,即上下文增强模块(context enrichment, CEn)、金字塔定位模块(pyramid positioning module, PPM)和聚焦模块(focus module, FM). CEn通过整合上下文信息来增强骨干特征的表征能力,从而提供更有辨别性的骨干特征. PPM模仿捕食中的检测过程,以金字塔的方式从全局的角度定位潜在的目标物体.然后FM执行捕食中的识别过程,通过在歧义区域的聚焦逐步细化初始的预测结果.值得注意的是,在FM中,本文开发了一个新颖的分心挖掘策略,用于分心区域的发现和去除,以提高预测的性能.大量的实验证明本文的PFNet+能够实时运行(56 fps),在4个标准度量指标下, PFNet+在3个具有挑战性的数...  相似文献   

6.
董虎胜 《福建电脑》2021,37(10):8-11
场景分割通过为图像的每个像素标注所属类别实现了对图像语义层次的理解,在自动驾驶、机器人感知、遥感图像分析等领域都具有广泛的应用价值.由于注意力机制能够有效地获得图像中的前景对象,为场景分割提供引导,近年来在场景分割中获得了越来越多的应用.本文在对图像的非局部注意力机制工作原理进行深入研究后,设计了多尺度级联的注意力模型...  相似文献   

7.
蒋峰岭  孔斌  钱晶  王灿  杨静 《测控技术》2021,40(1):1-15
人类的视觉系统能够迅速地、有选择地从视觉场景中检测出感兴趣的目标或者具有显著特征的物体,并根据更高层次的视觉任务目的对它们进行处理和理解,从而实现相应的行为或决策.将人类这种选择性视觉注意机制引入到计算机视觉的信息处理中,可以有效地减少视觉计算所需处理的数据量、加速整个处理过程,并进一步方便更高层次视觉任务的处理,因而...  相似文献   

8.
伪装目标检测(COD)能够在复杂环境下探测出与背景相似度极高的伪装目标,在军事侦查和工业检测等领域具有重要的应用价值。针对现有伪装目标检测方法对区域级特征信息利用率低的问题,提出一种基于区域特征强化的多尺度伪装目标检测网络(RFE-Net)方法,实现可见光条件下伪装目标的准确探测。RFE-Net主要包含弱语义特征增强模块、空间信息交互模块和上下文信息聚合模块。首先弱语义特征增强模块引入了条状池化和非对称卷积,通过优化网络的感受野来动态调整搜索区域,从而加强长距离弱语义特征间的联系;然后将级联的U型块结构组合为空间信息交互模块,消除错误预测样本的干扰;最后设计上下文信息聚合模块,通过充分融合深层语义信息和浅层细粒度信息以精细化处理目标边缘细节,从而提升预测准确度。实验结果表明,所提方法能够加强目标内部的弱语义关联,提高目标与背景的区分度,在最大测试集NC4K上的结构性度量、增强对准度量、加权F1值和平均绝对误差4个指标上均取得最优值,其中结构性度量和平均绝对误差高于第2名方法1.1%和7.7%。  相似文献   

9.
随着科技的发展与进步,人工智能已逐渐成为新一轮产业变革的核心驱动力,其中自动驾驶领域被给予了前所未有的关注。基于深度学习算法,设计了一个道路场景物体识别模型。首先为数据集制作,收集道路场景数据,做数据增强操作;其次,设计道路场景物体识别方案,选取深度学习网络VGG16和SSD框架进行构建;再次,将传统的车道线检测算法与深度学习物体识别算法相结合,使得模型在识别车辆、行人、动物等物体的同时,进行车道线检测,增加了模型检测功能;最后,在不同的天气,光照环境下,对模型进行测试。测试结果表明,设计的道路场景物体识别模型具有较好的检测识别效果,在光照变化和天气影响下,亦能达到较高的准确率。  相似文献   

10.
在遮挡场景下的行人检测一直是计算机视觉中的一个棘手问题,由于被遮挡的行人尺度差异大,可见率低,通常会给检测带来极大的挑战。针对这一问题,提出了一种针对行人遮挡检测的模型结构,对基于anchor-free的行人检测方法进行改进。设计了一种提取多尺度上下文信息的结构,通过级联多个不同扩张率的卷积层,使用密集连接实现多尺度特征共享,提取各个区域的上下文信息来解决遮挡问题。此外,为了提高特征的可分辨性,使用通道注意力机制对多尺度特征融合进行自适应的调整。实验结果表明,该方法在Caltech行人数据集的遮挡子集上实现了41.73%的MR?2,性能优于其他检测算法。  相似文献   

11.
目的 X光图像违禁物品检测一直是安检领域的一个基础问题,安检违禁物品形式各异,尺度变化大,以及透视性导致大量物体堆放时出现重叠遮挡现象,传统图像处理模型很容易出现漏检误检,召回率低。针对以上问题,提出一种融合多尺度特征与全局上下文信息的特征增强融合网络(feature enhancement fusion network, FEFNet)用于X光违禁物品检测。方法 首先针对特征主干网络darknet53,加入空间坐标的注意力机制,将位置信息嵌入到通道注意力中,分别沿两个空间方向聚合特征,增强特征提取器对违禁目标的特征提取能力,抑制背景噪声干扰。然后,将特征提取主干网络输出的特征编码为1维向量,利用自监督二阶融合获取特征空间像素相关性矩阵,进而获取完整的全局上下文信息,为视觉遮挡区域提供全局信息指导。针对违禁物品尺度不一的问题,提出多尺度特征金字塔融合模块,增加一层小感受野预测特征用于提高对小尺度违禁目标的检测能力。最后,通过融合全局上下文特征信息和局部多尺度细节特征解决违禁物品之间的视觉遮挡问题。结果 在SIXRay-Lite(security inspection X-ray)数据集...  相似文献   

12.
GSNet使用抓取度区分杂乱场景的可抓取区域, 显著地提高了杂乱场景中机器人抓取位姿检测准确性, 但是GSNet仅使用一个固定大小的圆柱体来确定抓取位姿参数, 而忽略了不同大小尺度的特征对抓取位姿估计的影响. 针对这一问题, 本文提出了一个多尺度圆柱体注意力特征融合模块(Ms-CAFF), 包含注意力融合模块和门控单元两个核心模块, 替代了GSNet中原始的特征提取方法, 使用注意力机制有效地融合4个不同大小圆柱体空间内部的几何特征, 从而增强了网络对不同尺度几何特征的感知能力. 在大规模杂乱场景抓取位姿检测数据集GraspNet-1Billion的实验结果表明, 在引入模块后将网络生成抓取位姿的精度最多提高了10.30%和6.65%. 同时本文将网络应用于实际实验, 验证了方法在真实场景当中的有效性.  相似文献   

13.
迷彩伪装技术能有效降低目标的视觉显著度,对迷彩目标检测任务造成巨大的挑战.在RetinaNet检测框架的基础上,针对迷彩目标特性嵌入了空间注意力和通道注意力模块,并基于定位置信得分构建了新的预测框过滤算法,有效实现了对迷彩伪装人员的检测.在扩展后的伪装人员数据集上的实验表明,该模型将检测精度提升了8.7个百分点,达到了...  相似文献   

14.
针对脑部磁共振图像中脑卒中病灶的自动分割因分割目标边缘复杂、尺度变化多样而造成的识别精度不高的问题,提出一种基于多尺度注意力的多尺度特征聚合方法,该方法利用注意力机制调节中间特征不同通道的权重,并自适应地选择不同尺度的特征进行融合,在缺血性脑卒中的公开数据集ATLAS上进行的一系列实验,选取Dice系数、豪斯多夫距离、重叠度、准确率和召回率作为评价指标,结果表明所提出的模型在脑卒中病变的分割问题上取得了较好的分割效果;另外,本模型还在Kaggle公开的脑肿瘤数据集上完成对比实验,证明本模型具有良好的可泛化性。  相似文献   

15.
赵鹏  徐本朋  闫石  刘政怡 《控制与决策》2021,36(9):2179-2186
现有的基于深度学习的自然场景文本检测方法一般采用大型深度神经网络作为主干网络进行特征提取,虽然效果显著但检测模型十分庞大,检测效率较低,若直接将主干网络换成轻量型网络则不能提取出足够的特征信息,直接导致检测效果大幅降低.为了降低文本检测模型的规模以及更为高效地检测文本,提出基于双分支特征融合的场景文本检测方法,在采用相...  相似文献   

16.
17.
车牌识别技术在交通管理中发挥着重要作用,其中车牌检测环节对后续识别性能有重大影响。现有的车牌检测系统容易受到外部环境的干扰,在自然场景下的检测性能差。提出一种基于多尺度注意力融合的车牌检测网络模型,利用金字塔网络特征图和CBAM(Convolutional Block Attention Module)注意力结构,提高小目标的检测精度。同时该方法不仅能够准确地检测定位出自然场景下的车牌,还能精确地定位出车牌的4个角点,有利于后续的车牌识别应用。实验中采用数据增强方法对CCPD数据集进行扩增,有效缓解了复杂环境变化对车牌检测造成的影响,增强了模型鲁棒性。通过对模型进行训练和测试,获得了98.05%的平均精确率和98.71%的召回率,优于其他车牌检测方法,并且帧率达到64?frame/s,实时性高。  相似文献   

18.
杨昊  张轶 《计算机应用》2023,(9):2727-2734
针对目标检测中分类和定位子任务分别需要大感受野和高分辨率,难以在这两个相互矛盾的需求间取得平衡的问题,提出一种用于目标检测的基于注意力机制的特征金字塔网络算法。该算法能整合多个不同感受野来获取更丰富的语义信息,以一种更关注不同特征图重要性的方式融合多尺度特征图,并在注意力机制引导下进一步精练复杂融合后的特征图。首先,通过多尺度的空洞卷积获取多尺度感受野,在保留分辨率的同时增强语义信息;其次,通过多级特征融合(MLF)方式将多个不同尺度的特征图通过上采样或池化操作变为相同分辨率后融合;最后,利用注意力引导的特征精练模块(AFRM)对融合后的特征图作精练处理,丰富语义信息并消除融合带来的混叠效应。将所提特征金字塔替换Faster R-CNN中的特征金字塔网络(FPN)后在MS COCO 2017数据集上进行实验,结果表明当骨干网络为深度50和101的残差网络(ResNet)时,平均精度(AP)分别达到了39.2%和41.0%,与使用原FPN的Faster R-CNN相比,分别提高了1.4和1.0个百分点。可见,所提特征金字塔网络算法能替代原FPN,更好地应用在目标检测场景中。  相似文献   

19.
何建航  孙郡瑤  刘琼 《软件学报》2024,35(4):2039-2054
深度歧义是单帧图像多人3D姿态估计面临的重要挑战,提取图像上下文对缓解深度歧义极具潜力.自顶向下方法大多基于人体检测建模关键点关系,人体包围框粒度粗背景噪声占比较大,极易导致关键点偏移或误匹配,还将影响基于人体尺度因子估计绝对深度的可靠性.自底向上的方法直接检出图像中的人体关键点再逐一恢复3D人体姿态.虽然能够显式获取场景上下文,但在相对深度估计方面处于劣势.提出新的双分支网络,自顶向下分支基于关键点区域提议提取人体上下文,自底向上分支基于三维空间提取场景上下文.提出带噪声抑制的人体上下文提取方法,通过建模“关键点区域提议”描述人体目标,建模姿态关联的动态稀疏关键点关系剔除弱连接减少噪声传播.提出从鸟瞰视角提取场景上下文的方法,通过建模图像深度特征并映射鸟瞰平面获得三维空间人体位置布局;设计人体和场景上下文融合网络预测人体绝对深度.在公开数据集MuPoTS-3D和Human3.6M上的实验结果表明:与同类先进模型相比,所提模型HSC-Pose的相对和绝对3D关键点位置精度至少提高2.2%和0.5%;平均根关键点位置误差至少降低4.2 mm.  相似文献   

20.
伪装目标检测(COD)旨在精确且高效地检测出与背景高度相似的伪装物体, 其方法可为物种保护、医学病患检测和军事监测等领域提供助力, 具有较高的实用价值. 近年来, 采用深度学习方法进行伪装目标检测成为一个比较新兴的研究方向. 但现有大多数COD算法都是以卷积神经网络(CNN)作为特征提取网络, 并且在结合多层次特征时, 忽略了特征表示和融合方法对检测性能的影响. 针对基于卷积神经网络的伪装目标检测模型对被检测目标的全局特征提取能力较弱问题, 提出一种基于Transformer的跨尺度交互学习伪装目标检测方法. 该模型首先提出了双分支特征融合模块, 将经过迭代注意力的特征进行融合, 更好地融合高低层特征; 其次引入了多尺度全局上下文信息模块, 充分联系上下文信息增强特征; 最后提出了多通道池化模块, 能够聚焦被检测物体的局部信息, 提高伪装目标检测准确率. 在CHAMELEON、CAMO以及COD10K数据集上的实验结果表明, 与当前主流的伪装物体检测算法相比较, 该方法生成的预测图更加清晰, 伪装目标检测模型能取得更高精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号