期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

杨昊张轶《计算机应用》2023,(9):2727-2734

针对目标检测中分类和定位子任务分别需要大感受野和高分辨率,难以在这两个相互矛盾的需求间取得平衡的问题,提出一种用于目标检测的基于注意力机制的特征金字塔网络算法。该算法能整合多个不同感受野来获取更丰富的语义信息,以一种更关注不同特征图重要性的方式融合多尺度特征图,并在注意力机制引导下进一步精练复杂融合后的特征图。首先,通过多尺度的空洞卷积获取多尺度感受野,在保留分辨率的同时增强语义信息;其次,通过多级特征融合（MLF）方式将多个不同尺度的特征图通过上采样或池化操作变为相同分辨率后融合;最后,利用注意力引导的特征精练模块（AFRM）对融合后的特征图作精练处理,丰富语义信息并消除融合带来的混叠效应。将所提特征金字塔替换Faster R-CNN中的特征金字塔网络（FPN）后在MS COCO 2017数据集上进行实验,结果表明当骨干网络为深度50和101的残差网络（ResNet）时,平均精度（AP）分别达到了39.2%和41.0%,与使用原FPN的Faster R-CNN相比,分别提高了1.4和1.0个百分点。可见,所提特征金字塔网络算法能替代原FPN,更好地应用在目标检测场景中。相似文献

2.

基于自校准卷积网络的行人检测方法

强华李琦铭周勇军高骁李波李俊《计算机工程与设计》2022,43(4):1008-1015

针对已有行人检测算法存在的小尺度行人信息描述不充分的问题,提出一种基于自校准卷积网络的行人检测算法.通过将CSP算法的主干网络更换为SCNet自校准卷积网络,有效扩大了网络的感受野范围;将主干网络的低层特征像素信息和高层特征语义信息进行融合,有效促进小尺度行人的检测;对精细的多尺度卷积特征进行多层连接,将行人检测简化为... 相似文献

3.

多尺度特征图融合的目标检测

下载免费PDF全文

姜文涛张驰张晟翀刘万军《中国图象图形学报》2019,24(11):1918-1931

目的自然场景图像中,特征提取的质量好坏是决定目标检测性能高低的关键因素。大多数检测算法都是利用卷积神经网络（CNN）强大的学习能力来获得目标的先验知识,并根据这些知识进行目标检测。卷积神经网络的低层次特征缺乏特征的代表性,而高层次的特征则对小尺度目标的监测能力弱。方法利用原始SSD（single shot multiBox detector）网络提取特征图,通过1×1卷积层将提取的特征图统一为256维;通过反卷积操作增加自顶向下特征图的空间分辨率;通过对应元素相加的操作,将两个方向的特征图进行融合。将融合后的特征图采用3×3的卷积核进行卷积操作,减小特征图融合后的混叠效应。根据以上步骤构建具有较强语义信息的特征图,同时保留原有特征图的细节信息;对预测框进行聚合,利用非极大抑制（NMS）实现最终的检测效果。结果在PASCAL VOC 2007和PASCAL VOC 2012数据集上进行实验测试,该模型的mAP（mean average precision）为78.9%和76.7%,相对于经典的SSD算法,分别提高了1.4%和0.9%;此外,本文方法在检测小尺度目标时相较于经典SSD模型mAP提升了8.3%。结论提出了一种多尺度特征图融合的目标检测算法,以自顶向下的方式扩展了语义信息,构造了高强度语义特征图用于实现精确目标检测。相似文献

4.

由粗到精的多尺度散焦模糊检测

下载免费PDF全文

衡红军叶何斌周末黄睿《中国图象图形学报》2021,26(3):581-593

目的散焦模糊检测致力于区分图像中的清晰与模糊像素，广泛应用于诸多领域，是计算机视觉中的重要研究方向。待检测图像含复杂场景时，现有的散焦模糊检测方法存在精度不够高、检测结果边界不完整等问题。本文提出一种由粗到精的多尺度散焦模糊检测网络，通过融合不同尺度下图像的多层卷积特征提高散焦模糊的检测精度。方法将图像缩放至不同尺度，使用卷积神经网络从每个尺度下的图像中提取多层卷积特征，并使用卷积层融合不同尺度图像对应层的特征；使用卷积长短时记忆（convolutional long-short term memory，Conv-LSTM）层自顶向下地整合不同尺度的模糊特征，同时生成对应尺度的模糊检测图，以这种方式将深层的语义信息逐步传递至浅层网络；在此过程中，将深浅层特征联合，利用浅层特征细化深一层的模糊检测结果；使用卷积层将多尺度检测结果融合得到最终结果。本文在网络训练过程中使用了多层监督策略确保每个Conv-LSTM层都能达到最优。结果在DUT （Dalian University of Technology）和CUHK （The Chinese University of Hong Kong）两个公共的模糊检测数据集上进行训练和测试，对比了包括当前最好的模糊检测算法BTBCRL （bottom-top-bottom network with cascaded defocus blur detection map residual learning），DeFusionNet （defocus blur detection network via recurrently fusing and refining multi-scale deep features）和DHDE （multi-scale deep and hand-crafted features for defocus estimation）等10种算法。实验结果表明：在DUT数据集上，本文模型相比于DeFusionNet模型，MAE （mean absolute error）值降低了38.8%，F_0.3值提高了5.4%；在CUHK数据集上，相比于LBP （local binary pattern）算法，MAE值降低了36.7%，F_0.3值提高了9.7%。通过实验对比，充分验证了本文提出的散焦模糊检测模型的有效性。结论本文提出的由粗到精的多尺度散焦模糊检测方法，通过融合不同尺度图像的特征，以及使用卷积长短时记忆层自顶向下地整合深层的语义信息和浅层的细节信息，使得模型在不同的图像场景中能得到更加准确的散焦模糊检测结果。相似文献

5.

多尺度特征融合工件目标语义分割

下载免费PDF全文

和超张印辉何自芬《中国图象图形学报》2020,25(3):476-485

目的目标语义特征提取效果直接影响图像语义分割的精度,传统的单尺度特征提取方法对目标的语义分割精度较低,为此,提出一种基于多尺度特征融合的工件目标语义分割方法,利用卷积神经网络提取目标的多尺度局部特征语义信息,并将不同尺度的语义信息进行像素融合,使神经网络充分捕获图像中的上下文信息,获得更好的特征表示,有效实现工件目标的语义分割。方法使用常用的多类工件图像定义视觉任务,利用残差网络模块获得目标的单尺度语义特征图,再结合本文提出的多尺度特征提取方式获得不同尺度的局部特征语义信息,通过信息融合获得目标分割图。使用上述方法经多次迭代训练后得到与视觉任务相关的工件目标分割模型,并对训练权重与超参数进行保存。结果将本文方法和传统的单尺度特征提取方法做定性和定量的测试实验,结果表明,获得的分割网络模型对测试集中的目标都具有较精确的分割能力,与单尺度特征提取方法相比,本文方法的平均交并比mIOU（mean intersection over union）指标在验证集上训练精度提高了4.52%,在测试集上分割精度提高了4.84%。当测试样本中包含的目标种类较少且目标边缘清晰时,本文方法能够得到更精准的分割结果。结论本文提出的语义分割方法,通过多尺度特征融合的方式增强了神经网络模型对目标特征的提取能力,使训练得到的分割网络模型比传统的单尺度特征提取方式在测试集上具有更优秀的性能,从而验证了所提出方法的有效性。相似文献

6.

融合深度特征和多核增强学习的显著目标检测

下载免费PDF全文

张晴李云李文举林家骏肖莽陈飞云《中国图象图形学报》2019,24(7):1096-1105

目的针对现有基于手工特征的显著目标检测算法对于显著性物体尺寸较大、背景杂乱以及多显著目标的复杂图像尚不能有效抑制无关背景区域且完整均匀高亮显著目标的问题,提出了一种利用深度语义信息和多核增强学习的显著目标检测算法。方法首先对输入图像进行多尺度超像素分割计算,利用基于流形排序的算法构建弱显著性图。其次,利用已训练的经典卷积神经网络对多尺度序列图像提取蕴含语义信息的深度特征,结合弱显著性图从多尺度序列图像内获得可靠的训练样本集合,采用多核增强学习方法得到强显著性检测模型。然后,将该强显著性检测模型应用于多尺度序列图像的所有测试样本中,线性加权融合多尺度的检测结果得到区域级的强显著性图。最后,根据像素间的位置和颜色信息对强显著性图进行像素级的更新,以进一步提高显著图的准确性。结果在常用的MSRA5K、ECSSD和SOD数据集上与9种主流且相关的算法就准确率、查全率、F-measure值、准确率—召回率（PR）曲线、加权F-measure值和覆盖率（OR）值等指标和直观的视觉检测效果进行了比较。相较于性能第2的非端到端深度神经网络模型,本文算法在3个数据集上的平均F-measure值、加权F-measure值、OR值和平均误差（MAE）值,分别提高了1.6%,22.1%,5.6%和22.9%。结论相较于基于手工特征的显著性检测算法,本文算法利用图像蕴含的语义信息并结合多个单核支持向量机（SVM）分类器组成强分类器,在复杂图像上取得了较好的检测效果。相似文献

7.

采用卷积核金字塔和空洞卷积的单阶段目标检测

下载免费PDF全文

刘涛汪西莉《中国图象图形学报》2020,25(1):102-112

目的在基于深度学习的目标检测模型中,浅层特征图包含更多细节但缺乏语义信息,深层特征图则相反,为了利用不同深度特征图的优势,并在此基础上解决检测目标的多尺度问题,本文提出基于卷积核金字塔和空洞卷积的单阶段目标检测模型。方法所提模型采用多种方式融合特征信息,先使用逐像素相加方式融合多层不同大小的特征图信息,然后在通道维度拼接不同阶段的特征图,形成具有丰富语义信息和细节信息的信息融合特征层作为模型的预测层。模型在锚框机制中引入卷积核金字塔结构,以解决检测目标的多尺度问题,采用空洞卷积减少大尺寸卷积核增加的参数量,合理地降低锚框数量。结果实验结果表明,在PASCAL VOC2007测试数据集上,所提检测框架在300×300像素的输入上检测精度达到79.3% mAP（mean average precision）,比SSD（single shot multibox detector）高1.8%,比DSSD（deconvolutional single shot detector）高0.9%。在UCAS-AOD遥感数据测试集上,所提模型的检测精度分别比SSD和DSSD高2.8%和1.9%。在检测速度上,所提模型在Titan X GPU上达到21帧/s,速度超过DSSD。结论本文模型提出在两个阶段融合特征信息并改进锚框机制,不仅具有较快的检测速度和较高的精度,而且较好地解决了小目标以及重叠目标难以被检出的问题。相似文献

8.

基于改进多尺度残差网络的行人检测方法

孙佩珺张仲荣李琦铭李俊《计算机工程与设计》2023,(3):762-769

针对行人检测的尺度变化问题，提出一种基于改进多尺度残差网络无锚检测算法(IMSNet)。将Res2Net残差模块中多尺度特征提取融入ResNeXt,将改进后的网络作为主干网络(Res2NeXt^*),使主干网络包含不同数量、不同组合的感受野；利用多个较小卷积核等效替代单个较大卷积核，增加网络深度并减少网络参数量；对细化的多尺度卷积特征级联融合做卷积运算，将行人检测简化为中心点和尺度预测任务。实验结果表明，IMSNet对CityPersons和Caltech数据集Reasonable设置分别实现了10.6%和2.6%的平均漏检率，检测每张图像仅需0.28 s。相似文献

9.

自适应上下文特征的多尺度目标检测算法

下载免费PDF全文

王凤随陈金刚王启胜刘芙蓉《智能系统学报》2022,17(2):276-285

识别多尺度目标是检测任务中的一项挑战,针对检测中的多尺度问题,提出自适应上下文特征的多尺度目标检测算法。针对不同尺度的目标需要不同大小感受野特征进行识别的问题,构建了一种多感受野特征提取网络,通过多分支并行空洞卷积,从高层语义特征中挖掘标签中的上下文信息;针对不同尺度目标的语义特征出现在不同分辨率特征图中的问题,基于改进的通道注意力机制,提出自适应的特征融合网络,通过学习不同分辨率特征图之间的相关性,在全局语义特征中融合局部位置特征;利用不同尺度的特征图识别不同尺度的物体。在PASCAL VOC数据集上对本文算法进行验证,本文方法的检测精度达到了85.74%,相较于Faster R-CNN检测精度提升约8.7%,相较于基线检测算法YOLOv3+提升约2.06%。相似文献

10.

结合上下文特征与CNN多层特征融合的语义分割

下载免费PDF全文

罗会兰张云《中国图象图形学报》2019,24(12):2200-2209

目的针对基于区域的语义分割方法在进行语义分割时容易缺失细节信息,造成图像语义分割结果粗糙、准确度低的问题,提出结合上下文特征与卷积神经网络（CNN）多层特征融合的语义分割方法。方法首先,采用选择搜索方法从图像中生成不同尺度的候选区域,得到区域特征掩膜;其次,采用卷积神经网络提取每个区域的特征,并行融合高层特征与低层特征。由于不同层提取的特征图大小不同,采用RefineNet模型将不同分辨率的特征图进行融合;最后将区域特征掩膜和融合后的特征图输入到自由形式感兴趣区域池化层,经过softmax分类层得到图像的像素级分类标签。结果采用上下文特征与CNN多层特征融合作为算法的基本框架,得到了较好的性能,实验内容主要包括CNN多层特征融合、结合背景信息和融合特征以及dropout值对实验结果的影响分析,在Siftflow数据集上进行测试,像素准确率达到82.3%,平均准确率达到63.1%。与当前基于区域的端到端语义分割模型相比,像素准确率提高了10.6%,平均准确率提高了0.6%。结论本文算法结合了区域的前景信息和上下文信息,充分利用了区域的语境信息,采用弃权原则降低网络的参数量,避免过拟合,同时利用RefineNet网络模型对CNN多层特征进行融合,有效地将图像的多层细节信息用于分割,增强了模型对于区域中小目标物体的判别能力,对于有遮挡和复杂背景的图像表现出较好的分割效果。相似文献

11.

自动驾驶场景的尺度感知实时行人检测

下载免费PDF全文

徐歆恺马岩钱旭张龑《中国图象图形学报》2021,26(1):93-100

目的行人检测是目标检测中的一个基准问题,在自动驾驶等场景有着较大的实用价值,在路径规划和智能避障方面发挥着重要作用。受限于现实的算法功耗和运行效率,在自动驾驶场景下行人检测存在检测速度不佳、遮挡行人检测精度不足和小尺度行人漏检率高等问题,在保证实时性的前提下设计一种适合行人检测的算法,是一项挑战性的工作。方法本文旨在解决自动驾驶场景中耗时长、行人遮挡和小尺度行人检测结果精度低的问题,提出了一种尺度注意力并行检测算法（scale-aware and efficient object detection,Scale-aware EfficientDet）：在特征提取与检测中使用了EfficientDet的主干网络,保证算法效率和功耗的平衡;在行人遮挡方面,为了提高模型对遮挡现象的检测精度,引入了可以增强行人与其他物体之间特征差异的损失函数;在提高小目标行人检测精度方面,采用scale-aware双路网络算法来增加对小目标行人的检测精度。结果本文选择Caltech行人数据集作为对比数据集,选取YOLO（you only look once）、YOLOv3、SA-FastRCNN（scale-aware fast region-based convolutional neural network）等算法进行对比,在运行效率方面,本文算法在连续输入单帧图像的情况下达到了35帧/s,多图像输入时达到了70帧/s的工作效率;在模型精度测试中,本文算法也略胜一筹。本文算法应用于2020年中国智能汽车大赛中,在安全避障环节皆获得满分。结论本文设计的尺度感知的行人检测算法,在EfficientDet高性能检测器的基础上,通过结合损失函数、scale-aware双路子网络的改进,进一步提升了本文检测器的鲁棒性。相似文献

12.

基于多尺度上下文信息的遮挡行人检测

下载免费PDF全文

赵世阳王晓峰《计算机工程与应用》2022,58(11):141-149

在遮挡场景下的行人检测一直是计算机视觉中的一个棘手问题,由于被遮挡的行人尺度差异大,可见率低,通常会给检测带来极大的挑战。针对这一问题,提出了一种针对行人遮挡检测的模型结构,对基于anchor-free的行人检测方法进行改进。设计了一种提取多尺度上下文信息的结构,通过级联多个不同扩张率的卷积层,使用密集连接实现多尺度特征共享,提取各个区域的上下文信息来解决遮挡问题。此外,为了提高特征的可分辨性,使用通道注意力机制对多尺度特征融合进行自适应的调整。实验结果表明,该方法在Caltech行人数据集的遮挡子集上实现了41.73%的MR?2,性能优于其他检测算法。相似文献

13.

面向复杂道路场景小尺度行人的实时检测算法

下载免费PDF全文

李昕昕杨林《计算机工程与应用》2020,56(22):124-131

复杂道路场景中小尺度行人目标检测漏检率高,实时性较差,提出了一种针对小尺度行人检测的增强算法,对RFB（Receptive Field Block）网络从特征提取网络结构及损失函数两方面进行改进：通过反向融合的方式将多尺度特征图通道间Shuffle后的深层特征组多级融合到浅层,并在采用更浅层特征的同时加入改进RFB模块及Normalization层,充分利用多尺度特征层间的信息进行小尺度行人检测。损失函数采用基于交并比和中心点距离解决评测与回归损失函数评价指标不等价问题。实验结果表明,该算法在Caltech行人数据集上总体行人和小尺度行人的漏检率分别降低了4.7个百分点与9.0个百分点,单张图片平均检测时间为36 ms,性能高于同类算法。相似文献

14.

改进Mask RCNN算法及其在行人实例分割中的应用

音松陈雪云贝学宇《计算机工程》2021,47(6):271-276,283

Mask RCNN算法在特征提取过程中存在语义信息丢失的问题,而自然场景中的行人具有姿态不同、遮挡和背景复杂等特点,导致算法应用于行人实例分割时检测准确性较差。对此,提出一种改进的Mask RCNN算法。在Mask RCNN网络的Mask分支中增加串联特征金字塔网络（CFPN）模块,对网络生成的多层特征进行融合,充分利用不同特征层的语义信息。在此基础上,执行RoI Align操作生成行人掩膜。仿照COCO数据集,从生活场景中拍摄1 000张图片,自建一个新的行人数据集。基于该数据集的实验结果表明,改进算法较原算法具有更高的检测精确率。相似文献

15.

夜间多场景的邻近感知实时行人检测算法

下载免费PDF全文

龚安李中浩梁辰宏《中国图象图形学报》2023,28(9):2693-2705

目的行人检测是自动驾驶、监控安防等领域的关键技术，为了解决目标检测算法在夜间复杂场景以及遮挡情况下造成的行人检测精度降低的问题，本文提出将低光增强算法（low-light image enhancement）添加到夜间行人检测任务中进行联合训练，并引入邻近感知模块（nearby objects hallucinator,NOH），提出了一种改进的夜间监控场景下的邻近感知行人检测算法（nearby-aware surveillance pedestrian detection algorithm,NSPDet）。方法为了提升夜间检测行人的准确率，在基线模型中加入低光增强模块（zero-reference deep curve estimation,Zero-DCE）。为了降低密集人群、遮挡造成的漏检、误检，利用NOH建模周围行人分布信息，提出了行人检测头（PedestrianHead）。为了减少模型参数，提升推理速度，本文利用深度可分离卷积将模型进行轻量化。结果在NightSurveillance数据集上进行3组消融实验，相比基线模型YOLOX(exceeding YOLO (yo... 相似文献

16.

改进R-FCN模型的小尺度行人检测

下载免费PDF全文

刘万军董利兵曲海成《中国图象图形学报》2021,26(10):2400-2410

目的为了有效解决传统行人检测算法在分辨率低、行人尺寸较小等情境下检测精度低的问题,将基于区域全卷积网络（region-based fully convolutional networks,R-FCN）的目标检测算法引入到行人检测中,提出一种改进R-FCN模型的小尺度行人检测算法。方法为了使特征提取更加准确,在ResNet-101的conv5阶段中嵌入可变形卷积层,扩大特征图的感受野;为提高小尺寸行人检测精度,在ResNet-101中增加另一条检测路径,对不同尺寸大小的特征图进行感兴趣区域池化;为解决小尺寸行人检测中的误检问题,利用自举策略的非极大值抑制算法代替传统的非极大值抑制算法。结果在基准数据集Caltech上进行评估,实验表明,改进的R-FCN算法与具有代表性的单阶段检测器（single shot multiBox detector,SSD）算法和两阶段检测器中的Faster R-CNN（region convolutional neural network）算法相比,检测精度分别提高了3.29%和2.78%;在相同ResNet-101基础网络下,检测精度比原始R-FCN算法提高了12.10%。结论本文提出的改进R-FCN模型,使小尺寸行人检测精度更加准确。相比原始模型,改进的R-FCN模型对行人检测的精确率和召回率有更好的平衡能力,在保证精确率的同时,具有更大的召回率。相似文献

17.

Pedestrian detection algorithm based on video sequences and laser point cloud

Hui LI Yun LIU Shengwu XIONG Lin WANG 《Frontiers of Computer Science》2015,9(3):402

Pedestrian detection is a critical problem in the field of computer vision. Although most existing algorithms are able to detect pedestrians well in controlled environments, it is often difficult to achieve accurate pedestrian detection from video sequences alone, especially in pedestrian-intensive scenes wherein pedestrians may cause mutual occlusion and thus incomplete detection. To surmount these difficulties, this paper presents pedestrian detection algorithm based on video sequences and laser point cloud. First, laser point cloud is interpreted and classified to separate pedestrian data and vehicle data. Then a fusion of video image data and laser point cloud data is achieved by calibration. The region of interest after fusion is determined using feature information contained in video image and three-dimensional information of laser point cloud to remove false detection of pedestrian and thus to achieve pedestrian detection in intensive scenes. Experimental verification and analysis in video sequences demonstrate that fusion of two data improves the performance of pedestrian detection and has better detection results. 相似文献

18.

浅层特征融合引导的深层网络行人检测

下载免费PDF全文

杨雅茹邓红霞王哲于海涛《计算机工程与应用》2020,56(2):196-200

行人检测是目标检测中的一个重要研究方向。针对行人检测算法在复杂场景和目标太小情况下漏检的问题,在Faster R-CNN检测算法的基础上,提出一种基于浅层特征融合引导的深层网络行人检测。通过HOG特征、改进的LBP特征与深度网络特征融合获得准确的行人特征,在国际上广泛使用的行人数据集上进行一系列实验。结果表明,所提出的改进方法在检测准确率和速率方面都有所提高。相似文献

19.

多层卷积特征的真实场景下行人检测研究

下载免费PDF全文

伍鹏瑛张建明彭建陆朝铨《智能系统学报》2019,14(2):306-315

针对真实场景下的行人检测方法存在漏检、误检率高,以及小尺寸目标检测精度低等问题,提出了一种基于改进SSD网络的行人检测模型（PDIS）。PDIS通过引出更底层的输出特征图改进了原始SSD网络模型,并采用卷积神经网络不同层输出的抽象特征对行人目标分别做检测,融合多层检测结果,提升了小目标行人的检测性能。此外,针对数据集样本多样性能有效地提升检测算法的泛化能力,本文采集了不同光照、姿态、遮挡等复杂场景下的行人图像,对背景比较复杂的INRIA行人数据集进行了扩充,在扩增的行人数据集上训练的PDIS模型,提高了在真实场景下的行人检测精度。实验表明:PDIS在INRIA测试集上测试结果达到93.8%的准确率,漏检率低至7.4%。相似文献

20.

A novel small-scale pedestrian detection method base on residual block group of CenterNet

《Computer Standards & Interfaces》2023

Pedestrian detection is widely used in intelligent supervision and assisted driving. With the development of deep learning, the accuracy of pedestrian detection has been greatly improved. In actual scenes, there are often pedestrians who are far away from the camera. Such pedestrians usually have small image sizes, while existing algorithms still have defects such as missed detection for similar small-scale pedestrian detection, which will reduce the accuracy of operation. Therefore, this paper designs a Three ResNet Blocks based on CenterNet detection model. Aiming at the limited ability of a single feature extraction block to extract semantic information at different levels in the network, this paper proposes Three ResNet Blocks, which is a simple and effective multi-block group. This block group integrates three different basic blocks, each of which extracts pedestrian information separately to enhance information flow in the network structure and make detection results more accurate. In addition, combined with the advantages of activation function in the model expression, the relu6 activation function is introduced to improve the performance of the detector by preventing numerical explosion being sensitive to decimal. Comprehensive experiments on pedestrian detection datasets (Caltech and ETH) show that the proposed method exhibits excellent accuracy and detection speed, especially for small-scale pedestrian detection. 相似文献