首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
目的 遥感图像语义分割是根据土地覆盖类型对图像中每个像素进行分类,是遥感图像处理领域的一个重要研究方向。由于遥感图像包含的地物尺度差别大、地物边界复杂等原因,准确提取遥感图像特征具有一定难度,使得精确分割遥感图像比较困难。卷积神经网络因其自主分层提取图像特征的特点逐步成为图像处理领域的主流算法,本文将基于残差密集空间金字塔的卷积神经网络应用于城市地区遥感图像分割,以提升高分辨率城市地区遥感影像语义分割的精度。方法 模型将带孔卷积引入残差网络,代替网络中的下采样操作,在扩大特征图感受野的同时能够保持特征图尺寸不变;模型基于密集连接机制级联空间金字塔结构各分支,每个分支的输出都有更加密集的感受野信息;模型利用跳线连接跨层融合网络特征,结合网络中的高层语义特征和低层纹理特征恢复空间信息。结果 基于ISPRS (International Society for Photogrammetry and Remote Sensing) Vaihingen地区遥感数据集展开充分的实验研究,实验结果表明,本文模型在6种不同的地物分类上的平均交并比和平均F1值分别达到69.88%和81.39%,性能在数学指标和视觉效果上均优于SegNet、pix2pix、Res-shuffling-Net以及SDFCN (symmetrical dense-shortcut fully convolutional network)算法。结论 将密集连接改进空间金字塔池化网络应用于高分辨率遥感图像语义分割,该模型利用了遥感图像不同尺度下的特征、高层语义信息和低层纹理信息,有效提升了城市地区遥感图像分割精度。  相似文献   

2.
目的 传统图像语义分割需要的像素级标注数据难以大量获取,图像语义分割的弱监督学习是当前的重要研究方向。弱监督学习是指使用弱标注样本完成监督学习,弱标注比像素级标注的标注速度快、标注方式简单,包括散点、边界框、涂鸦等标注方式。方法 针对现有方法对多层特征利用不充分的问题,提出了一种基于动态掩膜生成的弱监督语义分割方法。该方法以边界框作为初始前景分割轮廓,使用迭代方式通过卷积神经网络(convolutional neural network,CNN) 多层特征获取前景目标的边缘信息,根据边缘信息生成掩膜。迭代的过程中首先使用高层特征对前景目标的大体形状和位置做出估计,得到粗略的物体分割掩膜。然后根据已获得的粗略掩膜,逐层使用CNN 特征对掩膜进行更新。结果 在Pascal VOC(visual object classes) 2012 数据集上取得了78.06% 的分割精度,相比于边界框监督、弱—半监督、掩膜排序和实例剪切方法,分别提高了14.71%、4.04%、3.10% 和0.92%。结论 该方法能够利用高层语义特征,减少分割掩膜中语义级别的错误,同时使用底层特征对掩膜进行更新,可以提高分割边缘的准确性。  相似文献   

3.
目的 受光照变化、拍摄角度、物体数量和物体尺寸等因素的影响,室内场景下多目标检测容易出现准确性和实时性较低的问题。为解决此类问题,本文基于物体的彩色和深度图像组,提出了分步超像素聚合和多模态信息融合的目标识别检测方法。方法 在似物性采样(object proposal)阶段,依据人眼对显著性物体观察时先注意其色彩后判断其空间深度信息的理论,首先对图像进行超像素分割,然后结合颜色信息和深度信息对分割后的像素块分步进行多阈值尺度自适应超像素聚合,得到具有颜色和空间一致性的似物性区域;在物体识别阶段,为实现物体不同信息的充分表达,利用多核学习方法融合所提取的物体颜色、纹理、轮廓、深度多模态特征,将特征融合核输入支持向量机多分类机制中进行学习和分类检测。结果 实验在基于华盛顿大学标准RGB-D数据集和真实场景集上将本文方法与当前主流算法进行对比,得出本文方法整体的检测精度较当前主流算法提升4.7%,运行时间有了大幅度提升。其中分步超像素聚合方法在物体定位性能上优于当前主流似物性采样方法,并且在相同召回率下采样窗口数量约为其他算法的1/4;多信息融合在目标识别阶段优于单个特征和简单的颜色、深度特征融合方法。结论 结果表明在基于多特征的目标检测过程中本文方法能够有效利用物体彩色和深度信息进行目标定位和识别,对提高物体检测精度和检测效率具有重要作用。  相似文献   

4.
目的 图像分割是计算机视觉、数字图像处理等应用领域首要解决的关键问题。针对现有的单幅图像物体分割算法广泛存在的过分割和过合并现象,提出基于图像T型节点线索的图像物体分割算法。方法 首先,利用L0梯度最小化方法平滑目标图像,剔除细小纹理的干扰;其次,基于Graph-based分割算法对平滑后图像进行适度分割,得到粗糙分割结果;最后,借助于图像中广泛存在的T型节点线索对初始分割块进行区域合并得到最终优化分割结果。结果 将本文算法分别与Grabcut算法及Graph-based算法在不同场景类型下进行了实验与对比。实验结果显示,Grabcut算法需要人工定位边界且一次只能分割单个物体,Graph-based算法综合类内相似度和类间差异性,可以有效保持图像边界,但无法有效控制分割块数量,且分割结果对阈值参数过分依赖,极易导致过分割和过合并现象。本文方法在降低过分割和过合并现象、边界定位精确性和分割准确率方面获得明显改进,几组不同类型的图片分割准确率平均值达到91.16%,明显由于其他算法。处理图像尺寸800×600像素的图像平均耗时3.5 s,较之其他算法略有增加。结论 与各种算法对比结果表明,该算法可有效解决过分割和过合并问题,对比实验结果验证了该方法的有效性,能够取得具有一定语义的图像物体分割结果。  相似文献   

5.
目的 针对现有基于手工特征的显著目标检测算法对于显著性物体尺寸较大、背景杂乱以及多显著目标的复杂图像尚不能有效抑制无关背景区域且完整均匀高亮显著目标的问题,提出了一种利用深度语义信息和多核增强学习的显著目标检测算法。方法 首先对输入图像进行多尺度超像素分割计算,利用基于流形排序的算法构建弱显著性图。其次,利用已训练的经典卷积神经网络对多尺度序列图像提取蕴含语义信息的深度特征,结合弱显著性图从多尺度序列图像内获得可靠的训练样本集合,采用多核增强学习方法得到强显著性检测模型。然后,将该强显著性检测模型应用于多尺度序列图像的所有测试样本中,线性加权融合多尺度的检测结果得到区域级的强显著性图。最后,根据像素间的位置和颜色信息对强显著性图进行像素级的更新,以进一步提高显著图的准确性。结果 在常用的MSRA5K、ECSSD和SOD数据集上与9种主流且相关的算法就准确率、查全率、F-measure值、准确率—召回率(PR)曲线、加权F-measure值和覆盖率(OR)值等指标和直观的视觉检测效果进行了比较。相较于性能第2的非端到端深度神经网络模型,本文算法在3个数据集上的平均F-measure值、加权F-measure值、OR值和平均误差(MAE)值,分别提高了1.6%,22.1%,5.6%和22.9%。结论 相较于基于手工特征的显著性检测算法,本文算法利用图像蕴含的语义信息并结合多个单核支持向量机(SVM)分类器组成强分类器,在复杂图像上取得了较好的检测效果。  相似文献   

6.
目的 针对心血管内超声(IVUS)图像中钙化斑块、声影等干扰因素影响外弹力膜(EEM)轮廓检测准确性的问题,提出结合先验形状信息和序贯学习分类的心血管内超声外弹力膜检测的改进算法。方法 首先用多类多尺度序贯学习(M2SSL)将IVUS图像分割七大不同组织;然后在分类结果的基础上,结合血管先验形状信息筛选出外弹力膜轮廓的关键点;最后,结合IVUS图像的梯度和相位信息,采用Snake模型,获得最终的EEM轮廓。结果 临床采集22组IVUS序列,挑选出具有代表性的153帧图像做实验。统计数据显示:本文算法检测结果的平均Jacc指标为88.5%,满足临床诊断要求,性能优于国内近年来较好的算法。结论 本文的EEM自动检测算法简单有效,相比国内已有算法,提高了对钙化、纤维斑块以及声影区域的识别能力,对含钙化斑块、纤维斑块或血管中心偏移的高频IVUS图像具有较高的适用性。  相似文献   

7.
目的 主流深度学习的目标检测技术对自然影像的识别精度依赖于锚框设置的好坏,并使用平行于坐标轴的正框表示物体位置,而遥感影像中地物目标具有尺寸多变、分布密集、长宽比悬殊且朝向不定的特点,更宜通过与物体朝向一致的斜框表示其位置。本文试图结合无锚框和斜框检测技术,在遥感影像上实现高精度目标识别。方法 使用斜框标注能够更为紧密地贴合目标边缘,有效减少识别干扰因素。本文基于单阶段无锚框目标检测算法:一阶全卷积目标检测网络(fully convolutional one-stage object detector,FCOS),通过引入滑动点结构,在遥感影像上实现高效率、高精度的斜框目标检测。与FCOS的不同之处在于,本文改进的检测算法增加了用于斜框检测的两个分支,通过在正框的两邻边上回归滑动顶点比率产生斜框,并预测斜框与正框的面积比以减少极端情况下的检测误差。结果 在当前最大、最复杂的斜框遥感目标检测数据集DOTA (object detection in aerial images)上对本文方法进行评测,使用ResNet50作为骨干网络,平均精确率(mean average precision,mAP)达到74.84%,相比原始正框FCOS算法精度提升了33.02%,相比于YOLOv3(you only look once)效率提升了38.82%,比斜框检测算法R3Det (refined rotation RetinaNet)精度提升了1.53%。结论 实验结果说明改进的FCOS算法能够很好地适应高分辨率遥感倾斜目标识别场景。  相似文献   

8.
目的 弱监督物体检测是一种仅利用图像类别标签训练物体检测器的技术。近年来弱监督物体检测器的精度不断提高,但在如何提升检出物体的完整性、如何从多个同类物体中区分出单一个体的问题上仍面临极大挑战。围绕上述问题,提出了基于物体布局后验概率图进行多物体图像增广的弱监督物体检测方法ProMIS(probability-based multi-object image synthesis)。方法 将检出物体存储到物体候选池,并将候选池中的物体插入到输入图像中,构造带有伪边界框标注的增广图像,进而利用增广后的图像训练弱监督物体检测器。该方法包含图像增广与弱监督物体检测两个相互作用的模块。图像增广模块将候选池中的物体插入一幅输入图像,该过程通过后验概率的估计与采样对插入物体的类别、位置和尺度进行约束,以保证增广图像的合理性;弱监督物体检测模块利用增广后的多物体图像、对应的类别标签、物体伪边界框标签训练物体检测器,并将原始输入图像上检到的高置信度物体储存到物体候选池中。训练过程中,为了避免过拟合,本文在基线算法的基础上增加一个并行的检测分支,即基于增广边界框的检测分支,该分支利用增广得到的伪边界框标注进行训练,原有基线算法的检测分支仍使用图像标签进行训练。测试时,本文方法仅使用基于增广边界框的检测分支产生检测结果。本文提出的增广策略和检测器的分支结构在不同弱监督物体检测器上均适用。结果 在Pascal VOC(pattern analysis, statistical modeling and computational learning visual object classes)2007和Pascal VOC 2012数据集上,将该方法嵌入到多种现有的弱监督物体检测器中,平均精度均值(mean average precision,mAP)平均获得了2.9%和4.2%的提升。结论 本文证明了采用弱监督物体检测伪边界框标签生成的增广图像包含丰富信息,能够辅助弱监督检测器学习物体部件、整体以及多物体簇之间的区别。  相似文献   

9.
目的 目标语义特征提取效果直接影响图像语义分割的精度,传统的单尺度特征提取方法对目标的语义分割精度较低,为此,提出一种基于多尺度特征融合的工件目标语义分割方法,利用卷积神经网络提取目标的多尺度局部特征语义信息,并将不同尺度的语义信息进行像素融合,使神经网络充分捕获图像中的上下文信息,获得更好的特征表示,有效实现工件目标的语义分割。方法 使用常用的多类工件图像定义视觉任务,利用残差网络模块获得目标的单尺度语义特征图,再结合本文提出的多尺度特征提取方式获得不同尺度的局部特征语义信息,通过信息融合获得目标分割图。使用上述方法经多次迭代训练后得到与视觉任务相关的工件目标分割模型,并对训练权重与超参数进行保存。结果 将本文方法和传统的单尺度特征提取方法做定性和定量的测试实验,结果表明,获得的分割网络模型对测试集中的目标都具有较精确的分割能力,与单尺度特征提取方法相比,本文方法的平均交并比mIOU(mean intersection over union)指标在验证集上训练精度提高了4.52%,在测试集上分割精度提高了4.84%。当测试样本中包含的目标种类较少且目标边缘清晰时,本文方法能够得到更精准的分割结果。结论 本文提出的语义分割方法,通过多尺度特征融合的方式增强了神经网络模型对目标特征的提取能力,使训练得到的分割网络模型比传统的单尺度特征提取方式在测试集上具有更优秀的性能,从而验证了所提出方法的有效性。  相似文献   

10.
目的 显著物体检测的目标是提取给定图像中最能吸引人注意的物体或区域,在物体识别、图像显示、物体分割、目标检测等诸多计算机视觉领域中都有广泛应用。已有的基于局部或者全局对比度的显著物体检测方法在处理内容复杂的图像时,容易造成检测失败,其主要原因可以总结为对比度参考区域设置的不合理。为提高显著物体检测的完整性,提出背景驱动的显著物体检测算法,在显著值估计和优化中充分利用背景先验。方法 首先采用卷积神经网络学习图像的背景分布,然后从得到的背景图中分割出背景区域作为对比度计算参考区域来估计区域显著值。最后,为提高区域显著值的一致性,采用基于增强图模型的优化实现区域显著值的扩散,即在传统k-正则图局部连接的基础上,添加与虚拟节点之间的先验连接和背景区域节点之间的非局部连接,实现背景先验信息的嵌入。结果 在公开的ASD、SED、SOD和THUS-10000数据库上进行实验验证,并与9种流行的算法进行对比。本文算法在4个数据库上的平均准确率、查全率、F-measure和MAE指标分别为0.873 6、0.795 2、0.844 1和0.112 2,均优于当前流行的算法。结论 以背景区域作为对比度计算参考区域可以明显提高前景区域的显著值。卷积神经网络可以有效学习图像的背景分布并分割出背景区域。基于增强图模型的优化可以进一步实现显著值在前景和背景区域的扩散,提高区域显著值的一致性,并抑制背景区域的显著性响应。实验结果表明,本文算法能够准确、完整地检测图像的显著区域,适用于复杂图像的显著物体检测或物体分割应用。  相似文献   

11.
目的 SLAM(simultaneous localization and mapping)是移动机器人在未知环境进行探索、感知和导航的关键技术。激光SLAM测量精确,便于机器人导航和路径规划,但缺乏语义信息。而视觉SLAM的图像能提供丰富的语义信息,特征区分度更高,但其构建的地图不能直接用于路径规划和导航。为了实现移动机器人构建语义地图并在地图上进行路径规划,本文提出一种语义栅格建图方法。方法 建立可同步获取激光和语义数据的激光-相机系统,将采集的激光分割数据与目标检测算法获得的物体包围盒进行匹配,得到各物体对应的语义激光分割数据。将连续多帧语义激光分割数据同步融入占据栅格地图。对具有不同语义类别的栅格进行聚类,得到标注物体类别和轮廓的语义栅格地图。此外,针对语义栅格地图发布导航任务,利用路径搜索算法进行路径规划,并对其进行改进。结果 在实验室走廊和办公室分别进行了语义栅格建图的实验,并与原始栅格地图进行了比较。在语义栅格地图的基础上进行了路径规划,并采用了语义赋权算法对易移动物体的路径进行对比。结论 多种环境下的实验表明本文方法能获得与真实环境一致性较高、标注环境中物体类别和轮廓的语义栅格地图,且实验硬件结构简单、成本低、性能良好,适用于智能化机器人的导航和路径规划。  相似文献   

12.
在计算机视觉领域中,语义分割是场景解析和行为识别的关键任务,基于深度卷积神经网络的图像语义分割方法已经取得突破性进展。语义分割的任务是对图像中的每一个像素分配所属的类别标签,属于像素级的图像理解。目标检测仅定位目标的边界框,而语义分割需要分割出图像中的目标。本文首先分析和描述了语义分割领域存在的困难和挑战,介绍了语义分割算法性能评价的常用数据集和客观评测指标。然后,归纳和总结了现阶段主流的基于深度卷积神经网络的图像语义分割方法的国内外研究现状,依据网络训练是否需要像素级的标注图像,将现有方法分为基于监督学习的语义分割和基于弱监督学习的语义分割两类,详细阐述并分析这两类方法各自的优势和不足。本文在PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012数据集上比较了部分监督学习和弱监督学习的语义分割模型,并给出了监督学习模型和弱监督学习模型中的最优方法,以及对应的MIoU(mean intersection-over-union)。最后,指出了图像语义分割领域未来可能的热点方向。  相似文献   

13.
目的 视频目标检测旨在序列图像中定位运动目标,并为各个目标分配指定的类别标签。视频目标检测存在目标模糊和多目标遮挡等问题,现有的大部分视频目标检测方法是在静态图像目标检测的基础上,通过考虑时空一致性来提高运动目标检测的准确率,但由于运动目标存在遮挡、模糊等现象,目前视频目标检测的鲁棒性不高。为此,本文提出了一种单阶段多框检测(single shot multibox detector,SSD)与时空特征融合的视频目标检测模型。方法 在单阶段目标检测的SSD模型框架下,利用光流网络估计当前帧与近邻帧之间的光流场,结合多个近邻帧的特征对当前帧的特征进行运动补偿,并利用特征金字塔网络提取多尺度特征用于检测不同尺寸的目标,最后通过高低层特征融合增强低层特征的语义信息。结果 实验结果表明,本文模型在ImageNet VID (Imagelvet for video object detetion)数据集上的mAP (mean average precision)为72.0%,相对于TCN (temporal convolutional networks)模型、TPN+LSTM (tubelet proposal network and long short term memory network)模型和SSD+孪生网络模型,分别提高了24.5%、3.6%和2.5%,在不同结构网络模型上的分离实验进一步验证了本文模型的有效性。结论 本文模型利用视频特有的时间相关性和空间相关性,通过时空特征融合提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

14.
三维目标检测是计算机视觉领域的热门研究内容之一。在自动驾驶系统中,三维目标检测技术 通过捕获周围的点云信息与 RGB 图像信息,对周围物体进行检测,从而为车辆规划下一步的行进路线。因此, 通过三维目标检测实现对周边环境的精准检测与感知是十分重要的。针对三维目标检测技术中随机采样算法导 致前景点丢失的问题,首先提出了基于语义分割的随机采样算法,通过预测的语义特征指导采样过程,提升了 前景点的采样比重,进而提高了三维目标检测精度;其次,针对三维目标检测定位置信度与分类置信度不一致 的问题,提出了 CL 联合损失,使得网络倾向于选择定位置信度与分类置信度都高的 3D 候选框,避免了传统 的 NMS 仅考虑分类置信度所带来的歧义问题。在 KITTI 三维目标检测数据集进行了实验,结果表明,该方法 能够在简单、中等、困难 3 个难度下均获得精度的提升,从而验证了其在三维目标检测任务中的有效性。  相似文献   

15.
在热成像图目标检测中,存在图像的纹理单一、目标边界模糊等退化现象,这造成目标定位困难、目标与预定义锚点框无法精准匹配等问题.因此,文中提出基于特征对齐和关键点辅助激励的退化热成像图目标检测算法.引入可见光图分支,计算2个分支指定层的特征差异,提升热成像域与可见光域之间的相似度.为了丰富网络高层中的目标细节信息,修改特征图级联和检测尺度.部署包含关键点辅助激励的无锚点检测器,较好地定位目标并学习预定义锚点框覆盖较差的实例.在2个数据集上的对比实验表明,文中算法可准确定位热成像目标,有效提升退化热成像图目标检测精度.  相似文献   

16.
视觉理解,如物体检测、语义和实例分割以及动作识别等,在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用。近年来,基于全监督学习的深度视觉理解网络取得了显著的性能提升。然而,物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本,已成为限制其广泛应用的一个关键因素。弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注。围绕视觉弱监督学习,本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展,并对其发展方向和应用前景加以讨论分析。在简单回顾通用弱监督学习模型,如多示例学习(multiple instance learning,MIL)和期望—最大化(expectation-maximization,EM)算法的基础上,针对物体检测和定位,从多示例学习、类注意力图机制等方面分别进行总结,并重点回顾了自训练和监督形式转换等方法;针对语义分割任务,根据不同粒度的弱监督形式,如边界框标注、图像级类别标注、线标注或点标注等,对语义分割研究进展进行总结分析,并主要回顾了基于图像级别类别标注和边界框标注的弱监督实例分割方法;针对视频动作识别,从电影脚本、动作序列、视频级类别标签和单帧标签等弱监督形式,对弱监督视频动作识别的模型与算法进行回顾,并讨论了各种弱监督形式在实际应用中的可行性。在此基础上,进一步讨论视觉弱监督学习面临的挑战和发展趋势,旨在为相关研究提供参考。  相似文献   

17.
目的 目标检测是遥感智能解译中重要的研究方向之一,大多数目标检测算法难以实现密集排列的旋转目标的高精度检测。提出了一种基于关键点与引导向量预测的目标检测算法,实现高精度旋转目标检测的同时,还可对目标的朝向进行表征。方法 首先提出了一种新的旋转目标建模方式,将目标检测分解成中心点、头部顶点、引导向量以及目标宽度的参数回归以更贴合检测目标;其次设计旋转椭圆高斯核,能够更好地拟合遥感目标的形状,从而提升关键点的预测精度;最后通过预测中心点指向头部顶点的引导向量,完成同一个目标内中心点与头部顶点的匹配,从而生成一个精准的带方向的旋转矩形检测框。结果 在大长宽比舰船目标的HRSC(high-resolution ship collections)数据集上的实验结果表明,相比于其他主流的目标检测算法,本文算法获得了更好的检测结果,在VOC 2007(visual object classes)和VOC 2012的平均精度分别达到了90.78%和97.85%。在小长宽比飞机目标UCAS-AOD(UCAS-high resolution aerial object detection dataset)数据集上达到了98.81%的平均精度。实验结果表明了本文算法的可行性与有效性。结论 本文算法利用椭圆高斯核计算中心点与头部顶点,并设计引导向量对点匹配关系进行约束,实现了旋转目标的方向检测。  相似文献   

18.
目的 图像级弱监督语义分割方法利用类别标签训练分割网络,可显著降低标注成本。现有方法大多采用类激活图定位目标物体,然而传统类激活图只能挖掘出物体中最具辨识性的区域,直接将其作为伪标签训练的分割网络精度较差。本文提出一种显著性引导的弱监督语义分割算法,可在获取更完整类激活图的基础上提高分割模型的性能。方法 首先通过显著图对目标进行互补随机隐藏,以获得互补图像对,然后融合互补图像对的类激活图作为监督,提高网络获取完整类激活图的能力。其次引入双重注意力修正模块,利用全局信息修正类激活图并生成伪标签训练分割网络。最后使用标签迭代精调策略,结合分割网络的初始预测、类激活图以及显著图生成更精确的伪标签,迭代训练分割网络。结果 在PASCAL VOC 2012(pattern analysis,statistical modeling and computational learning visual object classes2012)数据集上进行类激活图生成实验与语义分割实验,所生成的类激活图更加完整,平均交并比有10.21%的提升。语义分割结果均优于对比方法,平均交并比提升6.9%。此外在COCO2014(common object in context2014)数据集上进行了多目标的语义分割实验,平均交并比提升0.5%。结论 该算法可获得更完整的类激活图,缓解了弱监督语义分割中监督信息不足的问题,提升了弱监督语义分割模型的精度。  相似文献   

19.
小目标检测是针对图像中像素占比少的目标,借助计算机视觉在图像中找到并判断该目标所属类别的目标检测技术。与目前应用较为成熟的大尺度、中尺度目标检测不同,小目标自身存在着语义信息少、覆盖面积小等先天不足,导致小目标的检测效果并不理想,因此如何提高小目标的检测效果依然是计算机视觉领域的一大难题。对近年来国内外小目标检测领域研究成果进行了梳理,以小目标检测技术为核心,对关于小目标的定义、检测难点进行分析;将能有效提高小目标检测精度的方法进行分类汇总,并介绍了各种方法的应用与优缺点;最后对未来小目标检测领域发展趋势进行了预测与展望。  相似文献   

20.
Transformer模型在自然语言处理领域取得了很好的效果,同时因其能够更好地连接视觉和语言,也激发了计算机视觉界的极大兴趣。本文总结了视觉Transformer处理多种识别任务的百余种代表性方法,并对比分析了不同任务内的模型表现,在此基础上总结了每类任务模型的优点、不足以及面临的挑战。根据识别粒度的不同,分别着眼于诸如图像分类、视频分类的基于全局识别的方法,以及目标检测、视觉分割的基于局部识别的方法。考虑到现有方法在3种具体识别任务的广泛流行,总结了在人脸识别、动作识别和姿态估计中的方法。同时,也总结了可用于多种视觉任务或领域无关的通用方法的研究现状。基于Transformer的模型实现了许多端到端的方法,并不断追求准确率与计算成本的平衡。全局识别任务下的Transformer模型对补丁序列切分和标记特征表示进行了探索,局部识别任务下的Transformer模型因能够更好地捕获全局信息而取得了较好的表现。在人脸识别和动作识别方面,注意力机制减少了特征表示的误差,可以处理丰富多样的特征。Transformer可以解决姿态估计中特征错位的问题,有利于改善基于回归的方法性能,还减少了三维估计时深度映射所产生的歧义。大量探索表明视觉Transformer在识别任务中的有效性,并且在特征表示或网络结构等方面的改进有利于提升性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号