首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
目的 针对视觉目标跟踪(video object tracking,VOT)和视频对象分割(video object segmentation,VOS)问题,研究人员提出了多个多任务处理框架,但是该类框架的精确度和鲁棒性较差。针对此问题,本文提出一个融合多尺度上下文信息和视频帧间信息的实时视觉目标跟踪与视频对象分割多任务的端到端框架。方法 文中提出的架构使用了由空洞深度可分离卷积组成的更加多尺度的空洞空间金字塔池化模块,以及具备帧间信息的帧间掩模传播模块,使得网络对多尺度目标对象分割能力更强,同时具备更好的鲁棒性。结果 本文方法在视觉目标跟踪VOT-2016和VOT-2018数据集上的期望平均重叠率(expected average overlap,EAO)分别达到了0.462和0.408,分别比SiamMask高了0.029和0.028,达到了最先进的结果,并且表现出更好的鲁棒性。在视频对象分割DAVIS(densely annotated video segmentation)-2016和DAVIS-2017数据集上也取得了有竞争力的结果。其中,在多目标对象分割DAVIS-2017数据集上,本文方法比SiamMask有更好的性能表现,区域相似度的杰卡德系数的平均值JM和轮廓精确度的F度量的平均值FM分别达到了56.0和59.0,并且区域和轮廓的衰变值JDFD都比SiamMask中的低,分别为17.9和19.8。同时运行速度为45帧/s,达到了实时的运行速度。结论 文中提出的融合多尺度上下文信息和视频帧间信息的实时视觉目标跟踪与视频对象分割多任务的端到端框架,充分捕捉了多尺度上下文信息并且利用了视频帧间的信息,使得网络对多尺度目标对象分割能力更强的同时具备更好的鲁棒性。  相似文献   

2.
目的 传统的半监督视频分割多是基于光流的方法建模关键帧与当前帧之间的特征关联。而光流法在使用过程中容易因遮挡、特殊纹理等情况产生错误,从而导致多帧融合存在问题。为了更好地融合多帧特征,本文提取第1帧的外观特征信息与邻近关键帧的位置信息,通过Transformer和改进的PAN(path aggregation network)模块进行特征融合,从而基于多帧时空注意力学习并融合多帧的特征。方法 多帧时空注意力引导的半监督视频分割方法由视频预处理(即外观特征提取网络和当前帧特征提取网络)以及基于Transformer和改进的PAN模块的特征融合两部分构成。具体包括以下步骤:构建一个外观信息特征提取网络,用于提取第1帧图像的外观信息;构建一个当前帧特征提取网络,通过Transformer模块对当前帧与第1帧的特征进行融合,使用第1帧的外观信息指导当前帧特征信息的提取;借助邻近数帧掩码图与当前帧特征图进行局部特征匹配,决策出与当前帧位置信息相关性较大的数帧作为邻近关键帧,用来指导当前帧位置信息的提取;借助改进的PAN特征聚合模块,将深层语义信息与浅层语义信息进行融合。结果 本文算法在DAVIS(densely annotated video segmentation)-2016数据集上的J和F得分为81.5%和80.9%,在DAVIS-2017数据集上为78.4%和77.9%,均优于对比方法。本文算法的运行速度为22帧/s,对比实验中排名第2,比PLM(pixel-level matching)算法低1.6%。在YouTube-VOS(video object segmentation)数据集上也取得了有竞争力的结果,JF的平均值达到了71.2%,领先于对比方法。结论 多帧时空注意力引导的半监督视频分割算法在对目标物体进行分割的同时,能有效融合全局与局部信息,减少细节信息丢失,在保持较高效率的同时能有效提高半监督视频分割的准确率。  相似文献   

3.
目的 目前视频目标检测(object detection from video)领域大量研究集中在提升预测框定位准确性,对于定位稳定性提升的研究则较少。然而,预测框定位稳定性对多目标跟踪、车辆行驶控制等算法具有重要影响,为提高预测框定位稳定性,本文提出了一种扩张性非极大值抑制(expanded non-maximum suppression,Exp_NMS)方法和帧间平滑策略(frame bounding box smooth,FBBS)。方法 目标检测阶段使用YOLO(you only look once)v3神经网络,非极大值抑制阶段通过融合多个预测框信息得出结果,增强预测框在连续视频流中的稳定性。后续利用视频相邻帧信息关联的特点,对预测框进行平滑处理,进一步提高预测框定位稳定性。结果 选用UA-DETRAC(University at Albany detection and tracking benchmark dataset)数据集进行分析实验,使用卡尔曼滤波多目标跟踪算法进行辅助验证。本文在MOT(multiple object tracking)评价指标基础上,设计了平均轨迹曲折度(average track-tortuosity,AT)来直观、量化地衡量预测框定位稳定性及跟踪轨迹的平滑度。实验结果表明,本文方法几乎不影响预测框定位准确性,且对定位稳定性有大幅改善,相应跟踪质量得到显著提升。测试视频的MOTA(multiple object tracking accuracy)提升6.0%、IDs(identity switches)减少16.8%,跟踪FP(false positives)类型错误下降45.83%,AT下降36.57%,mAP(mean average precision)仅下降0.07%。结论 从非极大值抑制和前后帧信息关联两个角度设计相关策略,经实验验证,本文方法在基本不影响预测框定位准确性的前提下,可有效提升预测框定位稳定性。  相似文献   

4.
目的 视觉目标跟踪算法主要包括基于相关滤波和基于孪生网络两大类。前者虽然精度较高但运行速度较慢,无法满足实时要求。后者在速度和精度方面取得了出色的跟踪性能,然而,绝大多数基于孪生网络的目标跟踪算法仍然使用单一固定的模板,导致算法难以有效处理目标遮挡、外观变化和相似干扰物等情形。针对当前孪生网络跟踪算法的不足,提出了一种高效、鲁棒的双模板融合目标跟踪方法(siamese tracker with double template fusion,Siam-DTF)。方法 使用第1帧的标注框作为初始模板,然后通过外观模板分支借助外观模板搜索模块在跟踪过程中为目标获取合适、高质量的外观模板,最后通过双模板融合模块,进行响应图融合和特征融合。融合模块结合了初始模板和外观模板各自的优点,提升了算法的鲁棒性。结果 实验在3个主流的目标跟踪公开数据集上与最新的9种方法进行比较,在OTB2015(object tracking benchmark 2015)数据集中,本文方法的AUC(area under curve)得分和精准度分别为0.701和0.918,相比于性能第2的SiamRPN++(siamese region proposal network++)算法分别提高了0.6%和1.3%;在VOT2016(visual object tracking 2016)数据集中,本文方法取得了最高的期望平均重叠(expected average overlap,EAO)和最少的失败次数,分别为0.477和0.172,而且EAO得分比基准算法SiamRPN++提高了1.6%,比性能第2的SiamMask_E算法提高了1.1%;在VOT2018数据集中,本文方法的期望平均重叠和精确度分别为0.403和0.608,在所有算法中分别排在第2位和第1位。本文方法的平均运行速度达到47帧/s,显著超出跟踪问题实时性标准要求。结论 本文提出的双模板融合目标跟踪方法有效克服了当前基于孪生网络的目标跟踪算法的不足,在保证算法速度的同时有效提高了跟踪的精确度和鲁棒性,适用于工程部署与应用。  相似文献   

5.
目的 尺度突变是目标跟踪中一项极具挑战性的任务,短时间内目标的尺度发生突变会导致跟踪要素丢失,使得跟踪误差积累导致跟踪漂移,为了更好地解决这一问题,提出了一种先检测后跟踪的自适应尺度突变的跟踪算法(kernelized correlation filter_you only look once,KCF_YOLO)。方法 在跟踪的训练阶段使用相关滤波跟踪器实现快速跟踪,在检测阶段使用YOLO(you only look once)V3神经网络,并设计了自适应的模板更新策略,采用将检测到的物体的相似度与目标模板的颜色特征和图像指纹特征融合后的相似度进行对比的方法,判断目标是否发生遮挡,据此决定是否在当前帧更新目标模板。结果 为证明本文方法的有效性在OTB(object tracking benchmark)2015数据集中具有尺度突变代表性的11个视频序列上进行试验,试验视频序列目标尺度变化为0.19.2倍,结果表明本文方法平均跟踪精度为0.955,平均跟踪速度为36帧/s,与经典尺度自适应跟踪算法比较,精度平均提高31.74%。结论 本文使用相关滤波和神经网络在目标跟踪过程中先检测后跟踪的思想,提高了算法对目标跟踪过程中尺度突变情况的适应能力,实验结果验证了加入检测策略对后续目标尺度发生突变导致跟踪漂移的情况起到了很好的纠正作用,以及自适应模板更新策略的有效性。  相似文献   

6.
目的 低秩稀疏学习目标跟踪算法在目标快速运动和严重遮挡等情况下容易出现跟踪漂移现象,为此提出一种变分调整约束下的反向低秩稀疏学习目标跟踪算法。方法 采用核范数凸近似低秩约束描述候选粒子间的时域相关性,去除不相关粒子,适应目标外观变化。通过反向稀疏表示描述目标表观,用候选粒子稀疏表示目标模板,减少在线跟踪中L1优化问题的数目,提高跟踪效率。在有界变差空间利用变分调整对稀疏系数差分建模,约束目标表观在相邻帧间具有较小变化,但允许连续帧间差异存在跳跃不连续性,以适应目标快速运动。结果 实验利用OTB(object tracking benchmark)数据集中的4组涵盖了严重遮挡、快速运动、光照和尺度变化等挑战因素的标准视频序列进行测试,定性和定量对比了本文算法与5种热点算法的跟踪效果。定性分析基于视频序列的主要挑战因素进行比较,定量分析通过中心点位置误差(central pixel error,CPE)比较跟踪算法的精度。与CNT(convolutional networks training)、SCM(sparse collaborative model)、IST(inverse sparse tracker)、DDL(discriminative dictionary learning)和LLR(locally low-rank representation)算法相比,平均CPE值分别提高了2.80、4.16、13.37、35.94和41.59。实验结果表明,本文算法达到了较高的跟踪精度,对上述挑战因素更具鲁棒性。结论 本文提出的跟踪算法,综合了低秩稀疏学习和变分优化调整的优势,在复杂场景下具有较高的跟踪精度,特别是对严重遮挡和快速运动情况的有效跟踪更具鲁棒性。  相似文献   

7.
目的 针对现今主流one-stage网络框架在检测高帧率视频中的复杂目标场景时,无法兼顾检测精度和检测效率的问题,本文改进one-stage网络架构,并使用光流跟踪特征图,提出一种高效检测复杂场景的快速金字塔网络(snap pyramid network,SPNet)。方法 调查特征提取网络以及金字塔网络内部,实现特征矩阵及卷积结构完全可视化,找到one-stage网络模型有效提升检测小目标以及密集目标的关键因素;构建复杂场景检测网络SPNet,由骨干网络(MainNet)内置子网络跟踪器(TrackNet)。在MainNet部分,设计特征权重控制(feature weight control, FWC)模块,改进基本单元(basic block),并设计MainNet的核心网络(BackBone)与特征金字塔网络(feature pyramid network, FPN)架构结合的多尺度金字塔结构,有效提升视频关键帧中存在的小而密集目标的检测精度和鲁棒性;在TrackNet部分,内置光流跟踪器到BackBone,使用高精度的光流矢量映射BackBone卷积出的特征图,代替传统的特征全卷积网络架构,有效提升检测效率。结果 SPNet能够兼顾小目标、密集目标的检测性能,在目标检测数据集MS COCO(Microsoft common objects in context)和PASCAL VOC上的平均精度为52.8%和75.96%,在MS COCO上的小目标平均精度为13.9%;在目标跟踪数据集VOT(visual object tracking)上的平均精度为42.1%,检测速度提高到5070帧/s。结论 本文快速金字塔结构目标检测框架,重构了one-stage检测网络的结构,利用光流充分复用卷积特征信息,侧重于复杂场景的检测能力与视频流的检测效率,实现了精度与速度的良好平衡。  相似文献   

8.
目的 基于深度模型的跟踪算法往往需要大规模的高质量标注训练数据集,而人工逐帧标注视频数据会耗费大量的人力及时间成本。本文提出一个基于Transformer模型的轻量化视频标注算法(Transformer-based label network,TLNet),实现对大规模稀疏标注视频数据集的高效逐帧标注。方法 该算法通过Transformer模型来处理时序的目标外观和运动信息,并融合前反向的跟踪结果。其中质量评估子网络用于筛选跟踪失败帧,进行人工标注;回归子网络则对剩余帧的初始标注进行优化,输出更精确的目标框标注。该算法具有强泛化性,能够与具体跟踪算法解耦,应用现有的任意轻量化跟踪算法,实现高效的视频自动标注。结果 在2个大规模跟踪数据集上生成标注。对于LaSOT (large-scale single object tracking)数据集,自动标注过程仅需约43 h,与真实标注的平均重叠率(mean intersection over union,mIoU)由0.824提升至0.871。对于TrackingNet数据集,本文使用自动标注重新训练3种跟踪算法,并在3个数据集上测试跟踪性能,使用本文标注训练的模型在跟踪性能上超过使用TrackingNet原始标注训练的模型。结论 本文算法TLNet能够挖掘时序的目标外观和运动信息,对前反向跟踪结果进行帧级的质量评估并进一步优化目标框。该方法与具体跟踪算法解耦,具有强泛化性,并能节省超过90%的人工标注成本,高效地生成高质量的视频标注。  相似文献   

9.
目的 多数以深度学习为基础的红外目标跟踪方法在对比度弱、噪声多的红外场景下,缺少对目标细节信息的利用,而且当跟踪场景中有相似目标且背景杂乱时,大部分跟踪器无法对跟踪的目标进行有效的更新,导致长期跟踪时鲁棒性较差。为解决这些问题,提出一种基于注意力和目标模型自适应更新的红外目标跟踪算法。方法 首先以无锚框算法为基础,加入针对红外跟踪场景设计的快速注意力增强模块以并行处理红外图像,在不损失原信息的前提下提高红外目标与背景的差异性并增强目标的细节信息,然后将提取的特征融合到主干网络的中间层,最后利用目标模型自适应更新网络,学习红外目标的特征变化趋势,同时对目标的中高层特征进行动态更新。结果 本文方法在 4 个红外目标跟踪评估基准上与其他先进算法进行了比较,在 LSOTB-TIR(large-scale thermalinfrared object tracking benchmark)数据集上的精度为 79.0%,归一化精度为 71.5%,成功率为 66.2%,较第 2 名在精度和成功率上分别高出 4.0%和 4.6%;在 PTB-TIR(thermal infrared pedestrian tracking benchmark)数据集上的精度为85.1%,成功率为 66.9%,较第 2 名分别高出 1.3% 和 3.6%;在 VOT-TIR2015(thermal infrared visual object tracking)和VOT-TIR2017 数据集上的期望平均重叠与精确度分别为 0.344、0.73 和 0.276、0.71,本文算法在前 3 个数据集的测评结果均达到最优。同时,在 LSOTB-TIR 数据集上的消融实验结果显示,本文方法对基线跟踪器有着明显的增益作用。结论 本文算法提高了对红外目标特征的捕捉能力,解决了红外目标跟踪易受干扰的问题,能够提升红外目标长期跟踪的精度和成功率。  相似文献   

10.
目的 针对目标跟踪算法在现实场景的遮挡、光照变化和尺度变化等问题,提出一种融入时序信息和速度信息的多特征融合自适应模型更新目标跟踪算法。方法 通过提取目标的分级深度特征和手工设计方向梯度直方图(histogram of oriented gradients,HOG)特征,以全深度特征组合和深层深度特征与手工设计特征组合的方式构造两个融合特征器,提高在复杂场景下跟踪的稳健性;对融合特征进行可信度计算,选择最可靠融合特征对当前帧目标进行跟踪;在跟踪质量不可靠时,对目标表征模型进行更新,加入时间上下文信息和当前鲁棒表征信息,通过多峰值判定和运动速度判定选择最优目标预测位置作为最终结果。结果 在OTB(object tracking benchmark)2013和OTB2015数据库上进行大量测试,与其他7个算法相比,本文算法总体效果取得最优,且在不同复杂环境下也取得了优秀的跟踪效果,在OTB13和OTB15数据库中,跟踪精度分别为89.3%和83.3%,成功率分别为87%和78.3%。结论 本文算法利用深度特征与手工设计特征进行融合,对跟踪结果进行多峰值分析和运动速度判定,跟踪结果不佳时自适应更新特征进行重跟踪。实验结果表明,本文算法可以有效处理光照变化、背景杂波和遮挡等复杂因素的干扰,有效提升了跟踪质量。  相似文献   

11.
目的 随着深度神经网络的出现,视觉跟踪快速发展,视觉跟踪任务中的视频时空特性,尤其是时序外观一致性(temporal appearance consistency)具有巨大探索空间。本文提出一种新颖简单实用的跟踪算法——时间感知网络(temporal-aware network, TAN),从视频角度出发,对序列的时间特征和空间特征同时编码。方法 TAN内部嵌入了一个新的时间聚合模块(temporal aggregation module, TAM)用来交换和融合多个历史帧的信息,无需任何模型更新策略也能适应目标的外观变化,如形变、旋转等。为了构建简单实用的跟踪算法框架,设计了一种目标估计策略,通过检测目标的4个角点,由对角构成两组候选框,结合目标框选择策略确定最终目标位置,能够有效应对遮挡等困难。通过离线训练,在没有任何模型更新的情况下,本文提出的跟踪器TAN通过完全前向推理(fully feed-forward)实现跟踪。结果 在OTB(online object tracking:a benchmark)50、OTB100、TrackingNet、LaSOT(a high-qua...  相似文献   

12.
目的 视频目标检测旨在序列图像中定位运动目标,并为各个目标分配指定的类别标签。视频目标检测存在目标模糊和多目标遮挡等问题,现有的大部分视频目标检测方法是在静态图像目标检测的基础上,通过考虑时空一致性来提高运动目标检测的准确率,但由于运动目标存在遮挡、模糊等现象,目前视频目标检测的鲁棒性不高。为此,本文提出了一种单阶段多框检测(single shot multibox detector,SSD)与时空特征融合的视频目标检测模型。方法 在单阶段目标检测的SSD模型框架下,利用光流网络估计当前帧与近邻帧之间的光流场,结合多个近邻帧的特征对当前帧的特征进行运动补偿,并利用特征金字塔网络提取多尺度特征用于检测不同尺寸的目标,最后通过高低层特征融合增强低层特征的语义信息。结果 实验结果表明,本文模型在ImageNet VID (Imagelvet for video object detetion)数据集上的mAP (mean average precision)为72.0%,相对于TCN (temporal convolutional networks)模型、TPN+LSTM (tubelet proposal network and long short term memory network)模型和SSD+孪生网络模型,分别提高了24.5%、3.6%和2.5%,在不同结构网络模型上的分离实验进一步验证了本文模型的有效性。结论 本文模型利用视频特有的时间相关性和空间相关性,通过时空特征融合提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

13.
目的 视频多目标跟踪(multiple object tracking, MOT)是计算机视觉中的一项重要任务,现有研究分别针对目标检测和目标关联部分进行改进,均忽视了多目标跟踪中的不一致问题。不一致问题主要包括3方面,即目标检测框中心与身份特征中心不一致、帧间目标响应不一致以及训练测试过程中相似度度量方式不一致。为了解决上述不一致问题,本文提出一种基于时空一致性的多目标跟踪方法,以提升跟踪的准确度。方法 从空间、时间以及特征维度对上述不一致性进行修正。对于目标检测框中心与身份特征中心不一致,针对每个目标检测框中心到特征中心之间的空间差异,在偏移后的位置上提取目标的ReID(re-identification)特征;对帧间响应不一致,使用空间相关计算相邻帧之间的运动偏移信息,基于该偏移信息对前一帧的目标响应进行变换后得到帧间一致性响应信息,然后对目标响应进行增强;对训练和测试过程中的相似度度量不一致,提出特征正交损失函数,在训练时考虑目标两两之间的相似关系。结果 在3个数据集上与现有方法进行比较。在MOT17、MOT20和Hieve数据集中,MOTA(multiple object t...  相似文献   

14.
目前,在视觉目标跟踪任务中的主流方法是基于模版匹配的跟踪器,这些方法在目标的分类和边界框的回归上具有很强的鲁棒性,主要可以分为判别相关滤波跟踪器和孪生网络跟踪器,这两种方法都有一个类孪生网络的框架。以孪生网络跟踪器为例,该方法通过模版和搜索区域之间的相关操作确定目标的位置,取得了顶尖的性能表现。近年来,Transformer在计算机视觉领域的发展十分迅速,结合了Transformer的类孪生网络跟踪器在速度和精度方面都远超传统的跟踪方法。文章简要概括了判别相关滤波跟踪器、孪生网络跟踪器的发展,以及Transformer在目标跟踪任务中的应用。  相似文献   

15.
目的 基于深度学习的视觉跟踪算法具有跟踪精度高、适应性强的特点,但是,由于其模型参数多、调参复杂,使得算法的时间复杂度过高。为了提升算法的效率,通过构建新的网络结构、降低模型冗余,提出一种快速深度学习的算法。方法 鲁棒特征的提取是视觉跟踪成功的关键。基于深度学习理论,利用海量数据离线训练深度神经网络,分层提取描述图像的特征;针对网络训练时间复杂度高的问题,通过缩小网络规模得以大幅缓解,实现了在GPU驱动下的快速深度学习;在粒子滤波框架下,结合基于支持向量机的打分器的设计,完成对目标的在线跟踪。结果 该方法精简了特征提取网络的结构,降低了模型复杂度,与其他基于深度学习的算法相比,具有较高的时效性。系统的跟踪帧率总体保持在22帧/s左右。结论 实验结果表明,在目标发生平移、旋转和尺度变化,或存在光照、遮挡和复杂背景干扰时,本文算法能够实现比较稳定和相对快速的目标跟踪。但是,对目标的快速移动和运动模糊的鲁棒性不够高,容易受到相似物体的干扰。  相似文献   

16.
基于孪生区域候选网络的无人机指定目标跟踪   总被引:1,自引:0,他引:1  
钟莎  黄玉清 《计算机应用》2021,41(2):523-529
基于孪生网络的目标跟踪目前取得了阶段性进展,即克服了孪生网络的空间不变性在深度网络中的限制,然而其仍存在外观变化、尺度变化、遮挡等因素影响跟踪性能.针对无人机(UAV)指定目标跟踪中的目标尺度变化大、目标运动模糊及目标尺度小等问题,提出了基于孪生区域候选注意力机制网络的跟踪算法Attention-SiamRPN+.首先...  相似文献   

17.
目的 卷积神经网络广泛应用于目标检测中,视频目标检测的任务是在序列图像中对运动目标进行分类和定位。现有的大部分视频目标检测方法在静态图像目标检测器的基础上,利用视频特有的时间相关性来解决运动目标遮挡、模糊等现象导致的漏检和误检问题。方法 本文提出一种双光流网络指导的视频目标检测模型,在两阶段目标检测的框架下,对于不同间距的近邻帧,利用两种不同的光流网络估计光流场进行多帧图像特征融合,对于与当前帧间距较小的近邻帧,利用小位移运动估计的光流网络估计光流场,对于间距较大的近邻帧,利用大位移运动估计的光流网络估计光流场,并在光流的指导下融合多个近邻帧的特征来补偿当前帧的特征。结果 实验结果表明,本文模型的mAP(mean average precision)为76.4%,相比于TCN(temporal convolutional networks)模型、TPN+LSTM(tubelet proposal network and long short term memory network)模型、D(&T loss)模型和FGFA(flow-guided feature aggregation)模型分别提高了28.9%、8.0%、0.6%和0.2%。结论 本文模型利用视频特有的时间相关性,通过双光流网络能够准确地从近邻帧补偿当前帧的特征,提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号