共查询到19条相似文献,搜索用时 140 毫秒
1.
目前,主流的基于孪生网络的单目标跟踪方法,通过计算模板与搜索区域之间的相似度来匹配目标,缺乏对目标时空状态信息的利用。特别是当场景中存在多个相似目标时,孪生网络跟踪器往往无法精确区分目标,从而导致跟踪错误。针对上述问题,提出一种融合时空信息的Transformer单目标跟踪算法(SIFTransT)。该算法通过MixFormer(end-to-end tracking with iterative mixed attention)跟踪器获取初步的跟踪结果,设计了一个目标状态计算模块,用于计算并存储目标的状态信息,包括目标位置、边界框、速度、加速度、运动方向等,以此深入挖掘目标状态信息。构建了一个基于Transformer的时空信息融合模块,利用编码器的自注意力和解码器的交叉注意力,深入融合目标最近一段时间的状态信息,从而更加准确地对目标状态进行建模,提高目标跟踪的准确性。在LaSOT数据集上的实验结果表明,相比基准算法MixFormer,SIFTransT算法在AUC指标提高了2.8个百分点,PNorm指标提升了2.6个百分点,P指标提升了2.1个百分点,在搭载RTX8000显卡的服务器上平均每秒处理帧数达28帧。 相似文献
2.
目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像分别进行特征提取,并在特征层面充分融合;将首帧目标信息调制到待跟踪帧的特征向量中,得到一个专用跟踪器;应用Transformer的方法对视野中的目标进行编解码,通过空间位置预测分支预测目标在视野中的空间位置,并结合历史信息滤除干扰目标,得到目标的准确位置;使用矩形框回归网络预测目标的外接矩形框,从而实现目标准确跟踪。在最新的大规模数据集VTUAV、RGBT234上进行了实验,与孪生网络(Siam-based)、滤波(filter-based)算法相比,Trans-RGBT精度更高、鲁棒性更好、速度接近实时,达22?FPS。 相似文献
3.
为解决目标跟踪中目标遮挡、背景复杂等问题,提出一种基于多模态数据的目标跟踪算法。首先对各个模态数据进行像素级融合,以减少单模态数据中信息不足对跟踪结果的影响。然后对融合后的图像提取不同的特征进行滤波,接着将滤波得到的响应图进行决策级融合,以解决因单个模型漂移导致的模型跟踪失败问题。最后根据融合后的响应图的峰值得到跟踪结果。此外,在跟踪过程中加入遮挡检测模块,进一步增强模型鲁棒性。在普林斯顿跟踪基准上对算法进行评估,结果表明,与其他主流算法相比,基于多模态数据的目标跟踪算法在目标遮挡类视频上跟踪精度提升了8.4%,重合成功率提升了3.3%,具有较好的抗遮挡效果。 相似文献
4.
目前基于Transformer的目标跟踪算法主要利用Transformer来融合深度卷积特征,忽略了Transformer在特征提取和解码预测方面的能力。针对上述问题,提出一种基于视觉Transformer的双流目标跟踪算法。引入基于注意力机制的Swin Transformer进行特征提取,通过移位窗口进行全局信息建模。使用Transformer编码器对目标特征和搜索区域特征进行充分融合,使用解码器学习目标查询中的位置信息。分别对编解码器中的双流信息进行目标预测。在决策层面上进一步地加权融合得到最终跟踪结果,并使用多监督策略。该算法在LaSOT、TrackingNet、UAV123和NFS四个具有挑战性的大规模跟踪数据集上取得了先进的结果,分别达到67.4%、80.9%、68.6%和66.0%的成功率曲线下面积,展示了其强大的潜力。此外,由于避免了复杂的后处理步骤,能够端到端进行目标跟踪,跟踪速度可达42?FPS。 相似文献
5.
针对现有小目标跟踪算法的鲁棒性差、精度及成功率低的问题,提出一种基于孪生网络和Transformer的小目标跟踪算法SiamTrans.首先,基于Transformer机制设计一种相似度响应图计算模块.该模块叠加若干层特征编码-解码结构,并利用多头自注意力机制和多头跨注意力机制在不同层次的搜索区域特征图中查询模板特征图信息,从而避免陷入局部最优解,并获得一个高质量的相似度响应图;其次,在预测子网中设计一个基于Transformer机制的预测模块(PM),并利用自注意力机制处理预测分支特征图中的冗余特征信息,以提高不同预测分支的预测精度.在Small90数据集上,相较于TransT(Transformer Tracking)算法,所提算法的跟踪精度和跟踪成功率分别高8.0和9.5个百分点.可见,所提出的算法具有更优异的小目标跟踪性能. 相似文献
6.
视觉目标跟踪是计算机视觉中的重要任务之一,为实现高性能的目标跟踪,近年来提出了大量的目标跟踪方法,其中基于Transformer的目标跟踪方法由于具有全局建模和联系上下文的能力,是目前视觉目标跟踪领域研究的热点。首先,根据网络结构的不同对基于Transformer的视觉目标跟踪方法进行分类,概述相关原理和模型改进的关键技术,总结不同网络结构的优缺点;其次,对这类方法在公开数据集上的实验结果进行对比,分析网络结构对性能的影响,其中MixViT-L(ConvMAE)在LaSOT和TrackingNet上跟踪成功率分别达到了73.3%和86.1%,说明基于纯Transformer两段式架构的目标跟踪方法具有更优的性能和更广的发展前景;最后,对方法当前存在的网络结构复杂、参数量大、训练要求高和边缘设备使用难度大等不足进行总结,并对今后的研究重点进行展望,通过与模型压缩、自监督学习以及Transformer可解释性分析相结合,可为基于Transformer的视觉目标跟踪提出更多可行的解决方案。 相似文献
7.
针对视频图像连续帧间的目标具有冗余性,采用手动标注方式耗时耗力的问题,提出一种融合检测和跟踪算法的视频目标半自动标注框架.利用手动标注的样本离线训练改进YOLO v3模型,并将该检测模型作为在线标注的检测器.在线标注时在初始帧手动确定目标位置和标签,在后续帧根据检测框与跟踪框的IOU(Intersection-Over... 相似文献
8.
针对目前基于 Siamese 结构的目标跟踪计算量大且不能实现模板与搜索区域间充分信息交融的问题, 提出基于重参数网络的 Transformer 目标跟踪算法. 首先采用重参数法降低跟踪过程中骨干网络计算量, 训练时采用多分支并行结构, 测试跟踪过程中使用重参数法将多分支并行结构重构成单分支串行结构; 然后对骨干网络提取的模板特征图和搜索区域特征图使用 Transformer 结构进行自注意力加强, 通过交叉注意力层实现像素级信息交融; 最后将完成充分交融的信息映射到分类分支、中心度估计分支与边框回归分支, 其中, 边框回归分支采用最新的 CIoU-Loss进行训练, 使得跟踪算法精确度更高, 具有更强鲁棒性的同时满足实时性. 实验结果表明, 所提算法在大规模基准数据集 GOT-10k 上平均重叠率为 0.606, 超越 SiamFC++算法 0.011; 在大规模数据集 LaSOT 上, 成功率、归一化精确度、精确度分别达到 0.554, 0.659 和 0.581, 比 SiamFC++算法提高了 0.010, 0.036 和 0.034. 相似文献
9.
针对目前基于 Siamese 结构的目标跟踪计算量大且不能实现模板与搜索区域间充分信息交融的问题, 提出基于重参数网络的 Transformer 目标跟踪算法. 首先采用重参数法降低跟踪过程中骨干网络计算量, 训练时采用多分支并行结构, 测试跟踪过程中使用重参数法将多分支并行结构重构成单分支串行结构; 然后对骨干网络提取的模板特征图和搜索区域特征图使用 Transformer 结构进行自注意力加强, 通过交叉注意力层实现像素级信息交融; 最后将完成充分交融的信息映射到分类分支、中心度估计分支与边框回归分支, 其中, 边框回归分支采用最新的 CIoU-Loss进行训练, 使得跟踪算法精确度更高, 具有更强鲁棒性的同时满足实时性. 实验结果表明, 所提算法在大规模基准数据集 GOT-10k 上平均重叠率为 0.606, 超越 SiamFC++算法 0.011; 在大规模数据集 LaSOT 上, 成功率、归一化精确度、精确度分别达到 0.554, 0.659 和 0.581, 比 SiamFC++算法提高了 0.010, 0.036 和 0.034. 相似文献
10.
近年来,面向公共场所中智能视频监控的可疑目标跟踪算法取得一定的研究进展,有利于公共安全治理与应急事件的防范。凭借Transformer模型具有完整的Attention机制,本文尝试将其应用于公共安全治理中可疑目标持续精确跟踪与定位。具体为:分析可疑目标跟踪任务的特点,探索目标模板框架和搜索框架之间新颖的交互,提出面向公共安全治理中可疑目标可变形Transformer跟踪算法,命名为DeTrack,其分别构建基于可变形注意机制的编码器模块和基于自注意机制的编码器模块,并利用它们的组合来进行特征交互,之后利用所构建的角点预测头定位可疑目标。DeTrack无需关注所有像素即可定位目标,减少了模型参数量,在LaSOT、TrackingNet、GOT-10K和VOT2020上取得了较好的跟踪性能。 相似文献
11.
视频交通车辆信息检测器的设计与实现 总被引:1,自引:0,他引:1
针对近年来城市交通的拥挤现象,特别是驾驶员违章严重、交通事故频发等问题,介绍了在现代交通控制和管理系统中占有十分重要地位的传感器——视频车辆检测器。主要利用CCD摄像机与图像处理技术,完成了视频交通车辆信息检测器,给出了系统的软件和硬件构架,并详细分析了关键计算手段与方法。 相似文献
12.
目的 卫星视频作为新兴遥感数据,可以提供观测区域高分辨率的空间细节信息与丰富的时序变化信息,为交通监测与特定车辆目标跟踪等应用提供了不同于传统视频视角的信息。相较于传统视频数据,卫星视频中的车辆目标分辨率低、尺度小、包含的信息有限。因此,当目标边界不明、存在部分遮挡或者周边环境表观模糊时,现有的目标跟踪器往往存在严重的目标丢失问题。对此,本文提出一种基于特征融合的卫星视频车辆核相关跟踪方法。方法 对车辆目标使用原始像素和方向梯度直方图(histogram of oriented gradient,HOG)方法提取包含互补判别能力的特征,利用核相关目标跟踪器分别得到具备不变性和判别性的响应图;通过响应图融合的方式结合两种特征的互补信息,得到目标位置;使用响应分布指标(response distribution criterion,RDC)判断当前目标特征的稳定性,决定是否更新跟踪器的表征模型。本文使用的相关滤波方法具有计算量小且运算速度快的特点,具备跟踪多个车辆目标的拓展能力。结果 在8个卫星视频序列上与主流的6种相关滤波跟踪器进行比较,实验数据涵盖光照变化、快速转弯、部分遮挡、阴影干扰、道路颜色变化和相似目标临近等情况,使用准确率曲线和成功率曲线的曲线下面积(area under curve,AUC)对车辆跟踪的精度进行评价。结果表明,本文方法较好地均衡了使用不同特征的基础跟踪器(性能排名第2)的判别能力,准确率曲线AUC提高了2.9%,成功率曲线AUC下降了4.1%,成功跟踪车辆目标,不发生丢失,证明了本文方法的先进性和有效性。结论 本文提出的特征融合的卫星视频车辆核相关跟踪方法,均衡了不同特征提取器的互补信息,较好解决了卫星视频中车辆目标信息不足导致的目标丢失问题,提升了精度。 相似文献
13.
深度图可以提供运动目标所处的三维空间结构信息,因此可以用来提升跟踪性能。但目前缺少基于RGBD的目标跟踪数据集,无法直接训练RGBD输入下的深度学习跟踪器。对此,提出了一种基于知识对齐的模型迁移重组算法,可以方便地将在其他RGBD任务上训练得到的模型迁移到基于DiMP的跟踪算法上来,并且对于不同的跟踪对象不需要重新计算迁移参数。另外,针对深度图信息不稳定的问题,提出了一种高效的平滑稳定算法。在VOTRGBD数据集上的实验结果表明,迁移融合后的特征可以显著提升目标和背景之间的判别性,有效提升跟踪器的性能。 相似文献
14.
基于孪生网络的目标跟踪算法通常采用简单的互相关匹配方式,然而这种简单的匹配方式会引入大量无关信息,弱化目标区域的响应。基于无锚框的孪生跟踪网络虽然避免了锚框参数的调整,但由于失去了先验性信息,并不能很好地适应目标物的尺度变化。因此,针对上述所存在的问题,本文提出了一种基于孪生网络的目标跟踪匹配增强算法SiamBM。通过将目标的边界框坐标信息进行编码,为跟踪模型提供有效的指导信息;采用深度可分离互相关级联像素匹配互相关的方式,进一步提高跟踪模型的判别能力;采用多尺度互相关的方式,增强跟踪模型的尺度适应能力。在OTB100数据集上,SiamBM的成功率和精确率分别达到了0.684和0.906,相比基准模型分别提高了5.2%和4.2%。实验结果表明,与目前主流的跟踪器相比,SiamBM取得了相当有竞争力的结果,在各项数据集指标上取得了优越的性能。 相似文献
15.
提出了一种新的基于区域形心及其矢量方向的视频对象跟踪算法。视频对象分割后,使用区域增长法将视频对象分成若干个区域,然后利用视频序列连续两帧中每个区域的形心及形心间矢量的方向,快速、有效地自动跟踪多个目标对象。实验结果表明,该算法对运动物体的出现和消失,以及非刚性物体的尺度变化和变形,具有较强的鲁棒性。 相似文献
16.
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UA-DETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35?FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 相似文献
17.
基于直方图的Snake视频对象跟踪算法 总被引:4,自引:0,他引:4
提出了一种基于直方图的Snake视频跟踪算法。该算法是基于相邻帧中对象在直方图信息上的一致性前提条件下,采用Level Set曲线演化算法来实现的。由于它在Snake能量函数中引入了全局统计特性——直方图信息,从而克服了过去采用均值、方差或运动矢量等局部特征的Snake跟踪算法中的局限性。通过此算法与基于局部特性的Snake跟踪算法的对比实验可以看出,该算法在实际跟踪效果方面有很好的改善。 相似文献
18.
通过将目标与观测数据之间的数据关联抽象为标记序列,为移动机器人的多目标跟踪提出了一种具有多层次结构的联合条件随机场(joint conditional random field,JCRF).JCRF包括联合数据关联和运动目标状态估计两层随机场,不仅在联合数据关联中可以融合目标的形状信息和运动信息以提高目标跟踪的稳定性,而且可以同时进行目标检测与目标跟踪.利用JCRF模型,对基于激光距离传感器的多目标跟踪进行了研究,通过从激光距离传感器信息中分割出候选目标区域,采用匹配树降低标记序列的状态空间.在移动机器人平台上进行实验,结果表明,基于JCRF的多目标跟踪具有良好的精度、稳定性和实时性. 相似文献
19.
随着MPEG-4基于内容功能的提出以及MPEG-7标准的不断推广应用,视频对象分割技术已成为视频处理领域中的研究热点。视频对象分割就是从视频序列中分割出在语义上有意义的对象。目前对视频分割研究已从基于镜头的分割发展到了基于内容的视频对象分割。然而,基于内容的视频对象分割技术还不成熟。文中讨论了视频对象分割技术的发展和研究状况,从组成视频运动对象的分割系统出发,介绍了时域分割以及时空域联合分割等技术,并提出了一种基于多帧差的视频对象分割算法。最后对分割技术中需要深入研究的问题进行了探讨。 相似文献