共查询到20条相似文献,搜索用时 78 毫秒
1.
基于Transformer的视觉目标跟踪算法能够很好地捕获目标的全局信息,但是,在对目标特征的表述上还有进一步提升的空间.为了更好地提升对目标特征的表达能力,提出一种基于混合注意力的Transformer视觉目标跟踪算法.首先,引入混合注意力模块捕捉目标在空间和通道维度中的特征,实现对目标特征上下文依赖关系的建模;然后,通过多个不同空洞率的平行空洞卷积对特征图进行采样,以获得图像的多尺度特征,增强局部特征表达能力;最后,在Transformer编码器中加入所构建的卷积位置编码层,为跟踪器提供精确且长度自适应的位置编码,提升跟踪定位的精度.在OTB100、VOT2018和LaSOT等数据集上进行大量实验,实验结果表明,通过基于混合注意力的Transformer网络学习特征间的关系,能够更好地表示目标特征.与其他主流目标跟踪算法相比,所提出算法具有更好的跟踪性能,且能够达到26帧/s的实时跟踪速度. 相似文献
2.
目前基于Transformer的目标跟踪算法主要利用Transformer来融合深度卷积特征,忽略了Transformer在特征提取和解码预测方面的能力。针对上述问题,提出一种基于视觉Transformer的双流目标跟踪算法。引入基于注意力机制的Swin Transformer进行特征提取,通过移位窗口进行全局信息建模。使用Transformer编码器对目标特征和搜索区域特征进行充分融合,使用解码器学习目标查询中的位置信息。分别对编解码器中的双流信息进行目标预测。在决策层面上进一步地加权融合得到最终跟踪结果,并使用多监督策略。该算法在LaSOT、TrackingNet、UAV123和NFS四个具有挑战性的大规模跟踪数据集上取得了先进的结果,分别达到67.4%、80.9%、68.6%和66.0%的成功率曲线下面积,展示了其强大的潜力。此外,由于避免了复杂的后处理步骤,能够端到端进行目标跟踪,跟踪速度可达42?FPS。 相似文献
3.
为解决目标跟踪中目标遮挡、背景复杂等问题,提出一种基于多模态数据的目标跟踪算法。首先对各个模态数据进行像素级融合,以减少单模态数据中信息不足对跟踪结果的影响。然后对融合后的图像提取不同的特征进行滤波,接着将滤波得到的响应图进行决策级融合,以解决因单个模型漂移导致的模型跟踪失败问题。最后根据融合后的响应图的峰值得到跟踪结果。此外,在跟踪过程中加入遮挡检测模块,进一步增强模型鲁棒性。在普林斯顿跟踪基准上对算法进行评估,结果表明,与其他主流算法相比,基于多模态数据的目标跟踪算法在目标遮挡类视频上跟踪精度提升了8.4%,重合成功率提升了3.3%,具有较好的抗遮挡效果。 相似文献
4.
针对现有小目标跟踪算法的鲁棒性差、精度及成功率低的问题,提出一种基于孪生网络和Transformer的小目标跟踪算法SiamTrans。首先,基于Transformer机制设计一种相似度响应图计算模块。该模块叠加若干层特征编码-解码结构,并利用多头自注意力机制和多头跨注意力机制在不同层次的搜索区域特征图中查询模板特征图信息,从而避免陷入局部最优解,并获得一个高质量的相似度响应图;其次,在预测子网中设计一个基于Transformer机制的预测模块(PM),并利用自注意力机制处理预测分支特征图中的冗余特征信息,以提高不同预测分支的预测精度。在Small90数据集上,相较于TransT(Transformer Tracking)算法,所提算法的跟踪精度和跟踪成功率分别高8.0和9.5个百分点。可见,所提出的算法具有更优异的小目标跟踪性能。 相似文献
5.
针对视频图像连续帧间的目标具有冗余性,采用手动标注方式耗时耗力的问题,提出一种融合检测和跟踪算法的视频目标半自动标注框架.利用手动标注的样本离线训练改进YOLO v3模型,并将该检测模型作为在线标注的检测器.在线标注时在初始帧手动确定目标位置和标签,在后续帧根据检测框与跟踪框的IOU(Intersection-Over... 相似文献
6.
近年来,面向公共场所中智能视频监控的可疑目标跟踪算法取得一定的研究进展,有利于公共安全治理与应急事件的防范。凭借Transformer模型具有完整的Attention机制,本文尝试将其应用于公共安全治理中可疑目标持续精确跟踪与定位。具体为:分析可疑目标跟踪任务的特点,探索目标模板框架和搜索框架之间新颖的交互,提出面向公共安全治理中可疑目标可变形Transformer跟踪算法,命名为DeTrack,其分别构建基于可变形注意机制的编码器模块和基于自注意机制的编码器模块,并利用它们的组合来进行特征交互,之后利用所构建的角点预测头定位可疑目标。DeTrack无需关注所有像素即可定位目标,减少了模型参数量,在LaSOT、TrackingNet、GOT-10K和VOT2020上取得了较好的跟踪性能。 相似文献
7.
该文主要研究了分布式传感网络中的机动目标跟踪问题。为了在降低传感器节点的通信负债的同时,提高系统的跟踪精度,该文提出了一种新的自适应多传感器机动目标跟踪算法。该算法与交互式多模型算法相结合,将远端传感器获得的局部状态估计与本地传感器的累计量测信息进行融合,并通过信息去相关算法消除了传感器间的相关性。从而实现了对机动目标的状态估计与量测信息的融合。提出的算法能够充分利用本地传感器量测的有效信息,以提高目标跟踪精度。仿真实验验证了该算法的有效性。 相似文献
8.
当前算法主要使用互相关操作和Transformer中的一种方法来设计特征融合网络,这种策略忽视了二者之间的优势互补,容易丢失语义信息,陷入局部最优。针对上述问题,设计了一种基于互相关-Transformer双层特征融合的目标跟踪算法,使用改进的互相关操作和Transformer方法分别对模板和搜索区域特征进行融合,实现两种融合方式的优势互补,使模板和搜索区域特征充分交互,实现特征的有效增强和充分融合,并在互相关操作中引入相似矩阵来增强模板和搜索区域中与当前帧中的目标有关联的特征,使互相关操作的匹配过程更加准确。该目标跟踪算法包括一个基于Swin-Transformer的主干网络,一个互相关和Transformer双层融合模块,一个预测分支。提出的算法在TrackingNet、LaSOT、NFS、UAV123和OTB2015五个数据集上取得了鲁棒的效果,分别达到81.8%、65.7%、66.2%、69.4%和69.8%的成功率,平均跟踪速度达到40帧/秒。 相似文献
9.
一种利用信息融合的运动目标跟踪算法 总被引:2,自引:1,他引:2
论文针对灰度相关模板匹配跟踪算法的局限性,提出了一种基于信息融合的运动目标跟踪算法。该方法同时利用图象中的灰度信息和边缘信息,从而克服了只依靠单一信息源的不足。实验结果表明,该方法明显提高了跟踪性能。 相似文献
10.
目标跟踪是机器视觉领域的一个研究热点,如何提高复杂场景下的跟踪水平是一个挑战性的问题.以往的研究表明,如何有效使用特征是实现跟踪的关键.因此,提出一种基于通道融合特征的目标跟踪算法.该方法基于多通道相关滤波框架,引入特征通道权重,根据通道对响应值的贡献度调整权重,从而构建实时特征组合.该算法能够快速捕捉目标状态变化,有效跟踪目标.为了验证算法跟踪的有效性,我们在公开数据集OTB-2015上测试算法性能,并与多种跟踪算法进行比较.实验结果显示,该算法在跟踪精度、成功率上都取得较好的结果,整体性能优于对比算法. 相似文献
11.
针对传统的机器学习需要大量的人工标注训练模型的弊端,以及目前多数迁移学习方法只适用于同构空间的问题,提出了一种异构复合迁移学习(HCTL)的视频内容标注方法。首先,借助视频与图像的对应关系,利用典型相关性分析(CCA)来实现图像域(源域)和视频域(目标域)特征空间的同构化;然后,基于这两个特征空间向共同空间投影的代价最小化这一思想,找到源域特征空间向目标域特征空间对齐的矩阵;最后,通过对齐矩阵使得源域特征能够翻译到目标域特征空间中去,进而实现知识迁移,完成视频内容标注任务。所提方法在Kodak数据库上的平均标注准确率达到了35.81%,与标准的支持向量机(S-SVM)领域适应支持向量机(DASVM)、异构直推式迁移学习(HTTL)、跨领域的结构化模型(CDSM)、领域选择机(DSM)、异构源域下的多领域适应(MDA-HS)和判别性相关分析(DCA)方法相比分别提高了58.03%、23.06%、45.04%、6.70%、15.52%、13.07%和6.74%;而在哥伦比亚用户视频(CCV)数据库上达到了20.73%,分别相对提高了133.71%、37.28%、14.34%、24.88%、16.40%、20.73%和12.48%。实验结果表明先同构再对齐的复合迁移思想在异构领域适应问题上能够有效地提升识别准确率。 相似文献
12.
In this paper, we propose a new method to model the temporal context for boosting video annotation accuracy. The motivation of our idea mainly comes from the fact that temporally continuous shots in video are generally with relevant content, so that the performance of video annotation could be comparably boosted by mining the temporal dependency between shots in video. Based on this consideration, we propose a temporal context model to mine the redundant information between shots. By connecting our model with conditional random field and borrowing the learning and inference approaches from it, we could obtain the refined probability of a concept occurring in the shot, which is the leverage of temporal context information and initial output of video annotation. Comparing with existing methods for temporal context mining of video annotation, our model could capture different kinds of shot dependency more accurately to improve the video annotation performance. Furthermore, our model is relatively simple and efficient, which is important for the applications which have large scale data to process. Extensive experimental results on the widely used TRECVID datasets exhibit the effectiveness of our method for improving video annotation accuracy. 相似文献
13.
视频交通车辆信息检测器的设计与实现 总被引:1,自引:0,他引:1
针对近年来城市交通的拥挤现象,特别是驾驶员违章严重、交通事故频发等问题,介绍了在现代交通控制和管理系统中占有十分重要地位的传感器——视频车辆检测器。主要利用CCD摄像机与图像处理技术,完成了视频交通车辆信息检测器,给出了系统的软件和硬件构架,并详细分析了关键计算手段与方法。 相似文献
14.
提出了一种新的基于区域形心及其矢量方向的视频对象跟踪算法。视频对象分割后,使用区域增长法将视频对象分成若干个区域,然后利用视频序列连续两帧中每个区域的形心及形心间矢量的方向,快速、有效地自动跟踪多个目标对象。实验结果表明,该算法对运动物体的出现和消失,以及非刚性物体的尺度变化和变形,具有较强的鲁棒性。 相似文献
15.
为解决海量监控视频的快速浏览和检索,介绍了一种基于目标索引的视频摘要和检索方法。该方法在光流分析的基础上,在画面的静止区域更新背景,运动的区域利用差分法分割出运动目标图像。经过优化的快速特征匹配和建立运动跟踪模型后,根据目标运动轨迹,按照时空距离进行聚类。在目标图像数据和运动参数进行XML结构化存储为索引的基础上,最后在检索时将符合条件的所有目标图像,按照其原有时间顺序逐帧贴到同一个背景图像中,形成动态的摘要视频。由于该方法剔除了背景中大量的时空冗余信息,可在较短回放时间内浏览全部有用目标,显著提高海量监控视频的查阅效率。 相似文献
16.
The characteristics of annotations, such as highlighting, context-based notes, and organization are difficult to translate from the traditional paper-based medium to the digital format. An added challenge is how to facilitate annotations on a digital video in a collaborative distance learning environment. To explore issues in video annotation, we developed a tool called Interactive Shared Education Environment (ISEE). ISEE automatically generates hyperlinked timestamps, which we called Smartlinks, to associate the notes with their video contents. A usability study with 59 participants, following up by a small-scale eye-tracking study, was conducted to explore users’ video note-taking behaviors and to examine the effect of the new Smartlink design. Our results showed that participants with Smartlink took fewer notes, focused less on video controls and more on video content than those without Smartlink. We believe the main benefit of Smartlink is that it may offload non-learning related cognitive loads and allow users to take better notes. Findings from this study on users’ video annotation behaviors shed light on the future design of video annotation systems in both individual and collaborative environments. 相似文献
17.
为了解决半监督视频目标分割任务中,分割精度与分割速度难以兼顾以及无法对视频中与前景相似的背景目标做出有效区分的问题,提出一种基于深浅层特征融合的半监督视频目标分割算法。首先,利用预先生成的粗糙掩膜对图像特征进行处理,以获取更鲁棒的特征;然后,通过注意力模型提取深层语义信息;最后,将深层语义信息与浅层位置信息进行融合,从而得到更加精确的分割结果。在多个流行的数据集上进行了实验,实验结果表明:在分割运行速度基本不变的情况下,所提算法在DAVIS 2016数据集上的雅卡尔(J)指标相较于学习快速鲁棒目标模型的视频目标分割(FRTM)算法提高了1.8个百分点,综合评价指标为J和F得分的均值J&F相较于FRTM提高了2.3个百分点;同时,在DAVIS 2017数据集上,所提算法的J指标比FRTM提升了1.2个百分点,综合评价指标J&F比FRTM提升了1.1个百分点。以上结果充分说明所提算法能够在保持较快分割速度的情况下实现更高的分割精度,并且能够有效区别相似的前景与背景目标,具有较强的鲁棒性。可见所提算法在平衡速度与精度以及有效区分前景背景方面的优越性能。 相似文献
18.
图像检索系统大多是利用图像的底层特征如颜色、纹理和图像来分析图像,没有考虑图像内容及其对象的内容语义,导致对图像的理解不佳.为使系统能更准确的理解图像中的对象及其深层语义,分析了目前图像标注的优缺点,提出了一种以底层特征为基础,利用本体论建构的知识辅助计算机分析图像中实体对象,判断对象与对象间在现实世界中存在的合理相关性,进而对图像进行标注.实验结果显示加入本体论辅助标注图像大大提高了图像识别的准确性. 相似文献
19.
针对视频监控图像中存在各类条纹噪声的问题,根据条纹特性和受干扰图像帧的频域特征,提出了一种快速检测监控录像周期性条纹的算法。根据相对距离将频谱图分成两个子块,再运用行列累积函数或阈值检测各子带是否存在异常亮点,进而确定图像帧是否存在条纹噪声。利用频率谱中异常点的对称特性可减少遍历次数,有效提高了算法的运行效率。实验结果表明,该算法对监控视频序列中的多种周期性条纹具有良好的检测效果,并提高了计算速度。 相似文献
20.