共查询到20条相似文献,搜索用时 62 毫秒
1.
针对现有的行为识别方法缺少对视频帧中区域级特征的学习,造成识别过程中对相似的行为类别混淆的问题,提出一种区域级时间变化网络.该网络包括局部-全局时间特征学习模块、区域语义学习模块、区域语义融合模块.局部-全局时间特征学习模块学习局部时间注意力,以增强局部视频帧的运动特征,并将其聚合为全局时间区域特征.区域语义学习模块通过计算区域中像素之间的相似度来构建可变化的区域语义卷积核,从而学习随时间变化的行为语义特征.区域语义融合模块将可变化区域特征和全局时间区域特征作为两个独立分支,分别学习每个分支特征的通道注意力用于特征融合.在Something-Something V1&V2与Kinetics-400数据集上的实验结果显示,区域级时间变化网络表现优于多数行为识别方法,证明了该网络能够有效提升行为识别的性能. 相似文献
2.
人群行为识别在公共安全等领域具有重要的应用价值.现有研究分别考虑了人群情绪、人群类型、人群密度以及人群社会文化环境等因素对于人群行为的影响,但少有综合考虑这些因素的模型,导致模型性能受限.本文综合考虑人群的物理特征、社交特征、情绪人格特征和文化背景特征之间的相关性,以及相结合之后对人群行为的影响,提出一种融合多特征与时间序列的人群行为识别模型.模型采用两个并行的网络层分别处理多特征相关性和时间序列依赖性对于人群行为的影响,同时为提高模型可解释性,网络层采用融合结构因果模型(SCM)与图神经网络(GNN)的因果图网络(CGN).通过在运动情感数据集(MED)上进行实验并与其他方法模型进行对比,证明了本文方法能够成功识别人群行为,并且优于目前最先进的方法. 相似文献
3.
为进一步提升基于骨骼信息的人体行为识别准确率,对人体姿态的骨骼信息进行研究,分析图卷积(GCN)的理论基础,提出一种多尺度时空图卷积(multi scale ST GCN)的方法对骨骼的动态信息进行建模,不同于传统的手工对人体进行自上而下或者自下而上的遍历规则设计方法,而是通过构建网络模型对人体行为的时间空间信息进行自... 相似文献
4.
为解决群组行为识别中复杂个体关系描述不准确,造成的个体关系推理不可靠的问题,关注于面向个体、群体、场景三个方面来构建场景关系图,提出场景关系图网络用于实现群组行为识别。该网络包括特征提取模块、场景关系图推理模块以及分类模块。特征提取模块通过卷积神经网络提取个体特征、群组特征、和场景特征。为了充分描述场景对于个体和群组描述的影响,场景关系图推理模块通过使用两分支网络分别建立个体—场景关系图以及群组—场景关系图帮助学习个体特征和群组特征。场景关系图推理同时考虑了个体特征对群组特征的影响,并引入了跨分支关系。分类模块用于将个体特征和群体特征进行分类预测。实验结果显示该方法在volleyball和collective activity数据集上的群组识别准确率分别提升了1.1%和0.5%,证实了提出的场景关系图在描述个体特征和群组特征上的有效性。 相似文献
5.
本文提出了一种基于图模型的方法来进行深度视频中的人体行为识别.具体而言,首先引入成对部分特征选择机制(PPFSM);然后基于这种选择机制建立成对部分特征图(PPFG)模型来表达人体行为.进一步地给出了成对特征图核(PPFGK)来计算两个PPFGs之间的相似度.最后利用PPFGK来训练支持向量机(SVM)从而进行行为识别... 相似文献
6.
7.
传统系统的计算能力较弱,在车辆驾驶行为识别实际应用中经常出现错误识别,准确率较低,为此提出基于深度学习的车辆驾驶行为识别系统。系统硬件方面设计了主控制器、惯性传感器和报警器3个硬件设备,软件方面设计了数据清洗和基于深度学习识别驾驶行为两个功能模块,利用数据清洗模块对原始数据进行无效值处理、标准化处理,将处理后的数据利用深度学习网络模型进行分析,输出识别结果。实验结果表明,该系统的准确率高于传统系统,能够准确识别出车辆驾驶行为。 相似文献
8.
近年来各类人体行为识别算法利用大量标记数据进行训练,取得了良好的识别精度。但在实际应用中,数据的获取以及标注过程都是非常耗时耗力的,这限制了算法的实际落地。针对弱监督及少样本场景下的视频行为识别深度学习方法进行综述。首先,在弱监督情况下,分类总结了半监督行为识别方法和无监督领域自适应下的视频行为识别方法;然后,对少样本场景下的视频行为识别算法进行详细综述;接着,总结了当前相关的人体行为识别数据集,并在该数据集上对各相关视频行为识别算法性能进行分析比较;最后,进行概括总结,并展望人体行为识别的未来发展方向。 相似文献
9.
目的 利用深度图序列进行人体行为识别是机器视觉和人工智能中的一个重要研究领域,现有研究中存在深度图序列冗余信息过多以及生成的特征图中时序信息缺失等问题。针对深度图序列中冗余信息过多的问题,提出一种关键帧算法,该算法提高了人体行为识别算法的运算效率;针对时序信息缺失的问题,提出了一种新的深度图序列特征表示方法,即深度时空能量图(depth spatial-temporal energy map,DSTEM),该算法突出了人体行为特征的时序性。方法 关键帧算法根据差分图像序列的冗余系数剔除深度图序列的冗余帧,得到足以表述人体行为的关键帧序列。DSTEM算法根据人体外形及运动特点建立能量场,获得人体能量信息,再将能量信息投影到3个正交轴获得DSTEM。结果 在MSR_Action3D数据集上的实验结果表明,关键帧算法减少冗余量,各算法在关键帧算法处理后运算效率提高了20% 30%。对DSTEM提取的方向梯度直方图(histogram of oriented gradient,HOG)特征,不仅在只有正序行为的数据库上识别准确率达到95.54%,而且在同时具有正序和反序行为的数据库上也能保持82.14%的识别准确率。结论 关键帧算法减少了深度图序列中的冗余信息,提高了特征图提取速率;DSTEM不仅保留了经过能量场突出的人体行为的空间信息,而且完整地记录了人体行为的时序信息,在带有时序信息的行为数据上依然保持较高的识别准确率。 相似文献
10.
深度学习及其在目标和行为识别中的新进展 总被引:5,自引:7,他引:5
深度学习是机器学习中的一个新的研究领域。通过深度学习的方法构建深度网络来抽取特征是目前目标和行为识别中得到关注的研究方向。为引起更多计算机视觉领域研究者对深度学习进行探索和讨论,并推动目标和行为识别的研究,本文对深度学习及其在目标和行为识别中的新进展给予了概述。本文先介绍深度学习领域研究的基本状况、主要概念和原理;然后介绍近期利用深度学习在目标和行为识别应用中的一些新进展;最后阐述了深度学习与神经网络之间的关系,深度学习的优缺点,以及目前深度学习理论需要解决的主要问题。这对拟将深度学习应用于目标和行为识别的研究人员应有所帮助。 相似文献
11.
为了准确地识别及评价网球动作,将计算机视觉与网球运动相关知识相结合,提出了一种基于PoseC3D的网球动作识别及评价方法。首先,使用基于ResNet-50姿态估计模型对网球运动视频进行人体目标检测并提取骨骼关键点;然后,使用在专业网球场采集的视频数据集进行PoseC3D模型训练,使模型能够对网球的子动作进行分类;之后,使用动态时间规整算法对分类的动作进行评价;最后,基于采集的视频数据集进行了大量实验。结果表明,提出的基于PoseC3D的网球动作识别方法对6类网球子动作的分类Top1准确率可以达到90.8%。相较于基于图卷积网络的方法,比如AGCN和ST-GCN,具有更强的泛化能力;提出的基于动态时间规整的评分算法能够在动作分类后实时、准确地给出相应动作的评价分数,从而减少了网球教师的工作强度,有效地提升了网球教学质量。 相似文献
12.
在线手写签名认证是一种基于生物特征的身份认证技术。将VDDTW算法应用于在线手写签名认证,该算法改进了DTW中局部匹配距离的计算方法,考虑了时间序列局部曲线的变化趋势,使得时间序列的局部点到点的对正更加合理。在采用有训练的伪造样本的情况下,对累积匹配距离进行时间加权,加大了真伪签名的区分度。实验结果表明了VDDTW算法用于在线签名认证的有效性。 相似文献
13.
传统说话人识别框架大多建立在高斯混合模型(GMM)上的,然而这种浅层学习模型不能有效地表征数据特征之间的高阶相关性,识别效果较差.本文提出一种基于深度神经网络(Deep Neural Network,DNN)与基音周期(Pitch Peri-od,PP)相结合的说话人识别方法,模型主线识别以对数梅尔滤波器组特征参数作为... 相似文献
14.
大多数动作仅包含部分关节的运动,现有方法未对运动剧烈的关节与几乎不参与运动的关节进行区分,一定程度上降低了动作识别精度。针对这个问题,提出一种自适应关节权重计算方法。结合动态时间规整(DTW)方法,利用获得的关节权重进行动作识别。首先对分类动作序列进行分段,每段动作序列中运动较剧烈的关节选择分配更高权重,其余关节平均分配权重;然后提取特征向量,计算两段动作序列的DTW 距离;最后采用K 近邻方法进行动作识别。实验结果表明,该算法的总体分类识别准确率较高,且对于较相似的动作也能获得较好的识别结果。 相似文献
15.
语音识别中动态时间规整和隐马尔可夫统一模型 总被引:1,自引:0,他引:1
对于目前在语音识别中广泛使用的两种技术即动态时间规整(DTW)技术和隐马尔可夫模型(HMM)的本质联系,提出了二者的统一模型(DHUM,DTW and HMM Uni-fied Model),并分别给出DTW和HM向DHUM的转换关系。文中还提出了用DHUM解决更接近语音实际情况的高阶HMM作语音识别时所面临的运算量过大的问题。中等词表的识别实验结果表明,建立在DHUM之上的识别器的识别性能不低于 相似文献
16.
人体动作识别是计算机视觉的重要研究方向,广泛应用于智能监控、人机交互等领域。现有基于骨骼点的动作识别方法多采用图卷积网络(GCN)和时间卷积网络(TCN)级联的方式实现,而后者卷积核的尺寸限制了模型的全局时间建模能力。此外,仅使用卷积处理骨骼点数据缺乏对于不同骨骼点的区分能力,并且TCN提取特征时往往会重复计算,使得TCN的参数量随着网络层数的加深而增大。借助信号处理的方法提出了一种适用于骨骼点的动态时域滤波模块(SDTF),用于代替TCN对时间特征进行全局建模,并在此基础上对AGCN进行轻量化改进,提出的AGCN-SDTF动作识别模型降低了模型复杂度。SDTF通过傅里叶变换对时间特征进行建模,将傅里叶变换得到的频域特征与滤波得到的频域输出相乘再经过傅里叶逆变换,从而实现对全局时间特征的提取。在NTU-RGBD和Kinetics-Skeleton大型数据集上的实验结果表明,该模型在达到与原模型相同的识别效果时,降低了模型所需的参数量和计算量。 相似文献
17.
语音识别中,动态时间规整(Dynamic Time Warping,简称DTW)和隐马尔可夫模型(Hidden Markov Model,简称 HMM)是最有效的两种识别算法,并且 DTW和 HMM在本质上是一致的~[1]。根据 DTW和 HMM的本质联系和各自所对应的声学模型,在前期工作中建立了一种广义声学模型 ~[2][3](General Model,简称 GM),并指出 DTW和HMM 只是 GM的特例,且 DTW和 HMM都可以转化为 GM。并在此基础上,首次将 Fisher算法~[4]引进GM的学习算法,确保了GM状态分割的收敛性,并且这种分割在最小离差意义上是全局精确最优的。最后,从大数定理的角度出发,对 GM算法的收敛性进行了分析, 从理论上论证了该算法的依概率收敛性,并为实际应用中 GM算法的有效性提供了理论依据。 相似文献
18.
目的 基于深度学习的动作识别方法识别准确率显著提升,但仍然存在很多挑战和困难。现行方法在一些训练数据大、分类类别多的数据集以及实际应用中鲁棒性较差,而且许多方法使用的模型参数量较大、计算复杂,提高模型准确度和鲁棒性的同时对模型进行轻量化仍然是一个重要的研究方向。为此,提出了一种基于知识蒸馏的轻量化时空图卷积动作识别融合模型。方法 改进最新的时空卷积网络,利用分组卷积等设计参数量较少的时空卷积子模型;为了训练该模型,选取两个现有的基于全卷积的模型作为教师模型在数据集上训练,在得到训练好的教师模型后,再利用知识蒸馏的方法结合数据增强技术训练参数量较少的时空卷积子模型;利用线性融合的方法将知识蒸馏训练得到的子模型融合得到最终的融合模型。结果 在广泛使用的NTU RGB + D数据集上与前沿的多种方法进行了比较,在CS(cross-subject)和CV(cross-view)两种评估标准下,本文模型的准确率分别为90.9%和96.5%,与教师模型2s-AGCN(two-stream adaptive graph convolutional networks for skeleton-based action)相比,分别提高了2.4%和1.4%;与教师模型DGNN(directed graph neural network)相比,分别提高了1.0%和0.4%;与MS-AAGCN(multi-stream attention-enhanced adaptive graph convolutional neural network)模型相比,分别提高了0.9%和0.3%。结论 本文提出的融合模型,综合了知识蒸馏、数据增强技术和模型融合的优点,使动作识别更加准确和鲁棒。 相似文献
19.
We are addressing the novel problem of jointly evaluating multiple speech patterns for automatic speech recognition and training. We propose solutions based on both the non-parametric dynamic time warping (DTW) algorithm, and the parametric hidden Markov model (HMM). We show that a hybrid approach is quite effective for the application of noisy speech recognition. We extend the concept to HMM training wherein some patterns may be noisy or distorted. Utilizing the concept of “virtual pattern” developed for joint evaluation, we propose selective iterative training of HMMs. Evaluating these algorithms for burst/transient noisy speech and isolated word recognition, significant improvement in recognition accuracy is obtained using the new algorithms over those which do not utilize the joint evaluation strategy. 相似文献
20.
基于深度模型的视频动作识别通常先对输入视频进行采样,然后对获得的视频帧进行特征表达,输出动作类别,因此视频帧采样方法对动作识别的效果有直接的影响。为了在采样到关键有效的特征同时,并增强视频运动信息,提出了一种基于特征级采样策略的局部—全局运动信息增强的动作识别网络(local-global motion enhancement network,LGMeNet)。首先,利用特征级采样模块对输入数据进行相同运动信息间隔均匀取帧;其次,局部运动特征提取模块使用相似性函数计算单帧短期运动特征;最后,全局运动特征提取模块利用LSTM网络计算多尺度长期运动特征。通过实验评估,LGMeNet在UCF101和Something-SomethingV1数据集上分别取得了97.7%和56.9%的精确度。结果表明,采用LGMeNet能够有效提升动作识别的效果,对进一步改进相关领域的研究具有重要意义。 相似文献