首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 281 毫秒
1.
针对监控视频中斗殴行为检测的需求,提出了一种新的基于三维卷积神经网络和视频帧采样算法的斗殴行为检测方法。针对监控视频行为检测起始定位的难点,提出了一种利用基于人体姿态信息的关键区域检测算法定位斗殴行为起始帧的方法,形成了斗殴行为预识别空间。针对深度学习训练数据冗余和优化程度不够的问题,提出了基于时间采样的视频帧采样算法,并且搭建了一个三维卷积神经网络,使网络学习到整个行为动作的时空信息。实验结果证明了所提方法在两个公共数据集上取得了优越的性能。  相似文献   

2.
近年来,基于人体动作识别的应用场景越来越广泛。为了更好的识别效果,提出了一种基于人体三维骨骼节点的动作识别方法。用Kinect等设备获取人体骨骼关节点三维数据信息,以人体臀部为原点重新建立人体坐标系;提取人体关键骨骼的数据信息,定义人体动作特征向量;根据动作表达式用行为树构造动作序列,实现识别。通过对5种定义的动作与其他算法做比较实验,表明提出的方法识别率较高,推广性较强。  相似文献   

3.
人体行为识别(Human Activity Recognition,HAR)技术是计算机视觉领域的研究热点,目前多人HAR的研究仍存在很多技术难点。针对多人HAR中人数判断不准确、特征提取难度大导致行为识别准确率低的问题,提出了一种基于骨骼关键点检测的多人行为识别系统。该系统将骨骼点提取与动作识别相结合,首先对原始视频进行图像帧提取,然后通过OpenPose算法得到人体骨骼关键点数据来对人体进行检测并标注,最后根据骨骼点的特点提取人体姿态特征。同时,为准确描述特征之间的关系,提出了一种基于帧窗口矩阵的特征描述方法,该方法将支持向量机(Support Vector Machine,SVM)作为分类器以完成多人行为识别。选择UT-Interaction和HMDB51这两个公开的数据集中的10类日常典型行为作为测试对象,实验结果表明,所提方法可以有效提取图像中的多人骨骼关键点信息,且其对10类日常典型行为的平均识别准确率达86.25%,优于对比的其他已有方法。  相似文献   

4.
在计算机视觉中,人的姿态识别是人的行为识别的重要组成部分。通常,人的行为是动态的过程,姿态是人的行为中的具体的某个静态动作。在人的姿态或行为识别研究中,多借助人体姿态特征,而忽略了与人体相互关联的物体信息。当借助骨骼信息描述人体姿态时,人体被简化为人体骨骼,不同的姿态可能会出现相同的骨骼形态。为了更好地识别姿态,提取人的姿态的骨骼信息特征和手部关联物体的深度信息特征,再使用支持向量机进行分类。最后借助公共数据库验证了方法的有效性。  相似文献   

5.
稠密轨迹的人体行为识别对每一帧全图像密集采样导致特征维数高、计算量大且包含了无关的背景信息。提出基于显著性检测和稠密轨迹的人体行为识别方法。首先对视频帧进行多尺度静态显著性检测获取动作主体位置,并与对视频动态显著性检测的结果线性融合获取主体动作区域,通过仅在主体动作区域内提取稠密轨迹来改进原算法;然后采用Fisher Vector取代词袋模型对特征编码增强特征表达充分性;最后利用支持向量机实现人体行为识别。在KTH数据集和UCF Sports数据集上进行仿真实验,结果表明改进的算法相比于原算法识别准确率有所提升。  相似文献   

6.
基于深度模型的视频动作识别通常先对输入视频进行采样,然后对获得的视频帧进行特征表达,输出动作类别,因此视频帧采样方法对动作识别的效果有直接的影响。为了在采样到关键有效的特征同时,并增强视频运动信息,提出了一种基于特征级采样策略的局部—全局运动信息增强的动作识别网络(local-global motion enhancement network,LGMeNet)。首先,利用特征级采样模块对输入数据进行相同运动信息间隔均匀取帧;其次,局部运动特征提取模块使用相似性函数计算单帧短期运动特征;最后,全局运动特征提取模块利用LSTM网络计算多尺度长期运动特征。通过实验评估,LGMeNet在UCF101和Something-SomethingV1数据集上分别取得了97.7%和56.9%的精确度。结果表明,采用LGMeNet能够有效提升动作识别的效果,对进一步改进相关领域的研究具有重要意义。  相似文献   

7.
针对基于视频的3维人体姿态估计问题,传统方法是先估计出每帧图像中的3维人体姿态,再将估计结果按帧序排列,获得视频中的3维人体姿态.这种方法没有考虑连续帧间人体动作的连贯性,以及人体关节连接的空间一致性,估计结果中常会出现人体的高频抖动及动作的较大偏差.针对该问题,提出一种基于视频帧连贯信息的3维姿态优化估计方法.首先利用2维姿势估计结果优化人体3维关节点坐标,以减少抖动;其次引入前后帧关节点运动的逆向与正向预测,以保持动作连贯性;最后,加入骨骼连接约束,建立可保持人体动作轨迹光滑且优化前后关节连接结构一致的模型,实现对3维人体姿态的精确估计.在公共数据集MPI-INF-3DHP上的测试结果显示,与基准3维姿态估计方法相比,本文方法估计的关节点平均误差降低3.2%.在公共数据集3DPW上的测试结果显示,与未优化情形相比,加速误差降低44%.  相似文献   

8.
为了高效、准确地获取视频中的人体行为和运动信息,提出一种基于人体姿态的时空特征的行为识别方法.首先在获取视频中各帧图像的人体关节位置的基础上,提取关节信息描述姿态变化,具体包括在空间维度上提取每帧图像的关节位置关系、时间维度上计算关节空间关系的变化,二者共同构成姿态时空特征描述子;然后利用Fisher向量模型对不同类型的特征描述子分别进行编码,得到固定维度的Fisher向量;最后对不同类型的Fisher向量加权融合后进行分类.实验结果表明,该方法能够有效地识别视频中的人体复杂动作行为,提高行为识别率.  相似文献   

9.
针对监控视频中行人外观、姿态相似等现象导致的视频行人重识别准确率低的问题进行了研究,提出了一种基于图模型的视频行人重识别方法,有效利用了视频中的时序信息,实现跨帧及帧内区域的信息交互。具体来说,利用跨帧分块区域间的关联信息建立区域节点间的固有关系,并进行特征传播迭代更新区域信息。另一方面,在度量学习过程中,提出了一种加权损失函数策略,这个方法将先前挖掘策略中的二进制分配法(即丢弃或保留该样本)优化为连续分数分配法,解决了可用样本未被有效利用的问题。将模型在MARS和DukeMTMC-VideoReID两个数据集上进行了评估,实验结果证实了提出方法的有效性。  相似文献   

10.
陈家乐 《信息与电脑》2023,(22):161-163
为实现人体动作的精准识别,判断人体行为,提出基于Transformer的人体动作识别方法。以注意力机制神经网络为基础,引入Transformer框架,构建人体动作识别网络模型;该模型利用注意力机制提取视频中关键信息特征,同时依据Transformer模块提取动作帧的时间特征,将提取的两种特征融合后输入分类器中,经由模型的分类器完成动作分类识别。测试结果表明,该方法具有较好的应用效果,能够精准识别视频图像中的人体动作情况,判断人体行为。  相似文献   

11.
康复锻炼是脑卒中患者的重要治疗方式,为提高康复动作识别的准确率与实时性,更好地辅助患者在居家环境中进行长期康复训练,结合姿态估计与门控循环单元(GRU)网络提出一种人体康复动作识别算法Pose-AMGRU。采用OpenPose姿态估计方法从视频帧中提取骨架关节点,经过姿态数据预处理后得到表达肢体运动的关键动作特征,并利用注意力机制构建融合三层时序特征的GRU网络实现人体康复动作分类。实验结果表明,该算法在KTH和康复动作数据集中的识别准确率分别为98.14%和100%,且在GTX1060显卡上的运行速度达到14.23frame/s,具有较高的识别准确率与实时性。  相似文献   

12.
为了高效、准确地获得视频中的行为类别和运动信息,减少计算的复杂度,文中提出一种融合特征传播和时域分割网络的视频行为识别算法.首先将视频分为3个小片段,分别从相应片段中提取关键帧,从而实现对长时间视频的建模;然后设计一个包含特征传播表观信息流和FlowNet运动信息流的改进时域分割网络(P-TSN),分别以RGB关键帧、RGB非关键帧、光流图为输入提取视频的表观信息流和运动信息流;最后将改进时域分割网络的BN-Inception描述子进行平均加权融合后送入Softmax层进行行为识别.在UCF101和HMDB51这2个数据集上分别取得了94.6%和69.4%的识别准确率,表明该算法能够有效地获得视频中空域表观信息和时域运动信息,提高了视频行为识别的准确率.  相似文献   

13.
Human pose recognition and estimation in video is pervasive. However, the process noise and local occlusion bring great challenge to pose recognition. In this paper, we introduce the Kalman filter into pose recognition to reduce noise and solve local occlusion problem. The core of pose recognition in video is the fast detection of key points and the calculation of human steering angles. Thus, we first build a human key point detection model. Frame skipping is performed based on the Hamming distance of the hash value of every two adjacent frames in video. Noise reduction is performed on key point coordinates with the Kalman filter. To calculate the human steering angle, current state information of key points is predicted using the optimal estimation of key points at the previous time. Then human steering angle can be calculated based on current and previous state information. The improved SENet, NLNet and GCNet modules are integrated into key point detection model for improving accuracy. Tests are also given to illustrate the effectiveness of the proposed algorithm.  相似文献   

14.
行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2%和72.8%,优于其他对比方法,实验结果证明了该方法的有效性.  相似文献   

15.
针对目前深度学习领域人体姿态估计算法计算复杂度高的问题,提出了一种基于光流的快速人体姿态估计算法.在原算法的基础上,首先利用视频帧之间的时间相关性,将原始视频序列分为关键帧和非关键帧分别处理(相邻两关键帧之间的图像和前向关键帧组成一个视频帧组,同一视频帧组内的视频帧相似),仅在关键帧上运用人体姿态估计算法,并通过轻量级光流场将关键帧识别结果传播到其他非关键帧.其次针对视频中运动场的动态特性,提出一种基于局部光流场的自适应关键帧检测算法,以根据视频的局部时域特性确定视频关键帧的位置.在OutdoorPose和HumanEvaI数据集上的实验结果表明,对于存在背景复杂、部件遮挡等问题的视频序列中,所提算法较原算法检测性能略有提升,检测速度平均可提升89.6%.  相似文献   

16.
近年来,视听联合学习的动作识别获得了一定关注.无论在视频(视觉模态)还是音频(听觉模态)中,动作发生是瞬时的,往往在动作发生时间段内的信息才能够显著地表达动作类别.如何更好地利用视听模态的关键帧携带的显著表达动作信息,是视听动作识别待解决的问题之一.针对该问题,提出关键帧筛选网络KFIA-S,通过基于全连接层的线性时间...  相似文献   

17.
姬晓飞  秦琳琳  王扬扬 《计算机应用》2019,39(11):3349-3354
基于RGB视频序列的双人交互行为识别已经取得了重大进展,但因缺乏深度信息,对于复杂的交互动作识别不够准确。深度传感器(如微软Kinect)能够有效提高全身各关节点的跟踪精度,得到准确的人体运动及变化的三维关节点数据。依据RGB视频和关节点数据的各自特性,提出一种基于RGB和关节点数据双流信息融合的卷积神经网络(CNN)结构模型。首先,利用Vibe算法获得RGB视频在时间域的感兴趣区域,之后提取关键帧映射到RGB空间,以得到表示视频信息的时空图,并把图送入CNN提取特征;然后,在每帧关节点序列中构建矢量,以提取余弦距离(CD)和归一化幅值(NM)特征,将单帧中的余弦距离和关节点特征按照关节点序列的时间顺序连接,馈送入CNN学习更高级的时序特征;最后,将两种信息源的softmax识别概率矩阵进行融合,得到最终的识别结果。实验结果表明,将RGB视频信息和关节点信息结合可以有效地提高双人交互行为识别结果,在国际公开的SBU Kinect interaction数据库和NTU RGB+D数据库中分别达到92.55%和80.09%的识别率,证明了提出的模型对双人交互行为识别的有效性。  相似文献   

18.
目的 利用深度图序列进行人体行为识别是机器视觉和人工智能中的一个重要研究领域,现有研究中存在深度图序列冗余信息过多以及生成的特征图中时序信息缺失等问题。针对深度图序列中冗余信息过多的问题,提出一种关键帧算法,该算法提高了人体行为识别算法的运算效率;针对时序信息缺失的问题,提出了一种新的深度图序列特征表示方法,即深度时空能量图(depth spatial-temporal energy map,DSTEM),该算法突出了人体行为特征的时序性。方法 关键帧算法根据差分图像序列的冗余系数剔除深度图序列的冗余帧,得到足以表述人体行为的关键帧序列。DSTEM算法根据人体外形及运动特点建立能量场,获得人体能量信息,再将能量信息投影到3个正交轴获得DSTEM。结果 在MSR_Action3D数据集上的实验结果表明,关键帧算法减少冗余量,各算法在关键帧算法处理后运算效率提高了20% 30%。对DSTEM提取的方向梯度直方图(histogram of oriented gradient,HOG)特征,不仅在只有正序行为的数据库上识别准确率达到95.54%,而且在同时具有正序和反序行为的数据库上也能保持82.14%的识别准确率。结论 关键帧算法减少了深度图序列中的冗余信息,提高了特征图提取速率;DSTEM不仅保留了经过能量场突出的人体行为的空间信息,而且完整地记录了人体行为的时序信息,在带有时序信息的行为数据上依然保持较高的识别准确率。  相似文献   

19.
石祥滨  李怡颖  刘芳  代钦 《计算机应用研究》2021,38(4):1235-1239,1276
针对双流法进行视频动作识别时忽略特征通道间的相互联系、特征存在大量冗余的时空信息等问题,提出一种基于双流时空注意力机制的端到端的动作识别模型T-STAM,实现了对视频关键时空信息的充分利用。首先,将通道注意力机制引入到双流基础网络中,通过对特征通道间的依赖关系进行建模来校准通道信息,提高特征的表达能力。其次,提出一种基于CNN的时间注意力模型,使用较少的参数学习每帧的注意力得分,重点关注运动幅度明显的帧。同时提出一种多空间注意力模型,从不同角度计算每帧中各个位置的注意力得分,提取多个运动显著区域,并且对时空特征进行融合进一步增强视频的特征表示。最后,将融合后的特征输入到分类网络,按不同权重融合两流输出得到动作识别结果。在数据集HMDB51和UCF101上的实验结果表明T-STAM能有效地识别视频中的动作。  相似文献   

20.
运动视频中特定运动帧的获取是运动智能化教学实现的重要环节,为了得到视频中的特定运动 帧以便进一步地对视频进行分析,并利用姿态估计和聚类的相关知识,提出了一种对运动视频提取特定运动帧 的方法。首先选用 HRNet 姿态估计模型作为基础,该模型精度高但模型规模过大,为了实际运用的需求,对 该模型进行轻量化处理并与 DARK 数据编码相结合,提出了 Small-HRNet 网络模型,在基本保持精度不变的情 况下参数量减少了 82.0%。然后利用 Small-HRNet 模型从视频中提取人体关节点,将每一视频帧中的人体骨架特 征作为聚类的样本点,最终以标准运动帧的骨架特征为聚类中心,对整个视频进行聚类得到视频的特定运动帧, 在武术运动数据集上进行实验。该方法对武术动作帧的提取准确率为 87.5%,能够有效地提取武术动作帧。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号