共查询到20条相似文献,搜索用时 0 毫秒
1.
2.
View Invariance for Human Action Recognition 总被引:4,自引:0,他引:4
This paper presents an approach for viewpoint invariant human action recognition, an area that has received scant attention
so far, relative to the overall body of work in human action recognition. It has been established previously that there exist
no invariants for 3D to 2D projection. However, there exist a wealth of techniques in 2D invariance that can be used to advantage
in 3D to 2D projection. We exploit these techniques and model actions in terms of view-invariant canonical body poses and
trajectories in 2D invariance space, leading to a simple and effective way to represent and recognize human actions from a
general viewpoint. We first evaluate the approach theoretically and show why a straightforward application of the 2D invariance
idea will not work. We describe strategies designed to overcome inherent problems in the straightforward approach and outline
the recognition algorithm. We then present results on 2D projections of publicly available human motion capture data as well
on manually segmented real image sequences. In addition to robustness to viewpoint change, the approach is robust enough to
handle different people, minor variabilities in a given action, and the speed of aciton (and hence, frame-rate) while encoding
sufficient distinction among actions.
This work was done when the author was a graduate student in the Department of Computer Science and was partially supported
by the NSF Grant ECS-02-5475. The author is curently with Siemens Corporate Research, Princeton, NJ.
Dr. Chellappa is with the Department of Electrical and Computer Engineering. 相似文献
3.
Zhu Tehao Zhou Yue Xia Zeyang Dong Jiaqi Zhao Qunfei 《International Journal of Control, Automation and Systems》2018,16(5):2393-2404
International Journal of Control, Automation and Systems - Human action recognition plays an important role in vision-based human-robot interaction (HRI). In many application scenarios of HRI,... 相似文献
4.
Wang Yang Mori Greg 《IEEE transactions on pattern analysis and machine intelligence》2009,31(10):1762-1774
We propose two new models for human action recognition from video sequences using topic models. Video sequences are represented by a novel “bag-of-words” representation, where each frame corresponds to a “word.” Our models differ from previous latent topic models for visual recognition in two major aspects: first of all, the latent topics in our models directly correspond to class labels; second, some of the latent variables in previous topic models become observed in our case. Our models have several advantages over other latent topic models used in visual recognition. First of all, the training is much easier due to the decoupling of the model parameters. Second, it alleviates the issue of how to choose the appropriate number of latent topics. Third, it achieves much better performance by utilizing the information provided by the class labels in the training set. We present action classification results on five different data sets. Our results are either comparable to, or significantly better than previously published results on these data sets. 相似文献
5.
6.
7.
为了准确提取人体动作特征,提出了一种新的基于二维Gabor滤波器的时空兴趣点检测器,该检测器对遮挡,光照变化以及镜头缩放等具有较强的鲁棒性。基于80面体模型在一定大小的时空邻域内提取精细的时空梯度信息进一步刻画人体动作在时空上的视觉特征。采用最大似然估计得到对每段动作视频的权重直方图估计,使算法更有效率且权重直方图描述特征更具区分度。将低层次的权重直方图特征和高层次的动作语义属性融合,采用隐支持向量机求解最终动作识别模型的局部最优解。在几种典型的数据库上对算法进行了验证,与现有方法相比较,识别率有了较大的提高。 相似文献
8.
人体动作姿态的识别是当前的研究热点,该文主要从人体动作姿态的分类和人体动作姿态识别的方法两个方面进行了介绍,并重点阐述了每种识别方法的研究进展情况及其优缺点,最后对当前研究的难点问题以及未来的发展趋势也进行了较为深刻的阐述。 相似文献
9.
《计算机工程》2018,(2):257-263
自步学习的动作识别方法采用课程学习的思路,忽略了不同视角动作特征对课程的影响,对多分类的人体两维视频复杂动作识别无法取得满意效果。针对上述问题,提出一种多视角自步学习算法。选取5个视角并提取Trajectory、HOG、HOF、MBHx和MBHy作为各自视角下的特征信息,利用自步学习算法学习得出对应视角下的动作分类课程,使用线性规划增强方法将不同视角下的课程进行融合,得出更适合解决多类复杂动作识别问题的综合课程。实验结果表明,相比单一视角自步学习方法和多视角支持向量机方法,该方法提高了多类复杂动作识别的效率和准确率,具有更高的可操作性和更广泛的应用前景。 相似文献
10.
基于时空权重姿态运动特征的人体骨架行为识别研究 总被引:1,自引:0,他引:1
人体行为识别在视觉领域的广泛应用使得它在过去的几十年里一直都是备受关注的研究热点.近些年来,深度传感器的普及以及基于深度图像实时骨架估测算法的提出,使得基于骨架序列的人体行为识别研究越来越吸引人们的注意.已有的研究工作大部分提取帧内骨架不同关节点的空间域信息和帧间骨架关节点的时间域信息来表征行为序列,但没有考虑到不同关节点和姿态对判定行为类别所起作用是不同的.因此本文提出了一种基于时空权重姿态运动特征的行为识别方法,采用双线性分类器迭代计算得到关节点和静止姿态相对于该类别动作的权重,确定那些信息量大的关节点和姿态;同时,为了对行为特征进行更好的时序分析,本文引入了动态时间规整和傅里叶时间金字塔算法进行时序建模,最后采用支持向量机完成行为分类.在多个数据集上的实验结果表明,该方法与其它一些方法相比,表现出了相当大的竞争力,甚至更好的识别效果. 相似文献
11.
为实现互联网上大量背景复杂、视点变化的视频中人体动作的识别,提出了一种使用无监督的深度信念网络(DBNs)进行人体动作识别的创新方法.该方法采用深度信念网络(DBNs)和受限玻耳兹曼机进行无约束视频的动作识别,利用无监督深度学习模型自动提取合适的特征表示,不需要任何先验知识.在一个具有挑战性的UCF体育数据集上进行实验,证明了该方法准确有效.同时该方法也适用于其他视觉识别任务,并在未来可扩展到非结构化的人体活动识别. 相似文献
12.
人体动作识别是视频理解领域的重要课题之一,在视频监控、人机交互、运动分析、视频信息检索等方面有着广泛的应用.根据骨干网络的特点,从2D卷积神经网络、3D卷积神经网络、时空分解网络三个角度介绍了动作识别领域的最新研究成果,并对三类方法的优缺点进行了定性的分析和比较.然后,从场景相关和时间相关两方面,全面归纳了常用的动作视... 相似文献
13.
以ZYNQ异构多核处理器为实现平台,采用HLS设计方法学对运动特征提取算法进行了FPGA硬件加速,达到了1080P 60 fps的计算能力.采用K-means对运动特征聚类,再生成高维向量,用SVM分类器进行分类和识别.最终,通过高效的系统结构和硬件加速电路实现了算法的加速.系统最终采用基于Linux和QT框架的人机交互方式,支持在线学习、创建动作库的功能. 相似文献
14.
A challenging problem in human action understanding is to jointly segment and recognize human actions from an unseen video
sequence, where one person performs a sequence of continuous actions. 相似文献
15.
针对传统行为识别技术实时性、鲁棒性较差等问题,提出了一种高效鲁棒性的人体行为识别算法。通过基于Meanshift和Kalman滤波相结合的跟踪算法来跟踪定位人体目标;利用肢体特征和区域特征来提取运动特征;利用基于OAA的支持向量机分类识别。仿真实验表明,该算法实时性好、鲁棒性高,能有效应用于监控系统中。 相似文献
16.
针对底层局部时空特征数量少以及中层特征表达能力弱的问题,结合时空深度特征,提出一种人体行为识别算法。依据运动剧烈区域在行为识别中提供更多判别信息的思想,利用视频图像的深度信息确定人体运动显著性区域,通过计算区域内光流特征作为度量区域活跃度的能量函数,依据能量函数对运动显著性区域进行高斯取样,使样本点分布于运动剧烈区域。将采集到的样本点作为动作底层特征描述人体行为,结合词袋模型,采用支持向量机分类器对行为进行识别。实验结果表明,在SwustDepth数据集中,基于时空深度特征的人体行为识别算法的平均行为识别准确率达到92%,且具有较高的鲁棒性。 相似文献
17.
18.
International Journal of Computer Vision - Deep learning models for video-based action recognition usually generate features for short clips (consisting of a few frames); such clip-level features... 相似文献
19.
康复锻炼是脑卒中患者的重要治疗方式,为提高康复动作识别的准确率与实时性,更好地辅助患者在居家环境中进行长期康复训练,结合姿态估计与门控循环单元(GRU)网络提出一种人体康复动作识别算法Pose-AMGRU。采用OpenPose姿态估计方法从视频帧中提取骨架关节点,经过姿态数据预处理后得到表达肢体运动的关键动作特征,并利用注意力机制构建融合三层时序特征的GRU网络实现人体康复动作分类。实验结果表明,该算法在KTH和康复动作数据集中的识别准确率分别为98.14%和100%,且在GTX1060显卡上的运行速度达到14.23frame/s,具有较高的识别准确率与实时性。 相似文献
20.
由于人体动作的多样性、场景嘈杂、摄像机运动视角多变等特性,导致人体动作识别的难度增加。为此,基于3D卷积神经网络,提出一种新的人体动作识别算法。以连续的16帧视频为一组输入,采用视频图像的灰度、x方向梯度、y方向梯度、x方向光流、y方向光流做多通道处理,训练网络参数,经过5层3D卷积、5层3D池化增加提取特征中时间维度的动作信息,最终通过2层全连接与softmax分类器得到识别分类结果。在UCF101数据库上进行实验,结果表明,相比iDT、P-CNN、LRCN算法,该算法具有较高的识别准确率,且运行速度更快。 相似文献