首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
尽管传统的词袋(BoW,bag of words)模型在复杂场景行为识别中能够保持鲁棒性,但是硬向量量化会导致大量的近似误差,进而产生很差的特征集.行为识别中一个重要的挑战是视觉词汇的构造,从原始特征到分类标签没有直接的映射,因此高层的视觉描述子需要更加精确的词典,故提出基于结构稀疏表示的人体行为识别方法.在所提出方法的BoW模型中,视频表示为组稀疏编码系数的直方图.与传统的BoW模型相比,所提方法具有更少的量化误差,而且高层特征表示可以减少模型参数和存储复杂性,并在标准化的人体行为数据集上评价所提方法,数据集包括KTH,Weimann,UCF-Sports,UCF50人体行为数据集,实验结果表明,所提方法与现存的其他方法相比各方面性能都有显著的提高.  相似文献   

2.
洪耀球 《计算机科学》2021,48(z2):400-403
为实现互联网上大量背景复杂、视点变化的视频中人体动作的识别,提出了一种使用无监督的深度信念网络(DBNs)进行人体动作识别的创新方法.该方法采用深度信念网络(DBNs)和受限玻耳兹曼机进行无约束视频的动作识别,利用无监督深度学习模型自动提取合适的特征表示,不需要任何先验知识.在一个具有挑战性的UCF体育数据集上进行实验,证明了该方法准确有效.同时该方法也适用于其他视觉识别任务,并在未来可扩展到非结构化的人体活动识别.  相似文献   

3.
提出一种新的局部时空特征描述方法对视频序列进行识别和分类。结合SURF和光流检测图像中的时空兴趣点,并利用相应的描述子表示兴趣点。用词袋模型表示视频数据,结合SVM对包含不同行为的视频进行训练和分类。为了检测这种时空特征的有效性,通过UCF YouTube数据集进行了测试。实验结果表明,提出的算法能够有效识别各种场景下的人体行为。  相似文献   

4.
目的 人体行为识别是计算机视觉领域的一个重要研究课题,具有广泛的应用前景.针对局部时空特征和全局时空特征在行为识别问题中的局限性,提出一种新颖、有效的人体行为中层时空特征.方法 该特征通过描述视频中时空兴趣点邻域内局部特征的结构化分布,增强时空兴趣点的行为鉴别能力,同时,避免对人体行为的全局描述,能够灵活地适应行为的类内变化.使用互信息度量中层时空特征与行为类别的相关性,将视频识别为与之具有最大互信息的行为类别.结果 实验结果表明,本文的中层时空特征在行为识别准确率上优于基于局部时空特征的方法和其他方法,在KTH数据集和日常生活行为(ADL)数据集上分别达到了96.3%和98.0%的识别准确率.结论 本文的中层时空特征通过利用局部特征的时空分布信息,显著增强了行为鉴别能力,能够有效地识别多种复杂人体行为.  相似文献   

5.
从视频中识别人体动作是目前计算机视觉领域一个具有挑战性的方向。本文采用文本处理领域的bag-of-words方法,将视频表示为文章。在视频中寻找局部区域内在时间与空间上变化最大的点,作为时空兴趣点,在兴趣点上采集的视觉特征,作为文章中的词汇。在此基础上引入主题模型,对于视频中的隐含主题进行分析。最终通过主题在视频中的分布,经过判别法则识别其中的人物动作。通过在公开的视觉数据集上进行测试,结果表明本方法的表现接近或超过目前国际上领先的方法。  相似文献   

6.
基于机器视觉的人体运动识别在视频监控、虚拟现实、医疗护理等诸多领域发挥着重要的作用.结合深度学习中的三维卷积神经网络和长短期记忆神经网络,提出一种融合模型,并与另外两种行为识别模型——长效递归卷积网络和时空域卷积网络,进行了对比,利用公开的KTH数据集,进行了实验测试.实验表明,提出的融合模型与长效递归卷积网络和时空域卷积网络相比,对于人体行为图像或视频数据集的学习效果明显,论证了模型的泛化性能和鲁棒性.  相似文献   

7.
季冲  王胜  陆建峰 《计算机科学》2017,44(7):270-274
人体行为识别是计算机视觉中的一个重要研究领域,具有广阔的应用前景。研究了基于Fisher鉴别的字典学习方法在人体行为识别上的应用。首先对人体行为的视频序列提取了局部时空特征,并通过随机投影法降维;然后把降维后的特征作为待分类的信号进行Fisher鉴别字典学习,从而增强字典和编码系数的鉴别能力;最后同时利用重构误差和稀疏表示系数进行分类。实验结果验证了所提方法在人体行为识别上的有效性与鲁棒性。  相似文献   

8.
目的 视频中的人体行为识别技术对智能安防、人机协作和助老助残等领域的智能化起着积极的促进作用,具有广泛的应用前景。但是,现有的识别方法在人体行为时空特征的有效利用方面仍存在问题,识别准确率仍有待提高。为此,本文提出一种在空间域使用深度学习网络提取人体行为关键语义信息并在时间域串联分析从而准确识别视频中人体行为的方法。方法 根据视频图像内容,剔除人体行为重复及冗余信息,提取最能表达人体行为变化的关键帧。设计并构造深度学习网络,对图像语义信息进行分析,提取表达重要语义信息的图像关键语义区域,有效描述人体行为的空间信息。使用孪生神经网络计算视频帧间关键语义区域的相关性,将语义信息相似的区域串联为关键语义区域链,将关键语义区域链的深度学习特征计算并融合为表达视频中人体行为的特征,训练分类器实现人体行为识别。结果 使用具有挑战性的人体行为识别数据集UCF (University of Central Florida)50对本文方法进行验证,得到的人体行为识别准确率为94.3%,与现有方法相比有显著提高。有效性验证实验表明,本文提出的视频中关键语义区域计算和帧间关键语义区域相关性计算方法能够有效提高人体行为识别的准确率。结论 实验结果表明,本文提出的人体行为识别方法能够有效利用视频中人体行为的时空信息,显著提高人体行为识别准确率。  相似文献   

9.
人体行为识别数据集研究进展   总被引:7,自引:2,他引:5  
人体行为识别是计算机视觉领域的一个研究热点,具有重要理论价值和现实意义.近年来,为了评价人体行为识别方法的性能,大量的公开数据集被创建.本文系统综述了人体行为识别公开数据集的发展与前瞻:首先,对公开数据集的层次与内容进行归纳.根据数据集的数据特点和获取方式的不同,将人体行为识别的公开数据集分成4类.其次,对4类数据集分别描述,并对相应数据集的最新识别率及其研究方法进行对比与分析.然后,通过比较各数据集的信息和特征,引导研究者选取合适的基准数据集来验证其算法的性能,促进人体行为识别技术的发展.最后,给出公开数据集未来发展的趋势与人体行为识别技术的展望.  相似文献   

10.
由于计算开销大等原因,基于RGB视频和人工特征的行为识别方法在近些年的研究进展比较缓慢。相对于RGB视频,深度视频能提取运动物体的几何结构信息,不会随着光线的变化而变化,因此在视频分割、行为识别等视觉任务中比RGB视频具有更好的区分性。以深度视频中的关节运动信息为基础,提出一种简单而有效的人体行为识别方法。首先,根据深度视频中人体关节信息分别提取表示关节之间角度和相对位置的2个特征向量,然后使用LIBLINEAR分类器分别对提取的2个特征向量进行分类识别,最后,通过融合其分类结果得到最终的行为识别结果。该提取的特征仅包括关节间的相对位置和角度信息,不会因视角的变化而变化,具有一定的视角不变性。实验结果表明,所提出方法在UTKinect-Action3D数据集上能够获得与当前最好方法一致的识别效果,而且该方法具有很低的时间开销,实时性好。  相似文献   

11.
Efficient modeling of actions is critical for recognizing human actions. Recently, bag of video words (BoVW) representation, in which features computed around spatiotemporal interest points are quantized into video words based on their appearance similarity, has been widely and successfully explored. The performance of this representation however, is highly sensitive to two main factors: the granularity, and therefore, the size of vocabulary, and the space in which features and words are clustered, i.e., the distance measure between data points at different levels of the hierarchy. The goal of this paper is to propose a representation and learning framework that addresses both these limitations.We present a principled approach to learning a semantic vocabulary from a large amount of video words using Diffusion Maps embedding. As opposed to flat vocabularies used in traditional methods, we propose to exploit the hierarchical nature of feature vocabularies representative of human actions. Spatiotemporal features computed around interest points in videos form the lowest level of representation. Video words are then obtained by clustering those spatiotemporal features. Each video word is then represented by a vector of Pointwise Mutual Information (PMI) between that video word and training video clips, and is treated as a mid-level feature. At the highest level of the hierarchy, our goal is to further cluster the mid-level features, while exploiting semantically meaningful distance measures between them. We conjecture that the mid-level features produced by similar video sources (action classes) must lie on a certain manifold. To capture the relationship between these features, and retain it during clustering, we propose to use diffusion distance as a measure of similarity between them. The underlying idea is to embed the mid-level features into a lower-dimensional space, so as to construct a compact yet discriminative, high level vocabulary. Unlike some of the supervised vocabulary construction approaches and the unsupervised methods such as pLSA and LDA, Diffusion Maps can capture local relationship between the mid-level features on the manifold. We have tested our approach on diverse datasets and have obtained very promising results.  相似文献   

12.
Sun  Yanjing  Huang  Han  Yun  Xiao  Yang  Bin  Dong  Kaiwen 《Applied Intelligence》2022,52(1):113-126

Skeleton-based action recognition has recently attracted widespread attention in the field of computer vision. Previous studies on skeleton-based action recognition are susceptible to interferences from redundant video frames in judging complex actions but ignore the fact that the spatial-temporal features of different actions are extremely different. To solve these problems, we propose a triplet attention multiple spacetime-semantic graph convolutional network for skeleton-based action recognition (AM-GCN), which can not only capture the multiple spacetime-semantic feature from the video images to avoid limited information diversity from single-layer feature representation but can also improve the generalization ability of the network. We also present the triplet attention mechanism to apply an attention mechanism to different key points, key channels, and key frames of the actions, improving the accuracy and interpretability of the judgement of complex actions. In addition, different kinds of spacetime-semantic feature information are combined through the proposed fusion decision for comprehensive prediction in order to improve the robustness of the algorithm. We validate AM-GCN with two standard datasets, NTU-RGBD and Kinetics, and compare it with other mainstream models. The results show that the proposed model achieves tremendous improvement.

  相似文献   

13.
基于混合特征的人体动作识别改进算法   总被引:1,自引:0,他引:1  
运动特征的选择直接影响人体动作识别方法的识别效果.单一特征往往受到人体外观、环境、摄像机设置等因素的影响不同,其适用范围不同,识别效果也是有限的.在研究人体动作的表征与识别的基础上,充分考虑不同特征的优缺点,提出一种结合全局的剪影特征和局部的光流特征的混合特征,并用于人体动作识别.实验结果表明,该算法得到了理想的识别结果,对于Weizmann数据库中的动作可以达到100%的正确识别率.  相似文献   

14.
石祥滨  李怡颖  刘芳  代钦 《计算机应用研究》2021,38(4):1235-1239,1276
针对双流法进行视频动作识别时忽略特征通道间的相互联系、特征存在大量冗余的时空信息等问题,提出一种基于双流时空注意力机制的端到端的动作识别模型T-STAM,实现了对视频关键时空信息的充分利用。首先,将通道注意力机制引入到双流基础网络中,通过对特征通道间的依赖关系进行建模来校准通道信息,提高特征的表达能力。其次,提出一种基于CNN的时间注意力模型,使用较少的参数学习每帧的注意力得分,重点关注运动幅度明显的帧。同时提出一种多空间注意力模型,从不同角度计算每帧中各个位置的注意力得分,提取多个运动显著区域,并且对时空特征进行融合进一步增强视频的特征表示。最后,将融合后的特征输入到分类网络,按不同权重融合两流输出得到动作识别结果。在数据集HMDB51和UCF101上的实验结果表明T-STAM能有效地识别视频中的动作。  相似文献   

15.

In this paper, we present an approach for identification of actions within depth action videos. First, we process the video to get motion history images (MHIs) and static history images (SHIs) corresponding to an action video based on the use of 3D Motion Trail Model (3DMTM). We then characterize the action video by extracting the Gradient Local Auto-Correlations (GLAC) features from the SHIs and the MHIs. The two sets of features i.e., GLAC features from MHIs and GLAC features from SHIs are concatenated to obtain a representation vector for action. Finally, we perform the classification on all the action samples by using the l2-regularized Collaborative Representation Classifier (l2-CRC) to recognize different human actions in an effective way. We perform evaluation of the proposed method on three action datasets, MSR-Action3D, DHA and UTD-MHAD. Through experimental results, we observe that the proposed method performs superior to other approaches.

  相似文献   

16.
17.
Recently, many local-feature based methods have been proposed for feature learning to obtain a better high-level representation of human behavior. Most of the previous research ignores the structural information existing among local features in the same video sequences, while it is an important clue to distinguish ambiguous actions. To address this issue, we propose a Laplacian group sparse coding for human behavior representation. Unlike traditional methods such as sparse coding, our approach prefers to encode a group of relevant features simultaneously and meanwhile allow as less atoms as possible to participate in the approximation so that video-level sparsity is guaranteed. By incorporating Laplacian regularization the method is capable to ensure the similar approximation of closely related local features and the structural information is successfully preserved. Thus, a compact but discriminative human behavior representation is achieved. Besides, the objective of our model is solved with a closed-form solution, which reduces the computational cost significantly. Promising results on several popular benchmark datasets prove the efficiency and effectiveness of our approach.  相似文献   

18.
人体行为识别中的一个关键问题是如何表示高维的人体动作和构建精确稳定的人体分类模型.文中提出有效的基于混合特征的人体行为识别算法.该算法融合基于外观结构的人体重要关节点极坐标特征和基于光流的运动特征,可更有效获取视频序列中的运动信息,提高识别即时性.同时提出基于帧的选择性集成旋转森林分类模型(SERF),有效地将选择性集成策略融入到旋转森林基分类器的选择中,从而增加基分类器之间的差异性.实验表明SERF模型具有较高的分类精度和较强的鲁棒性.  相似文献   

19.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号