首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 343 毫秒
1.
针对全局运动特征难以准确提取的问题,本文采用局部时空特征对人体行为进行表征。针对传统词袋中硬分类的方法量化误差大的不足,本文借鉴模糊聚类的思想,提出软分类的方法。根据兴趣点检测算法从视频中提取出视觉词汇,用K means算法对其进行聚类,建立码本。在计算分类特征时,首先计算待分类视觉词汇到码本中各个码字的距离,根据距离计算这个视觉词汇隶属于各个码字的概率,最后统计得到每个视频中各码字出现的频率。在Weizmann和KTH数据库对本文提出的人体行为识别算法进行验证,Weizmann库的识别率比传统的词袋算法提高8%,KTH库的识别率比传统的词袋算法提高9%,因此本文提出的算法能更有效地对人体行为进行识别。  相似文献   

2.
为了提高视频序列中人体行为的识别率和增强在复杂环境下的适用性,通过选取人体行为区分度较高的运动方向特征、形状特征和光流变化特征进行行为描述,提出一种基于运动方向直方图(MOH)特征、2D-SIFT特征和光流方向直方图(HOOF)特征相结合的人体行为识别方法。改进运动方向直方图特征,使其在有符号梯度空间下对人体全局运动方向具有更为鲁棒的表示。使用视觉词袋模型既解决了不同动作提取的兴趣点点数不同的问题,又实现了局部特征的有效融合。实验在Weizmann数据库和KTH数据库上识别率分别高达97.83%和91.38%,并具有较好的鲁棒性。  相似文献   

3.
目的 为了提高视频中动作识别的准确度,提出基于动作切分和流形度量学习的视频动作识别算法。方法 首先利用基于人物肢体伸展程度分析的动作切分方法对视频中的动作进行切分,将动作识别的对象具体化;然后从动作片段中提取归一化之后的全局时域特征和空域特征、光流特征、帧内的局部旋度特征和散度特征,构造一种7×7的协方差矩阵描述子对提取出的多种特征进行融合;最后结合流形度量学习方法有监督式地寻找更优的距离度量算法提高动作的识别分类效果。结果 对Weizmann公共视频集的切分实验统计结果表明本文提出的视频切分方法具有很好的切分能力,能够作好动作识别前的预处理;在Weizmann公共视频数据集上进行了流形度量学习前后的识别效果对比,结果表明利用流形度量学习方法对动作识别效果提升2.8%;在Weizmann和KTH两个公共视频数据集上的平均识别率分别为95.6%和92.3%,与现有方法的比较表明,本文提出的动作识别方法有更好的识别效果。结论 多次实验结果表明本文算法在预处理过程中动作切分效果理想,描述动作所构造协方差矩阵对动作的表达有良好的多特征融合能力,而且光流信息和旋度、散度信息的加入使得人体各部位的运动方向信息具有了更多细节的描述,有效提高了协方差矩阵的描述能力,结合流形度量学习方法对动作识别的准确性有明显提高。  相似文献   

4.
为了克服单纯使用局部时空兴趣点(spatial-temporal interest point,STIP)的方法在对视频序列中人体行为进行识别时提取的特征点太少,且其不能完整的表征图像的特征,提出一种结合局部特征和全局特征的特征描述子PE-Cuboid,能有效的提高人体行为识别的正确率。对每一个视频序列提取PE-Cuboid特征,利用像素变化概率图(PCRM)和边缘方向直方图(EOH)捕捉全局运动信息,局部的Cuboid描述子对全局特征做进一步区分,对最终生成的PE-Cuboid特征进行K-means聚类形成视觉词汇本(visual dictionary),将视觉词汇本输入到线性SVM分类器(linear Support Vector Machines,LSVM)中进行学习、训练、分类,最后采用打分的机制得到行为类别。该文算法在KTH、Weizmann行为数据库和我们自拍测试集中都做了测试,实验结果显示算法具有较高的识别率。  相似文献   

5.
目的 人体行为识别是计算机视觉领域的一个重要研究课题,具有广泛的应用前景.针对局部时空特征和全局时空特征在行为识别问题中的局限性,提出一种新颖、有效的人体行为中层时空特征.方法 该特征通过描述视频中时空兴趣点邻域内局部特征的结构化分布,增强时空兴趣点的行为鉴别能力,同时,避免对人体行为的全局描述,能够灵活地适应行为的类内变化.使用互信息度量中层时空特征与行为类别的相关性,将视频识别为与之具有最大互信息的行为类别.结果 实验结果表明,本文的中层时空特征在行为识别准确率上优于基于局部时空特征的方法和其他方法,在KTH数据集和日常生活行为(ADL)数据集上分别达到了96.3%和98.0%的识别准确率.结论 本文的中层时空特征通过利用局部特征的时空分布信息,显著增强了行为鉴别能力,能够有效地识别多种复杂人体行为.  相似文献   

6.
目的 针对传统局部特征提取方法在表情识别上的局限性,提出一种精确局部特征描述的表情识别方法。方法 首先将人的眉毛、眼睛和嘴巴3个对表情识别起关键作用的器官分割出来,使得特征描述更具有针对性。然后,构造充分矢量三角形以统计图像的轮廓特征与细节特征。最后,对于不同的表情器官采用不同尺度的充分矢量三角形描述,对于同种表情器官采用多种尺度的充分矢量三角形联合描述,从而充分描述关键器官的图像信息。结果 该算法在日本女性表情人脸库(JAFFE)、cohn-kanade库(CK)以及Pain expressions库上进行实验,分别取得了95.67%、97.83%、84.0%的平均识别率以及11.70 ms、30.23 ms、11.73 ms的平均特征提取时间,实验结果表明,精确局部特征描述的表情识别方法可以较快、较准确的进行人脸表情识别。结论 精确局部特征描述的表情识别方法通过器官的分割以及充分矢量三角形模式的构造与灵活运用,良好地表达了图像的局部特征且具有较低的时间复杂度,本文算法与目前典型的表情识别算法的实验对比结果也表明了本文算法的有效性。  相似文献   

7.
目的 车标是车辆的显著性特征,通过车标的分类与识别可以极大缩小车辆型号识别的范围,是车辆品牌和型号识别中的重要环节。基于特征描述子的车标识别算法存在如下缺点:一方面,算法提取的特征数量有限,不能全面描述车标的特征;另一方面,提取的特征过于冗杂,维度高,需要大量的计算时间。为了提取更加丰富的车标特征,提高识别效率,提出一种增强边缘梯度特征局部量化策略驱动下的车标识别方法。方法 首先提取车标图像的增强边缘特征,即根据不同的梯度方向提取梯度信息,生成梯度大小矩阵,并采用LTP(local ternary patterns)算子在梯度大小矩阵上进一步进行特征提取,然后采用特征码本对提取的特征进行量化操作,在确保车标特征描述能力的同时,精简了特征数目,缩短了局部向量的长度,最后采用WPCA(whitened principal component analysis)进行特征降维操作,并基于CRC(collaborative representation based classification)分类器进行车标的识别。结果 基于本文算法提取的车标特征向量,能够很好地描述车标图像的特征,在HFUT-VL1车标数据集上取得了97.85%的识别率(平均每类训练样本为10张),且在识别难度较大的XMU车标数据集上也能取得90%以上的识别率(平均每类训练样本为100张),与其他识别算法相比,识别率有明显提高,且具有更强的鲁棒性。结论 增强边缘梯度特征局部量化策略驱动下的车标识别算法提取的特征信息能够有效地描述车标,具有很高的识别率和很强的鲁棒性,大大降低了特征向量的维度,提高了识别效率。  相似文献   

8.
为减少背景特征对行为识别的影响,提出一种基于前景置信的人体行为识别方法。该方法在基于稠密时空兴趣点的行为识别基础上,结合像素前景置信估计对特征描述器进行加权分类,再利用词袋模型判别行为。融合运动、外观及视觉显著性的像素前景置信的引入,提高了算法处理复杂背景视频的能力。该方法在UCF50和HMDB51视频库中进行训练和测试,平均识别率为66.4%。  相似文献   

9.
目的 为了进一步提高智能监控场景下行为识别的准确率和时间效率,提出了一种基于YOLO(you only look once:unified,real-time object detection)并结合LSTM(long short-term memory)和CNN(convolutional neural network)的人体行为识别算法LC-YOLO(LSTM and CNN based on YOLO)。方法 利用YOLO目标检测的实时性,首先对监控视频中的特定行为进行即时检测,获取目标大小、位置等信息后进行深度特征提取;然后,去除图像中无关区域的噪声数据;最后,结合LSTM建模处理时间序列,对监控视频中的行为动作序列做出最终的行为判别。结果 在公开行为识别数据集KTH和MSR中的实验表明,各行为平均识别率达到了96.6%,平均识别速度达到215 ms,本文方法在智能监控的行为识别上具有较好效果。结论 提出了一种行为识别算法,实验结果表明算法有效提高了行为识别的实时性和准确率,在实时性要求较高和场景复杂的智能监控中有较好的适应性和广泛的应用前景。  相似文献   

10.
目的 针对体积局部二值模式应用到视频帧特征提取上,特征维数大,对光照及噪声鲁棒性差等问题,提出一种新的特征描述算法—时空局部三值模式矩(TSLTPM)。考虑到TSLTPM描述的仅是纹理特征,本文进一步融合3维梯度方向直方图(3DHOG)特征来增强对情感视频的描述。方法 首先对情感视频进行预处理获得表情和姿态序列;然后对表情和姿态序列分别提取TSLTPM和3DHOG特征,计算测试序列与已标记的情感训练集特征间的最小欧氏距离,并将其作为独立证据来构造基本概率分配;最后使用D-S证据联合规则得到情感识别结果。结果 在FABO数据库上进行实验,表情和姿态单模态分别取得83.06%和94.78%的平均识别率,在表情上分别比VLBP(体积局部二值模式)、LBP-TOP(三正交平面局部二值模式)、TSLTPM、3DHOG高9.27%、12.89%、1.87%、1.13%;在姿态上分别比VLBP、LBP-TOP、TSLTPM、3DHOG高24.61%、27.55%、1.18%、0.98%。将两种模态进行融合以后平均识别率达到96.86%,说明了融合表情和姿态进行情感识别的有效性。结论 本文提出的TSLTPM特征将VLBP扩展成时空三值模式,能够有效降低维数,减少光照和噪声对识别的影响,与3DHOG特征形成复合时空特征有效增强了情感视频的分类性能,与典型特征提取算法的对比实验也表明了本文算法的有效性。另外,与其他方法的对比实验也验证了本文融合方法的优越性。  相似文献   

11.
12.

Human action recognition based on silhouette images has wide applications in computer vision, human computer interaction and intelligent surveillance. It is a challenging task due to the complex actions in nature. In this paper, a human action recognition method is proposed which is based on the distance transform and entropy features of human silhouettes. In the first stage, background subtraction is performed by applying correlation coefficient based frame difference technique to extract silhouette images. In the second stage, distance transform based features and entropy features are extracted from the silhouette images. The distance transform based features and entropy features provide the shape and local variation information. These features are given as input to neural networks to recognize various human actions. The proposed method is tested on three different datasets viz., Weizmann, KTH and UCF50. The proposed method obtains an accuracy of 92.5%, 91.4% and 80% for Weizmann, KTH and UCF50 datasets respectively. The experimental results show that the proposed method for human action recognition is comparable to other state-of-the-art human action recognition methods.

  相似文献   

13.
14.
This paper proposes a boosting EigenActions algorithm for human action recognition. A spatio-temporal Information Saliency Map (ISM) is calculated from a video sequence by estimating pixel density function. A continuous human action is segmented into a set of primitive periodic motion cycles from information saliency curve. Each cycle of motion is represented by a Salient Action Unit (SAU), which is used to determine the EigenAction using principle component analysis. A human action classifier is developed using multi-class Adaboost algorithm with Bayesian hypothesis as the weak classifier. Given a human action video sequence, the proposed method effectively locates the SAUs in the video, and recognizes the human actions by categorizing the SAUs. Two publicly available human action databases, namely KTH and Weizmann, are selected for evaluation. The average recognition accuracy are 81.5% and 98.3% for KTH and Weizmann databases, respectively. Comparative results with two recent methods and robustness test results are also reported.  相似文献   

15.
16.
This paper presents a novel approach for action recognition, localization and video matching based on a hierarchical codebook model of local spatio-temporal video volumes. Given a single example of an activity as a query video, the proposed method finds similar videos to the query in a target video dataset. The method is based on the bag of video words (BOV) representation and does not require prior knowledge about actions, background subtraction, motion estimation or tracking. It is also robust to spatial and temporal scale changes, as well as some deformations. The hierarchical algorithm codes a video as a compact set of spatio-temporal volumes, while considering their spatio-temporal compositions in order to account for spatial and temporal contextual information. This hierarchy is achieved by first constructing a codebook of spatio-temporal video volumes. Then a large contextual volume containing many spatio-temporal volumes (ensemble of volumes) is considered. These ensembles are used to construct a probabilistic model of video volumes and their spatio-temporal compositions. The algorithm was applied to three available video datasets for action recognition with different complexities (KTH, Weizmann, and MSR II) and the results were superior to other approaches, especially in the case of a single training example and cross-dataset1 action recognition.  相似文献   

17.

Along with the exponential growth of online video creation platforms such as Tik Tok and Instagram, state of the art research involving quick and effective action/gesture recognition remains crucial. This work addresses the challenge of classifying short video clips, using a domain-specific feature design approach, capable of performing significantly well using as little as one training example per action. The method is based on Gunner Farneback’s dense optical flow (GF-OF) estimation strategy, Gaussian mixture models, and information divergence. We first aim to obtain accurate representations of the human movements/actions by clustering the results given by GF-OF using K-means method of vector quantization. We then proceed by representing the result of one instance of each action by a Gaussian mixture model. Furthermore, using Kullback-Leibler divergence (KL-divergence), we attempt to find similarities between the trained actions and the ones in the test videos. Classification is done by matching each test video to the trained action with the highest similarity (a.k.a lowest KL-divergence). We have performed experiments on the KTH and Weizmann Human Action datasets using One-Shot and K-Shot learning approaches, and the results reveal the discriminative nature of our proposed methodology in comparison with state-of-the-art techniques.

  相似文献   

18.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号