共查询到20条相似文献,搜索用时 0 毫秒
1.
目的 人体行为识别是计算机视觉领域的一个重要研究课题,具有广泛的应用前景.针对局部时空特征和全局时空特征在行为识别问题中的局限性,提出一种新颖、有效的人体行为中层时空特征.方法 该特征通过描述视频中时空兴趣点邻域内局部特征的结构化分布,增强时空兴趣点的行为鉴别能力,同时,避免对人体行为的全局描述,能够灵活地适应行为的类内变化.使用互信息度量中层时空特征与行为类别的相关性,将视频识别为与之具有最大互信息的行为类别.结果 实验结果表明,本文的中层时空特征在行为识别准确率上优于基于局部时空特征的方法和其他方法,在KTH数据集和日常生活行为(ADL)数据集上分别达到了96.3%和98.0%的识别准确率.结论 本文的中层时空特征通过利用局部特征的时空分布信息,显著增强了行为鉴别能力,能够有效地识别多种复杂人体行为. 相似文献
2.
目的 在人体行为识别研究中,利用多模态方法将深度数据与骨骼数据相融合,可有效提高动作的识别率。针对深度图像信息数据量大、冗余度高等问题,提出一种通过获取关键时程信息动作帧序列降低冗余的算法,即质心运动路径松弛算法,并根据不同模态数据的特点,提出一种新的时空特征表示方法。方法 质心运动路径松弛算法根据质心在相邻帧之间的运动距离,计算图像差分后获得的活跃部分的相似系数,然后剔除掉相似度高的帧,获得足以表达行为的关键时程信息。根据图像动态部分的变化特性、人体各部分在运动中的协同性和局部显著性特征构建一种新的时空特征表示方法。结果 在MSR-Action3D数据集上对本文方法的效果进行验证。在3个子集中进行交叉验证的平均分类识别率为95.743 2%,分别比Multi-fused,CovP3DJ,D3D-LSTM(densely connected 3DCNN and long short-term memory),Joint Subset Selection方法高2.443 2%,4.763 2%,0.343 2%,0.213 2%。本文方法在使用完整数据集的扩展实验中进行交叉验证的分类识别... 相似文献
3.
4.
组合动作识别是计算机视觉领域一个新的挑战,它旨在识别未见过的动作与物体的组合。传统的动作识别模型往往会在物体外观与动作类别之间建立联系,引入错误的偏置,在面对未见过的动作与物体的组合时性能急剧恶化。现有解决方法是忽视外观信息,以物体的坐标和身份等信息作为输入,建立以物体为中心的模型。受此启发,提出了时空增强式交互模型。首先在基础网络的不同深度提取并聚合多级别物体特征;然后构建物体分支,使用时空增强模块和物体交互模块分别对物体特征进行增强以及建模物体的移动和交互模式;最终将该分支的输出与基础网络的输出融合用于动作分类,使模型兼顾外观信息和物体交互信息。在多个数据集上的广泛实验证明了所提模型的有效性。 相似文献
5.
目的 在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要。尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升。基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism, M2FA)。方法 不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module, CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network, 2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息。对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符。特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局... 相似文献
6.
Automatic recognition of the speech of children is a challenging topic in computer-based speech recognition systems. Conventional feature extraction method namely Mel-frequency cepstral coefficient (MFCC) is not efficient for children's speech recognition. This paper proposes a novel fuzzy-based discriminative feature representation to address the recognition of Malay vowels uttered by children. Considering the age-dependent variational acoustical speech parameters, performance of the automatic speech recognition (ASR) systems degrades in recognition of children's speech. To solve this problem, this study addresses representation of relevant and discriminative features for children's speech recognition. The addressed methods include extraction of MFCC with narrower filter bank followed by a fuzzy-based feature selection method. The proposed feature selection provides relevant, discriminative, and complementary features. For this purpose, conflicting objective functions for measuring the goodness of the features have to be fulfilled. To this end, fuzzy formulation of the problem and fuzzy aggregation of the objectives are used to address uncertainties involved with the problem.The proposed method can diminish the dimensionality without compromising the speech recognition rate. To assess the capability of the proposed method, the study analyzed six Malay vowels from the recording of 360 children, ages 7 to 12. Upon extracting the features, two well-known classification methods, namely, MLP and HMM, were employed for the speech recognition task. Optimal parameter adjustment was performed for each classifier to adapt them for the experiments. The experiments were conducted based on a speaker-independent manner. The proposed method performed better than the conventional MFCC and a number of conventional feature selection methods in the children speech recognition task. The fuzzy-based feature selection allowed the flexible selection of the MFCCs with the best discriminative ability to enhance the difference between the vowel classes. 相似文献
7.
目前在RGBD视频的行为识别中,为了提高识别准确率,许多方法采用多特征融合的方式。通过实验分析发现,行为在特定特征上的分类效果好,但是多特征融合并不能体现个别特征的分类优势,同时融合后的特征维度很高,时空开销大。为了解决这个问题,提出了RGBD人体行为识别中的自适应特征选择方法,通过随机森林和信息熵分析人体关节点判别力,以高判别力的人体关节点的数量作为特征选择的标准。通过该数量阈值的筛选,选择关节点特征或者关节点相对位置作为行为识别特征。实验结果表明,该方法相比于特征融合的算法,行为识别的准确率有了较大提高,超过了大部分算法的识别结果。 相似文献
8.
与传统光学相机相比,能同步获取RGB图像和深度图像数据,对人体行为识别提供了新的解决方案。因此,分别对RGB和深度图像序列提取改进的时空兴趣点特征,并基于一定规则实现时空兴趣点特征的融合。由于融合后特征的冗余性,基于时空聚类的方法,对特征进行优化处理,并采用SVM分类器进行训练和测试。实验结果表明提出的RGB和深度图像特征联合方法的行为识别平均准确率为91%,相对于其他方法取得了更好的识别结果。 相似文献
9.
步态运动中包含人体形状信息和运动信息,目前步态识别算法多数基于单一信息,不能取得满意的识别结果。利用特征融合的思想,提出一种融合人体轮廓特征和下肢角度特征的步态识别算法。采用傅立叶描述子描述人体轮廓特征;区别于基于模型的运动特征提取方法,依据人体解剖学的知识获取下肢角度,计算代价较小;采用加权融合规则实现两类特征的融合。仿真结果表明,本算法的性能较基于单个特征的算法有明显的提高。 相似文献
10.
针对原始空时双通道卷积神经网络(CNN)模型对长时段复杂视频中行为识别率低的问题,提出了一种基于视频分段的空时双通道卷积神经网络的行为识别方法。首先将视频分成多个等长不重叠的分段,对每个分段随机采样得到代表视频静态特征的帧图像和代表运动特征的堆叠光流图像;然后将这两种图像分别输入到空域和时域卷积神经网络进行特征提取,再在两个通道分别融合各视频分段特征得到空域和时域的类别预测特征;最后集成双通道的预测特征得到视频行为识别结果。通过实验讨论了多种数据增强方法和迁移学习方案以解决训练样本不足导致的过拟合问题,分析了不同分段数、预训练网络、分段特征融合方案和双通道集成策略对行为识别性能的影响。实验结果显示所提模型在UCF101数据集上的行为识别准确率达到91.80%,比原始的双通道模型提高了3.8个百分点;同时在HMDB51数据集上的行为识别准确率也比原模型提高,达到61.39%,这表明所提模型能够更好地学习和表达长时段复杂视频中人体行为特征。 相似文献
11.
基于时空特征的方法是行为识别的主流方法,已经有许多研究学者提出了多种局部时空特征。然而,不同的局部特征所反映的行为信息的侧重点并不一样。通过引入集成学习的方法,对多种特征在分类器层次上进行融合,使得多种特征能够优势互补,从而增强了特征的描述能力,为构建出高效、稳定的行为识别分类器提供了保证。经仿真实验验证,所提出的方法是鲁棒和有效的。 相似文献
12.
13.
视频动作识别是计算机视觉领域一个十分具有挑战性的课题,主要任务是利用深度学习等视频智能分析技术识别的深层信息推导出视频人体行为动作.通过结合双流卷积神经网络和三维卷积神经网络的结构特点,提出了一种面向时空特征融合的GSTIN(GoogLeNet based on spatio-temporal intergration network).GSTIN中设计了时空特征融合模块InBST(inception blend spatio-temporal feature),提升网络对空间特征与时间特征的利用能力;在时空特征融合模块InBST基础上,构建了适合动作识别的多流网络结构.GSTIN在动作识别数据集UCF101、HMDB51上识别精度分别达到了93.8%和70.6%,这表明GSTIN与其他动作识别网络相比具有较好的识别性能. 相似文献
14.
近年来,基于局部时空特征的运动表征方法已被越来越多地运用于视频中的动作识别问题,相关研究人员已经提出了多种特征检测和描述方法,并取得了良好的效果。但上述方法在适应摄像头移动、光照以及穿着变化等方面还存在明显不足。为此,提出了基于时空兴趣点局部时空特征的运动表示方法,实现了基于时空单词的动作识别。首先采用基于Gabor滤波器和Gaussian滤波器相结合的检测算法从视频中提取时空兴趣点,然后抽取兴趣点的静态特征、运动特征和时空特征,并分别对运动进行表征,最后利用基于时空码本的动作分类器对动作进行分类识别。在Weizmann和KTH两个行为数据集进行了测试,实验结果表明:基于时空特征的运动表示能够更好地适应摄像头移动、光照变化以及施动者的穿着和动作差异等环境因素的影响,取得更好的识别效果。 相似文献
15.
针对传统的彩色视频中动作识别算法成本高,且二维信息不足导致动作识别效果不佳的问题,提出一种新的基于三维深度图像序列的动作识别方法。该算法在时间维度上提出了时间深度模型(TDM)来描述动作。在三个正交的笛卡尔平面上,将深度图像序列分成几个子动作,对所有子动作作帧间差分并累积能量,形成深度运动图来描述动作的动态特征。在空间维度上,用空间金字塔方向梯度直方图(SPHOG)对时间深度模型进行编码得到了最终的描述符。最后用支持向量机(SVM)进行动作的分类。在两个权威数据库MSR Action3D和MSRGesture3D上进行实验验证,该方法识别率分别达到了94.90%(交叉测试组)和94.86%。实验结果表明,该方法能够快速对深度图像序列进行计算并取得较高的识别率,并基本满足深度视频序列的实时性要求。 相似文献
16.
17.
手指静脉识别是利用人体手指静脉结构的唯一性实现个体身份认证,具有高度安全和使用便捷等优点。为了进一步提高手指静脉识别系统的性能,提出了一种融合局部特征和全局特征的手指静脉识别方法。应用局部二元模式方法提取手指静脉局部特征,利用海明距离计算匹配得分;应用双向两维主成分分析方法提取手指静脉全局特征,利用欧式距离计算匹配得分;在得分级上融合二者的匹配得分以产生识别结果。实验结果表明,局部特征与全局特征具有较好的互补性,有效地提高了识别精度。 相似文献
18.
基于深度模型的视频动作识别通常先对输入视频进行采样,然后对获得的视频帧进行特征表达,输出动作类别,因此视频帧采样方法对动作识别的效果有直接的影响。为了在采样到关键有效的特征同时,并增强视频运动信息,提出了一种基于特征级采样策略的局部—全局运动信息增强的动作识别网络(local-global motion enhancement network,LGMeNet)。首先,利用特征级采样模块对输入数据进行相同运动信息间隔均匀取帧;其次,局部运动特征提取模块使用相似性函数计算单帧短期运动特征;最后,全局运动特征提取模块利用LSTM网络计算多尺度长期运动特征。通过实验评估,LGMeNet在UCF101和Something-SomethingV1数据集上分别取得了97.7%和56.9%的精确度。结果表明,采用LGMeNet能够有效提升动作识别的效果,对进一步改进相关领域的研究具有重要意义。 相似文献
19.
为降低特征识别的复杂度,提出基于特征实体、特征实面和特征虚面概念的层次性特征分类方法.通过构造2类神经网络输入矩阵,利用神经网络在特征识别中所具有的优势,实现基于特征面的分层特征识别方法.实例表明:该方法在识别去除材料的特征时比较有效,但识别特征的范围受到一定限制. 相似文献
20.
随着计算机视觉技术应用的发展和智能终端的普及,口罩遮挡人脸识别已成为人物身份信息识别的重要部分。口罩的大面积遮挡对人脸特征的学习带来极大挑战。针对戴口罩人脸特征学习困难这一问题,提出了一种基于对比学习的多特征融合口罩遮挡人脸识别算法,该算法改进了传统的基于三元组关系的人脸特征向量学习损失函数,提出了基于多实例关系的损失函数,充分挖掘戴口罩人脸和完整人脸多个正负样本之间的同模态内和跨模态间的关联关系,学习人脸中具有高区分度的能力的特征,同时结合人脸的眉眼等局部特征和轮廓等全局特征,学习口罩遮挡人脸的有效特征向量表示。在真实的戴口罩人脸数据集和生成的戴口罩人脸数据上与基准算法进行了比较,实验结果表明所提算法相比传统的基于三元组损失函数和特征融合算法具有更高的识别准确率。 相似文献