首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 515 毫秒
1.
为了克服基于视频的布料材质识别中由于忽略了动态因素的影响导致材质识别准确率低的难点,利用布料仿真视频库,提出一种基于增强动态稠密轨迹特征的布料材质识别方法以有效识别布料的材质属性信息.首先利用材质合成方法构造64种不同材质的布料仿真视频数据库;然后利用构造的布料动态视频库,通过迁移预训练的VGG网络增强布料动态视频的各帧特征信息,并消除部分非动态特征;其次利用动态稠密轨迹特征描述布料视频的动态特征,以充分捕捉不同布料材质视频的动态信息;最后通过Fisher向量编码生成布料动态信息的特征数据库,并训练SVM分类器建立布料材质视频动态信息到材质属性参数的映射.利用构建的布料仿真视频库作为数据集进行实验的结果表明,该方法对64种不同布料材质视频的材质种类识别准确率达到73.83%.  相似文献   

2.
郭香蓉  李鸿 《计算机仿真》2022,39(2):121-125
针对当前智能学习算法对道面裂缝识别准确率不高的状况,提出了一种采用集成学习识别道面裂缝的算法.对图像进行栅格化和二值化处理,发现像素均值和像素标准差能够较好地反映裂缝信息,因此提取了像素分布密度、均值和标准差的水平投影和垂直投影作为特征量;引入stacking集成学习算法对裂缝进行检测,以基本分类器的输出作为元数据集,...  相似文献   

3.
为了高效、准确地获得视频中的行为类别和运动信息,减少计算的复杂度,文中提出一种融合特征传播和时域分割网络的视频行为识别算法.首先将视频分为3个小片段,分别从相应片段中提取关键帧,从而实现对长时间视频的建模;然后设计一个包含特征传播表观信息流和FlowNet运动信息流的改进时域分割网络(P-TSN),分别以RGB关键帧、RGB非关键帧、光流图为输入提取视频的表观信息流和运动信息流;最后将改进时域分割网络的BN-Inception描述子进行平均加权融合后送入Softmax层进行行为识别.在UCF101和HMDB51这2个数据集上分别取得了94.6%和69.4%的识别准确率,表明该算法能够有效地获得视频中空域表观信息和时域运动信息,提高了视频行为识别的准确率.  相似文献   

4.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

5.
针对常规的卷积神经网络时空感受野尺度单一,难以提取视频中多变的时空信息的问题,利用(2+1)D模型将时间信息和空间信息在一定程度上解耦的特性,提出了(2+1)D多时空信息融合的卷积残差神经网络,并用于人体行为识别.该模型以3×3空间感受野为主,1×1空间感受野为辅,与3种不同时域感受野交叉组合构建了6种不同尺度的时空感受野.提出的多时空感受野融合模型能够同时获取不同尺度的时空信息,提取更丰富的人体行为特征,因此能够更有效识别不同时间周期、不同动作幅度的人体行为.另外提出了一种视频时序扩充方法,该方法能够同时在空间信息和时间序列扩充视频数据集,丰富训练样本.提出的方法在公共视频人体行为数据集UCF101和HMDB51上子视频的识别率超过或接近最新的视频行为识别方法.  相似文献   

6.
为了有效地表征人体行为中的姿势信息和运动信息,提高行为识别算法的准确率,提出一种融合三维方向梯度直方图特征与光流直方图特征的复合时空特征,并利用其进行人体行为识别.首先采用复合时空特征综合描述三维时空局部区域的像素分布和像素变化;然后构建复合时空特征词典,并根据该特征词典完成对人体行为序列特征集合的描述;最后采用主题模型构建人体行为识别算法,对行为序列中提取的复合时空特征进行分类,实现人体行为的识别.实验结果表明:该方法能有效地提高人体行为识别准确率.  相似文献   

7.
传统的2D卷积神经网络在进行视频识别时容易丢失目标在时间维度上的相关特征信息,导致识别准确率降低。针对该问题,本文采用3D卷积网络作为基本的网络框架,使用3D卷积核进行卷积操作提取视频中的时空特征,同时集成多个3D卷积神经网络模型对动态手势进行识别。为了提高模型的收敛速度和训练的稳定性,运用批量归一化(BN)技术优化网络,使优化后的网络训练时间缩短。实验结果表明,本文方法对于动态手势的识别具有较好的识别结果,在Sheffield Kinect Gesture (SKIG)数据集上识别准确率达到98.06%。与单独使用RGB信息、深度信息以及传统2D CNN相比,手势识别率均有所提高,验证了本文方法的可行性和有效性。  相似文献   

8.
目的 视频中的人体行为识别技术对智能安防、人机协作和助老助残等领域的智能化起着积极的促进作用,具有广泛的应用前景。但是,现有的识别方法在人体行为时空特征的有效利用方面仍存在问题,识别准确率仍有待提高。为此,本文提出一种在空间域使用深度学习网络提取人体行为关键语义信息并在时间域串联分析从而准确识别视频中人体行为的方法。方法 根据视频图像内容,剔除人体行为重复及冗余信息,提取最能表达人体行为变化的关键帧。设计并构造深度学习网络,对图像语义信息进行分析,提取表达重要语义信息的图像关键语义区域,有效描述人体行为的空间信息。使用孪生神经网络计算视频帧间关键语义区域的相关性,将语义信息相似的区域串联为关键语义区域链,将关键语义区域链的深度学习特征计算并融合为表达视频中人体行为的特征,训练分类器实现人体行为识别。结果 使用具有挑战性的人体行为识别数据集UCF (University of Central Florida)50对本文方法进行验证,得到的人体行为识别准确率为94.3%,与现有方法相比有显著提高。有效性验证实验表明,本文提出的视频中关键语义区域计算和帧间关键语义区域相关性计算方法能够有效提高人体行为识别的准确率。结论 实验结果表明,本文提出的人体行为识别方法能够有效利用视频中人体行为的时空信息,显著提高人体行为识别准确率。  相似文献   

9.
针对煤矿生产区域的监控视频较为模糊且人员行为类型复杂,常规行为识别方法的准确率较低的问题,提出了一种基于动态注意力与多层感知图卷积网络(DA-GCN)的煤矿人员行为识别方法。采用Openpose算法提取输入视频的人体关键点,得到3个维度、18个坐标的人体关键点信息,降低模糊背景信息的干扰;通过动态多层感知图卷积网络(D-GCN)提取人体关键点的空间特征,通过时间卷积网络(TCN)提取人体关键点的时间特征,提高网络对不同动作的泛化能力;使用动态注意力机制,增强网络对于动作关键帧、关键骨架的注意力程度,进一步缓解视频质量不佳带来的影响;使用Softmax分类器进行动作分类。通过场景分析,将井下行为分为站立、行走、坐、跨越和操作设备5种类型,构建适用于煤矿场景的Cumt-Action数据集。实验结果表明,DA-GCN在Cumt-Action数据集的最高准确率达到99.3%,最高召回率达到98.6%;与其他算法相比,DA-GCN在Cumt-Action数据集和公共数据集NTU-RGBD上均具有较高的识别准确率,证明了DA-GCN优秀的行为识别能力。  相似文献   

10.
为了解决当前跨模态行人重识别算法因采用权值共享的卷积核而造成模型针对不同输入动态调整能力差,以及现有方法因仅使用高层粗分辨率的语义特征而造成信息丢失的问题,提出一种双向动态交互网络的跨模态行人重识别方法.首先通过双流网络分别提取不同模态各个残差块后的全局特征;然后根据不同模态的全局内容动态地生成定制化卷积核,提取模态特有信息,并将其作为模态互补信息在模态间进行双向传递以缓解模态异质性;最后对各层不同分辨率的特征进行相关性建模,联合学习跨层的多分辨率特征以获取更具有判别性和鲁棒性的特征表示.在SYSU-MM01和RegDB跨模态行人重识别数据集上的实验结果表明,所提方法在第一命中率(R1)分别高于当前最好方法4.70%和2.12%;在平均检索精度(mAP)上分别高于当前最好方法4.30%和2.67%,验证了该方法的有效性.  相似文献   

11.
针对动态复杂场景下的操作动作识别,提出一种基于手势特征融合的动作识别框架,该框架主要包含RGB视频特征提取模块、手势特征提取模块与动作分类模块。其中RGB视频特征提取模块主要使用I3D网络提取RGB视频的时间和空间特征;手势特征提取模块利用Mask R-CNN网络提取操作者手势特征;动作分类模块融合上述特征,并输入到分类器中进行分类。在EPIC-Kitchens数据集上,提出的方法识别抓取手势的准确性高达89.63%,识别综合动作的准确度达到了74.67%。  相似文献   

12.
Visual prostheses based on micro-electronic technologies and biomedical engineering have been demonstrated to restore vision to blind individuals. It is necessary to determine the minimum requirements to achieve useful artificial vision for image recognition. To find the primary factors in common object and scene images recognition and optimize the recognition accuracy on low resolution images using image processing strategies, we investigate the effects of two kinds of image processing methods, two common shapes of pixels (square and circular) and six resolutions (8 × 8, 16 × 16, 24 × 24, 32 × 32, 48 × 48 and 64 × 64). The results showed that the mean recognition accuracy increased with the number of pixels. The recognition threshold for objects was within the interval of 16 × 16 to 24 × 24 pixels. For simple scenes, it was between 32 × 32 and 48 × 48 pixels. Near the threshold of recognition, different image modes had great impact on recognition accuracy. The images with “threshold pixel number and binarization-circular points” produced the best recognition results.  相似文献   

13.
目的 视频行为识别和理解是智能监控、人机交互和虚拟现实等诸多应用中的一项基础技术,由于视频时空结构的复杂性,以及视频内容的多样性,当前行为识别仍面临如何高效提取视频的时域表示、如何高效提取视频特征并在时间轴上建模的难点问题。针对这些难点,提出了一种多特征融合的行为识别模型。方法 首先,提取视频中高频信息和低频信息,采用本文提出的两帧融合算法和三帧融合算法压缩原始数据,保留原始视频绝大多数信息,增强原始数据集,更好地表达原始行为信息。其次,设计双路特征提取网络,一路将融合数据正向输入网络提取细节特征,另一路将融合数据逆向输入网络提取整体特征,接着将两路特征加权融合,每一路特征提取网络均使用通用视频描述符——3D ConvNets (3D convolutional neural networks)结构。然后,采用BiConvLSTM (bidirectional convolutional long short-term memory network)网络对融合特征进一步提取局部信息并在时间轴上建模,解决视频序列中某些行为间隔相对较长的问题。最后,利用Softmax最大化似然函数分类行为动作。结果 为了验证本文算法的有效性,在公开的行为识别数据集UCF101和HMDB51上,采用5折交叉验证的方式进行整体测试与分析,然后针对每类行为动作进行比较统计。结果表明,本文算法在两个验证集上的平均准确率分别为96.47%和80.03%。结论 通过与目前主流行为识别模型比较,本文提出的多特征模型获得了最高的识别精度,具有通用、紧凑、简单和高效的特点。  相似文献   

14.
Uncooperative iris identification systems at a distance suffer from poor resolution of the acquired iris images, which significantly degrades iris recognition performance. Super-resolution techniques have been employed to enhance the resolution of iris images and improve the recognition performance. However, most existing super-resolution approaches proposed for the iris biometric super-resolve pixel intensity values, rather than the actual features used for recognition. This paper thoroughly investigates transferring super-resolution of iris images from the intensity domain to the feature domain. By directly super-resolving only the features essential for recognition, and by incorporating domain specific information from iris models, improved recognition performance compared to pixel domain super-resolution can be achieved. A framework for applying super-resolution to nonlinear features in the feature-domain is proposed. Based on this framework, a novel feature-domain super-resolution approach for the iris biometric employing 2D Gabor phase-quadrant features is proposed. The approach is shown to outperform its pixel domain counterpart, as well as other feature domain super-resolution approaches and fusion techniques.  相似文献   

15.
在计算机视觉研究中,基于视频数据进行图像对象识别逐渐增多。针对视频数据 的特征提取,提出了一种基于三角函数迭代提取视频三维迭代轨迹特征的方法。该方法是考虑 视频数据的时间空间维度,利用三角函数构造三维动力系统,整体一次性进行视频段数据特征 的抽取,提取出一种近似混沌吸引子的三维特征点集,这种视频数据迭代特征实际上是迭代轨 迹点集合。以VidTIMIT 数据集进行人脸识别实验,发现增加初始迭代值的个数,减少迭代次 数后,提取出的特征点集合具有更好的效果。当VidTIMIT 的43 组559 个视频全部参与实验, 识别率达到88.16%,与现有文献中记载的其他方法相比,具有识别率高、计算时间少的特点, 初步证实了该三维视频迭代轨迹特征具有实用性,同时也值得进一步研究验证与分析。  相似文献   

16.
目的 对人体行为的描述是行为识别中的关键问题,为了能够充分利用训练数据从而保证特征对行为的高描述性,提出了基于局部时空特征方向加权的人体行为识别方法。方法 首先,将局部时空特征的亮度梯度特征分解为3个方向(XYZ)分别来描述行为, 通过直接构造视觉词汇表分别得到不同行为3方向特征描述子集合的标准视觉词汇码本,并利用训练视频得到每个行为的标准3方向词汇分布;进而,根据不同行为3方向特征描述子集合的标准视觉词汇码本,分别计算测试视频相应的3方向的词汇分布,并利用与各行为标准3方向词汇分布的加权相似性度量进行行为识别;结果 在Weizmann数据库和KTH数据库中进行实验,Weizmann数据库中的平均识别率高达96.04%,KTH数据库中的平均识别率也高达96.93%。结论 与其他行为识别方法相比可以明显提高行为平均识别率。  相似文献   

17.
提出一种基于彩色-深度视频和复线性动态系统(Complex linear dynamic system, CLDS)的手语识别方法,可以保证时序建模数据与原始数据严格对应,准确刻画手语特征,从而显著提高分类精度。利用深度视频补偿RGB视频中的缺失信息,提取手语视频运动边界直方图(Motion boundary histogram, MBH)特征,得到每种行为的特征矩阵。对特征矩阵进行CLDS时序建模,输出能唯一表示该类手语视频的描述符M=(A,C),然后利用子空间角度计算各模型之间的相似度;通过改进的K最近邻(K-nearest neighbors, KNN)算法得到最终分类结果。在中国手语数据集(Chinese sign language, CSL)上的实验表明,本文方法与现有的手语识别方法相比,具有更高的识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号