首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1%和66.1%的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高.  相似文献   

2.
基于机器视觉的人体运动识别在视频监控、虚拟现实、医疗护理等诸多领域发挥着重要的作用.结合深度学习中的三维卷积神经网络和长短期记忆神经网络,提出一种融合模型,并与另外两种行为识别模型——长效递归卷积网络和时空域卷积网络,进行了对比,利用公开的KTH数据集,进行了实验测试.实验表明,提出的融合模型与长效递归卷积网络和时空域卷积网络相比,对于人体行为图像或视频数据集的学习效果明显,论证了模型的泛化性能和鲁棒性.  相似文献   

3.
对煤矿井下人员不安全行为进行实时视频监控及报警是提升安全生产水平的重要手段。煤矿井下环境复杂,监控视频质量不佳,导致常规基于图像特征或基于人体关键点特征的行为识别方法在煤矿井下应用受限。提出了一种基于交叉注意力机制的多特征融合行为识别模型,用于识别煤矿井下人员不安全行为。针对分段视频图像,采用3D ResNet101模型提取图像特征,采用openpose算法和ST-GCN(时空图卷积网络)提取人体关键点特征;采用交叉注意力机制对图像特征和人体关键点特征进行融合处理,并与经自注意力机制处理后的图像特征和人体关键点特征拼接,得到最终行为识别特征;识别特征经全连接层及归一化指数函数softmax处理后,得到行为识别结果。基于公共数据集HMDB51和UCF101、自建的煤矿井下视频数据集进行行为识别实验,结果表明:采用交叉注意力机制可使行为识别模型更有效地融合图像特征和人体关键点特征,大幅提高识别准确率;与目前应用最广泛的行为识别模型SlowFast相比,基于交叉注意力机制的多特征融合行为识别模型在HMDB51和UCF101数据集上的识别准确率分别提高1.8%,0.9%,在自建数据集上的识别准...  相似文献   

4.
《软件》2019,(6):109-112
手势识别是当前计算机视觉的一个重要研究课题,由于手势旋转,角度等因素的影响,视频手势识别仍是一项具有挑战性的任务。该文提出了一种基于三维密集卷积神经网络和门限循环单元的双通道手势识别算法,通过三维密集卷积神经网络获取手势的空间信息,使用门限循环单元学习视频中手势的时序信息,最后融合RGB图像和深度图像的深度学习模型特征以此对手势进行识别。在ISOGD数据集上的实验表明,该手势识别算法能够有效提高了视频手势识别的准确率。  相似文献   

5.
针对医疗实体识别中词向量特征单一和忽略文本中局部特征的问题,提出一种基于多特征融合的双通道医疗实体识别模型。对医疗文本字形特征和卷积神经网络进行研究,发现构造的外部特征和挖掘的内部特征进行差异融合能够丰富词向量的特征信息;利用注意力机制改进的卷积神经网络实现特征优化选择,区分不同特征的重要性;设计CNN和BiLSTM并行的双通道神经网络,充分考虑文本的局部特征和上下文特征。在CCKS2017数据集上的实验结果表明,该模型能有效提高医疗实体识别的准确率。  相似文献   

6.
视频行为识别是图像和视觉领域的一个基础问题,在基于深度学习的行为识别模型中,2D卷积方法模型参数较少,但是准确率不高;3D卷积方法在一定程度上提高了准确率,但会产生较多的参数和计算量。为了在保持准确率的前提下降低3D卷积神经网络行为识别模型的参数量,减少计算资源消耗,提出了时域零填充卷积网络行为识别算法,对视频进行3D卷积时不在时间维度上填充额外数据,以此来保证时域信息的完整性。为了充分利用有限的时间信息,设计了适合此填充方式的网络结构:先以时域不填充的方式使用3D卷积提取时空信息,然后利网络重组结构将3D卷积变为2D卷积来进一步提取特征。实验表明,该网络的参数量为10.385×106,不使用预训练权重的情况下在UCF101数据集上准确率为60.28%,与其他3D卷积网络行为识别方法相比在资源占用和准确率上都有明显优势。  相似文献   

7.
针对微表情动作过于微弱不利于识别和目前主流方法合并情绪类别不利于微表情在现实任务中的应用2个问题,提出一种基于眼部干扰消除的视频放大方法,并利用卷积神经网络实现微表情识别任务.首先,利用基于相位的视频动作处理技术对微表情数据集CASME和CASME II中的视频数据进行放大;然后利用特征点定位获取眼部坐标,并将原始眼部视频替换到放大视频中进行图像融合,以实现对眼部干扰的消除操作;最后利用VGG16的思想设计卷积神经网络模型网络,实现对放大后的微表情数据情绪类别的识别.实验在不同方法下分别对2个数据集的准确率进行对比,并用几种调优策略下的模型分别就原始数据集和放大数据集的准确率进行对比.结果表明,文中方法能够更好地提升真实情绪分类状态下的微表情识别准确率.  相似文献   

8.
为提高仅包含少量训练样本的图像识别准确率,利用卷积神经网络作为图像的特征提取器,提出一种基于卷积神经网络的小样本图像识别方法。在原始小数据集中引入数据增强变换,扩充数据样本的范围;在此基础上将大规模数据集上的源预训练模型在目标小数据集上进行迁移训练,提取除最后全连接层之外的模型权重和图像特征;结合源预训练模型提取的特征,采用层冻结方法,微调目标小规模数据集上的卷积模型,得到最终分类识别结果。实验结果表明,该方法在小规模图像数据集的识别问题中具有较高的准确率和鲁棒性。  相似文献   

9.
由于微表情动作幅度小且持续时间短,使其识别难度大.针对此问题,提出一个结合三维卷积神经网络(3D Convolutional neural network,C3D)和光流法的微表情识别方法.所提出的方法先用光流法从微表情视频中提取出包含动态特征的光流图像系列,然后将得到的光流图像系列与原始灰度图像序列一起输入到C3D网络,由C3D进一步提取微表情在时域和空域上的特征.在开放数据集CASMEⅡ上进行了模拟实验,实验表明本文所提出的方法对微表情的识别准确率达到67.53%,优于现有方法.  相似文献   

10.
目的 人脸表情识别是计算机视觉的核心问题之一。一方面,表情的产生对应着面部肌肉的一个连续动态变化过程,另一方面,该运动过程中的表情峰值帧通常包含了能够识别该表情的完整信息。大部分已有的人脸表情识别算法要么基于表情视频序列,要么基于单幅表情峰值图像。为此,提出了一种融合时域和空域特征的深度神经网络来分析和理解视频序列中的表情信息,以提升表情识别的性能。方法 该网络包含两个特征提取模块,分别用于学习单幅表情峰值图像中的表情静态“空域特征”和视频序列中的表情动态“时域特征”。首先,提出了一种基于三元组的深度度量融合技术,通过在三元组损失函数中采用不同的阈值,从单幅表情峰值图像中学习得到多个不同的表情特征表示,并将它们组合在一起形成一个鲁棒的且更具辩识能力的表情“空域特征”;其次,为了有效利用人脸关键组件的先验知识,准确提取人脸表情在时域上的运动特征,提出了基于人脸关键点轨迹的卷积神经网络,通过分析视频序列中的面部关键点轨迹,学习得到表情的动态“时域特征”;最后,提出了一种微调融合策略,取得了最优的时域特征和空域特征融合效果。结果 该方法在3个基于视频序列的常用人脸表情数据集CK+(the e...  相似文献   

11.
基于多阶信息融合的行为识别方法研究   总被引:2,自引:0,他引:2  
双流卷积神经网络能够获取视频局部空间和时间特征的一阶统计信息,测试阶段将多个视频局部特征的分类器分数平均作为最终的预测.但是,一阶统计信息不能充分建模空间和时间特征分布,测试阶段也未考虑使用多个视频局部特征之间的更高阶统计信息.针对这两个问题,本文提出一种基于二阶聚合的视频多阶信息融合方法.首先,通过建立二阶双流模型得...  相似文献   

12.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

13.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

14.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

15.
周云  陈淑荣 《计算机应用》2020,40(8):2236-2240
针对传统卷积神经网络(CNN)对人体行为动作仅能提取局部特征易导致相似行为动作识别准确率不高的问题,提出了一种基于双流非局部残差网络(NL-ResNet)的行为识别方法。首先提取视频的RGB帧和密集光流图,分别作为空间流和时间流网络的输入,并通过角落裁剪和多尺度相结合的预处理方法进行数据增强;其次分别利用残差网络的残差块提取视频的局部表观特征和运动特征,再通过在残差块之后接入的非局部CNN模块提取视频的全局信息,实现网络局部特征和全局特征的交叉提取;最后将两个分支网络分别通过A-softmax损失函数进行更精细的分类,并输出加权融合后的识别结果。该方法能充分利用局部和全局特征提高模型的表征能力。在UCF101数据集上,NL-ResNet取得了93.5%的识别精度,与原始双流网络相比提高了5.5个百分点。实验结果表明,所提模型能更好地提取行为特征,有效提高行为识别的准确率。  相似文献   

16.
基于时空关注度LSTM的行为识别   总被引:1,自引:0,他引:1  
针对现有基于视频整体序列结构建模的行为识别方法中,存在着大量时空背景混杂信息,而引起的行为表达的判决能力低和行为类别错误判定的问题,提出一种基于双流特征的时空关注度长短时记忆网络模型.首先,本文定义了一种基于双流的时空关注度模块,其中,空间关注度用于抑制空间背景混杂,时间关注度用于抑制低信息量的视频帧.其次,本文为双流...  相似文献   

17.
井下配电室监控视频持续时间较长且行为类型复杂,传统双流卷积神经网络(CNN)法对此类行为识别效果较差.针对该问题,对双流CNN法进行改进,提出了一种基于改进双流法的井下配电室巡检行为识别方法.通过场景分析,将巡检行为分为站立检测、下蹲检测、走动、站立记录、坐下记录5种类型,并制作了巡检行为数据集IBDS5.将每个巡检行为视频等分为3个部分,分别对应巡检开始、巡检中和巡检结束;对3个部分视频分别随机采样,获取代表空间特征的RGB图像和代表运动特征的连续光流图像,并分别输入空间流网络和时间流网络进行特征提取;对2个网络的预测特征进行加权融合,获取巡检行为识别结果.实验结果表明,以Res Net152网络结构为基础,且权重比例为1∶2的空间流和时间流双流融合网络具有较高的识别准确度,Top-1准确度达到98.92%;本文方法在IBDS5数据集和公共数据集UCF101上的识别准确率均优于3D-CNN、传统双流CNN等现有方法.  相似文献   

18.
目的 为了提高视频中动作识别的准确度,提出基于动作切分和流形度量学习的视频动作识别算法。方法 首先利用基于人物肢体伸展程度分析的动作切分方法对视频中的动作进行切分,将动作识别的对象具体化;然后从动作片段中提取归一化之后的全局时域特征和空域特征、光流特征、帧内的局部旋度特征和散度特征,构造一种7×7的协方差矩阵描述子对提取出的多种特征进行融合;最后结合流形度量学习方法有监督式地寻找更优的距离度量算法提高动作的识别分类效果。结果 对Weizmann公共视频集的切分实验统计结果表明本文提出的视频切分方法具有很好的切分能力,能够作好动作识别前的预处理;在Weizmann公共视频数据集上进行了流形度量学习前后的识别效果对比,结果表明利用流形度量学习方法对动作识别效果提升2.8%;在Weizmann和KTH两个公共视频数据集上的平均识别率分别为95.6%和92.3%,与现有方法的比较表明,本文提出的动作识别方法有更好的识别效果。结论 多次实验结果表明本文算法在预处理过程中动作切分效果理想,描述动作所构造协方差矩阵对动作的表达有良好的多特征融合能力,而且光流信息和旋度、散度信息的加入使得人体各部位的运动方向信息具有了更多细节的描述,有效提高了协方差矩阵的描述能力,结合流形度量学习方法对动作识别的准确性有明显提高。  相似文献   

19.
吴克伟  高涛  谢昭  郭文斌 《软件学报》2022,33(5):1865-1879
针对现有基于视频整体时间结构建模的行为识别方法中,存在的时间噪声信息和歧义信息干扰现象,从而引起行为类别识别错误的问题,提出一种新型的Grenander推理优化下时间图模型(temporal graph model with Grenander inference, TGM-GI).首先,构建3D CNN-LSTM模块,其中3D CNN用于行为的动态特征提取, LSTM模块用于该特征的时间依赖关系优化.其次,在深度模块基础上,利用Grenander理论构建了行为识别的时间图模型,并设计了两个模块分别处理慢行为时间冗余和异常行为干扰问题,实现了时间噪声抑制下的时间结构提议.随后,设计融合特征约束和语义约束的Grenander测度,并提出一种时序增量形式的Viterbi算法,修正了行为时间模式中的歧义信息.最后,采用基于动态时间规划的模式匹配方法,完成了基于时间模式的行为识别任务.在UCF101和Olympic Sports两个公认数据集上,与现有多种基于深度学习的行为识别方法进行比较,该方法获得了最好的行为识别正确率.该方法优于基准的3D CNN-LSTM方法,在UCF101数据集上识别...  相似文献   

20.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号