首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 468 毫秒
1.
针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1%和66.1%的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高.  相似文献   

2.
针对传统3D卷积神经网络(CNN)对医学和自然场景视频中的动作识别存在输入片段帧数少、正向推理速度慢、网络层数浅、参数量和计算量大的问题,基于2D深度卷积和1D卷积设计了局部时空深度分离卷积模块(LSDW)和时序卷积模块(TCM),进而提出了轻量级局部多片段网络MLNet.首先,MLNet的输入是视频中的多个局部片段,这些片段通过间隔采样得到;其次,将输入中的多个局部片段通过LSDW提取相应的时空特征;最后,通过TCM对LSDW输出特征在时序维度进行融合,得到视频动作的全局表示.实验结果表明,利用该方法在公开数据集UCF101和HX上测试,其识别精度分别达到了76%和94.23%,与时序3D卷积网络方法(T3D)相比,识别率分别至少提升了4.89和4.6个百分点,在拥有低的参数量和计算量的同时提高了识别精度和网络的正向推理速度.  相似文献   

3.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

4.
为了提高人与机器人的语音交互能力,提出一个基于视频特征与音频特征融合的动作三元组分类的神经网络框架,其本质是从音视频中提取高度概括动作的指令组。该框架包含三个模块,分别是视频特征提取网络模块、音频特征提取网络模块、特征融合模块。视频特征提取网络模块使用I3D网络结构提取视频特征;音频特征提取网络模块使用卷积神经网络以及双向长短期记忆网络提取音频特征;特征融合模块将视频特征和音频特征进行融合并输出动作三元组的分类。通过在制作的动作音视频数据集上的实验证明,所提出的音视频特征融合网络能达到74.92%的准确率,且具有较强的鲁棒性。  相似文献   

5.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

6.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

7.
针对常规的卷积神经网络时空感受野尺度单一,难以提取视频中多变的时空信息的问题,利用(2+1)D模型将时间信息和空间信息在一定程度上解耦的特性,提出了(2+1)D多时空信息融合的卷积残差神经网络,并用于人体行为识别.该模型以3×3空间感受野为主,1×1空间感受野为辅,与3种不同时域感受野交叉组合构建了6种不同尺度的时空感受野.提出的多时空感受野融合模型能够同时获取不同尺度的时空信息,提取更丰富的人体行为特征,因此能够更有效识别不同时间周期、不同动作幅度的人体行为.另外提出了一种视频时序扩充方法,该方法能够同时在空间信息和时间序列扩充视频数据集,丰富训练样本.提出的方法在公共视频人体行为数据集UCF101和HMDB51上子视频的识别率超过或接近最新的视频行为识别方法.  相似文献   

8.
韩斌  曾松伟 《计算机科学》2021,48(z1):113-117
植物叶片识别是植物自动分类识别研究的重要分支和热点,利用卷积神经网络进行图像分类研究已成为主流.为了提高植物叶片识别准确率,提出了基于多特征融合和卷积神经网络的植物叶片图像识别方法.首先对植物叶片图像进行预处理,提取LBP特征和Gabor特征,将多特征相加融合输入网络进行训练,使用卷积神经网络(AlexNet)构架作为分类器,利用全连接层对植物叶片进行识别.为了避免过拟合现象,使用"dropout"方法训练卷积神经网络,通过调节学习率、dropout值、迭代次数优化模型.实验结果表明,基于多特征融合的卷积神经网络植物叶片识别方法对Flavia数据库32种叶片和MEW2014数据库189种叶片识别分类效果较好,平均正确识别率分别为93.25%和96.37%,相比一般的卷积神经网络识别方法,该方法可以提高植物叶片的识别准确率,鲁棒性更强.  相似文献   

9.
在视频动作识别任务中,无论是在视频的空间维度还是时序维度,如何充分学习和利用特征之间相关性,对最终识别性能的影响非常大。卷积操作通过计算邻域内特征点之间的相关性获得局部特征,而自注意力机制通过所有特征点之间的信息交互学习到全局信息。单个卷积层不具备在全局视角上学习特征相关性的能力,即使是重复堆叠多层也只是获得了若干个更大的感受野。自注意力层虽然具有全局视角,但其关注的核心仅是不同特征点所表达的内容联系,忽略了局部的位置特性。为了解决以上问题,提出了一种时空卷积注意力网络用于动作识别。时空卷积注意力网络由空间卷积注意力网络和时序卷积注意力网络共同组成。空间卷积注意力网络使用自注意力方法捕捉空间维度的表观特征联系,用一维卷积提取动态信息。时序卷积注意力网络通过自注意力方法来获取时序维度上帧级特征间的关联信息,用2D卷积学习空间特征。时空卷积注意力网络集成两种网络的共同测试结果来提升模型识别性能。在HMDB51数据集上进行实验,以ResNet50为基线,引入时空卷积注意力模块后,神经网络的识别准确率在空间流和时序流上分别提升了6.25和5.13个百分点。与当前先进方法进行比较,时空卷积注意力...  相似文献   

10.
鲁棒的视频行为识别由于其复杂性成为了一项极具挑战的任务. 如何有效提取鲁棒的时空特征成为解决问题的关键. 在本文中, 提出使用双向长短时记忆单元(Bi--LSTM)作为主要框架去捕获视频序列的双向时空特征. 首先, 为了增强特征表达, 使用多层的卷积神经网络特征代替传统的手工特征. 多层卷积特征融合了低层形状信息和高层语义信息, 能够捕获丰富的空间信息. 然后, 将提取到的卷积特征输入Bi--LSTM, Bi--LSTM包含两个不同方向的LSTM层. 前向层从前向后捕获视频演变, 后向层反方向建模视频演变. 最后两个方向的演变表达融合到Softmax中, 得到最后的分类结果. 在UCF101和HMDB51数据集上的实验结果显示本文的方法在行为识别上可以取得较好的性能.  相似文献   

11.
人体动作识别是视频理解领域的重要课题之一,在视频监控、人机交互、运动分析、视频信息检索等方面有着广泛的应用。根据骨干网络的特点,从2D卷积神经网络、3D卷积神经网络、时空分解网络三个角度介绍了动作识别领域的最新研究成果,并对三类方法的优缺点进行了定性的分析和比较。然后,从场景相关和时间相关两方面,全面归纳了常用的动作视频数据集,并着重探讨了不同数据集的特点及用法。随后,介绍了动作识别任务中常见的预训练策略,并着重分析了预训练技术对动作识别模型性能的影响。最后,从最新的研究动态出发,从细粒度动作识别、更精简的模型、小样本学习、无监督学习、自适应网络和视频超分辨动作识别六个角度一致探讨了动作识别未来发展的方向。  相似文献   

12.
目的 为了进一步提高智能监控场景下行为识别的准确率和时间效率,提出了一种基于YOLO(you only look once:unified,real-time object detection)并结合LSTM(long short-term memory)和CNN(convolutional neural network)的人体行为识别算法LC-YOLO(LSTM and CNN based on YOLO)。方法 利用YOLO目标检测的实时性,首先对监控视频中的特定行为进行即时检测,获取目标大小、位置等信息后进行深度特征提取;然后,去除图像中无关区域的噪声数据;最后,结合LSTM建模处理时间序列,对监控视频中的行为动作序列做出最终的行为判别。结果 在公开行为识别数据集KTH和MSR中的实验表明,各行为平均识别率达到了96.6%,平均识别速度达到215 ms,本文方法在智能监控的行为识别上具有较好效果。结论 提出了一种行为识别算法,实验结果表明算法有效提高了行为识别的实时性和准确率,在实时性要求较高和场景复杂的智能监控中有较好的适应性和广泛的应用前景。  相似文献   

13.
行为识别是当前计算机视觉方向中视频理解领域的重要研究课题。从视频中准确提取人体动作的特征并识别动作,能为医疗、安防等领域提供重要的信息,是一个十分具有前景的方向。本文从数据驱动的角度出发,全面介绍了行为识别技术的研究发展,对具有代表性的行为识别方法或模型进行了系统阐述。行为识别的数据分为RGB模态数据、深度模态数据、骨骼模态数据以及融合模态数据。首先介绍了行为识别的主要过程和人类行为识别领域不同数据模态的公开数据集;然后根据数据模态分类,回顾了RGB模态、深度模态和骨骼模态下基于传统手工特征和深度学习的行为识别方法,以及多模态融合分类下RGB模态与深度模态融合的方法和其他模态融合的方法。传统手工特征法包括基于时空体积和时空兴趣点的方法(RGB模态)、基于运动变化和外观的方法(深度模态)以及基于骨骼特征的方法(骨骼模态)等;深度学习方法主要涉及卷积网络、图卷积网络和混合网络,重点介绍了其改进点、特点以及模型的创新点。基于不同模态的数据集分类进行不同行为识别技术的对比分析。通过类别内部和类别之间两个角度对比分析后,得出不同模态的优缺点与适用场景、手工特征法与深度学习法的区别和融合多模态的优势。最后,总结了行为识别技术当前面临的问题和挑战,并基于数据模态的角度提出了未来可行的研究方向和研究重点。  相似文献   

14.
针对现有人体动作识别方法需输入固定长度的视频段、未充分利用时空信息等问题,提出一种基于时空金字塔和注意力机制相结合的深度神经网络模型,将包含时空金字塔的3D-CNN和添加时空注意力机制的LSTM模型相结合,实现了对视频段的多尺度处理和对动作的复杂时空信息的充分利用。以RGB图像和光流场作为空域和时域的输入,以融合金字塔池化层的运动和外观特征后的融合特征作为融合域的输入,最后采用决策融合策略获得最终动作识别结果。在UCF101和HMDB51数据集上进行实验,分别取得了94.2%和70.5%的识别准确率。实验结果表明,改进的网络模型在基于视频的人体动作识别任务上获得了较高的识别准确率。  相似文献   

15.
对于在深度神经网络的中间层分支进行深度融合,产生潜在可以共享有用信息的基础网络,从而优化信息流动,提升深度神经网络的性能,是近期的深度神经网络研究的挑战。对此提出一种基于注意力卷积模块的深度神经网络的图像识别方法。改进的模块主要分为树干分支与软分支两部分,在树干分支上,由两组残差模块组成,使该模块适用于其他深度神经网络;在软分支上,将给定的中间特征图沿着两个维度(空间与通道)获取注意力特征图,对输入中间特征图进行调整,强化有用信息抑制无用信息。改进的卷积残差模块既能解决输入与输出的尺寸不一致的问题,也能强化图像的关键信息与有效促进网络的信息流动。通过对cifar-10、cifar-100、ck+、AVEC2017数据集进行实验,实验结果表明了提出的方法应用于ResNet-50网络上对比Hu提出的方法在训练耗时相差不到0.3%的情况下,识别图像准确率有0.9%~1.2%的提高。  相似文献   

16.
夏鼎  王亚立  乔宇 《集成技术》2021,10(5):23-33
现有人体行为识别算法主要依赖于粗粒度的视频特征,但这些特征不足以有效描述人体行为 的动作构成,从而降低了深度学习模型对易混淆行为的识别能力。该研究提出了一种基于人体部件的 视频行为识别方法,通过学习人体细粒度部件的动作表示,自底向上地学习人体行为视频表征。该方 法主要包含:(1)部件特征增强模块,用于增强基于图像的人体部件特征;(2)部件特征融合模块,用 于融合人体各部件特征以形成人体特征;(3)人体特征增强模块,用于增强视频帧中所有人的人体特 征。该方法在国际标准数据库 UCF101 和 HMDB51 上进行的实验验证结果显示,基于人体部件的视频 行为识别方法与已有方法具有良好的互补性,可以有效提高人体行为识别精度。  相似文献   

17.
目的 在行为识别任务中,妥善利用时空建模与通道之间的相关性对于捕获丰富的动作信息至关重要。尽管图卷积网络在基于骨架信息的行为识别方面取得了稳步进展,但以往的注意力机制应用于图卷积网络时,其分类效果并未获得明显提升。基于兼顾时空交互与通道依赖关系的重要性,提出了多维特征嵌合注意力机制(multi-dimensional feature fusion attention mechanism,M2FA)。方法 不同于现今广泛应用的行为识别框架研究理念,如卷积块注意力模块(convolutional block attention module,CBAM)、双流自适应图卷积网络(two-stream adaptive graph convolutional network,2s-AGCN)等,M2FA通过嵌入在注意力机制框架中的特征融合模块显式地获取综合依赖信息。对于给定的特征图,M2FA沿着空间、时间和通道维度使用全局平均池化操作推断相应维度的特征描述符。特征图使用多维特征描述符的融合结果进行过滤学习以达到细化自适应特征的目的,并通过压缩全局动态信息的全局特征分支与仅使用逐点卷积层的局部特征分支相互嵌合获取多尺度动态信息。结果 实验在骨架行为识别数据集NTU-RGBD和Kinetics-Skeleton中进行,分析了M2FA与其基线方法2s-AGCN及最新提出的图卷积模型之间的识别准确率对比结果。在Kinetics-Skeleton验证集中,相比于基线方法2s-AGCN,M2FA分类准确率提高了1.8%;在NTU-RGBD的两个不同基准分支中,M2FA的分类准确率比基线方法2s-AGCN分别提高了1.6%和1.0%。同时,消融实验验证了多维特征嵌合机制的有效性。实验结果表明,提出的M2FA改善了图卷积骨架行为识别方法的分类效果。结论 通过与基线方法2s-AGCN及目前主流图卷积模型比较,多维特征嵌合注意力机制获得了最高的识别精度,可以集成至基于骨架信息的体系结构中进行端到端的训练,使分类结果更加准确。  相似文献   

18.
二维卷积难以对视频数据进行有效的时间信息建模。针对这个问题,提出了一个高效的基于二维卷积的时间建模网络。该网络只需要RGB图像作为输入,避免了复杂的光流计算,在低计算复杂度的前提下,可以在行为识别任务中达到先进的准确性。网络主要由两个部分组成,即运动特征增强模块和时序聚集模块。具体来说,运动特征增强模块主要实现短期时序建模,它利用当前帧与相邻帧的差异信息对当前帧中的运动信息进行自适应性的增强,让网络能够了解图像中的哪一部分将要产生运动。时序聚集模块实现长期的时序建模,主要应用于网络的后期,通过二维卷积对时序上的信息进行信息聚合,让每一帧图像经过网络提取特征后,都能够结合时序上所有帧序列的信息。在三个常见的视频动作识别数据集(UCF101、HMDB51和Something-Something V1)上进行的大量实验表明,与大多数现有方法相比,所提出的时序建模网络可以获得先进的识别性能。  相似文献   

19.
卷积神经网络因其对图像识别准确率高而在图像检索领域备受青睐,但处理大规模数据集时,基于卷积神经网络提取的深度特征维度高,容易引发"维度灾难".针对图像检索中深度特征维度高的问题,提出一种基于自适应融合网络特征提取与哈希特征降维的图像检索算法.由于传统哈希处理高维特征复杂度高,因此本文在卷积神经网络中加入自适应融合模块对特征进行重新整合,增强特征表征能力的同时降低特征维度;然后应用稀疏化优化算法对深度特征进行第2次降维,并通过映射获得精简的哈希码;最后,实验以Inception网络作为基础模型,在数据集CIFAR-10和ImageNet上进行了丰富的实验.实验结果表明,该算法能有效提高图像检索效率.  相似文献   

20.
目的 脑卒中发病征兆不明显,发病速度快且致死率高,目前医学领域的主要诊疗手段仍是针对脑卒中病时和病后,但在病前预测方面缺少有效办法。中医对于治未病等效果显著,其中望诊更是中医诊疗的重要方式。本文结合中医望诊,基于面部与手部图像提出了一种多分支深度特征融合的中医脑卒中辅助诊断方法。方法 针对不同部位图像,分别构建两部位的双分支特征提取模块,将面部和手部的重点区域作为主体分支提取主要特征。根据中医望诊在面部与手部诊疗的特点,进一步将眉心的纹理特征和掌心的颜色特征作为辅助信息提取辅助特征;在此基础上提出信息交互模块(information interaction module,IIM),将主要特征与辅助特征进行有效信息交互,从而辅助主体分支提取更有区别性的信息;最终将两部位的特征进行融合降维用于脑卒中辅助诊断。结果 本文将采集的3 011例面部和手部图像数据进行筛查扩充后作为实验数据集,并在不同评价指标下与当前主流的分类模型进行对比。实验结果表明,本文方法在准确性上达到了83.36%,相比ResNet-34、DenseNet121、VGG16(Visual Geometry Group 16-layer net)和InceptionV3等其他主流分类模型性能提高了3%~7%;在特异性和敏感性方面分别为82.47%和85.10%,其效果优于对比方法。结论 本文方法能够有效结合中医望诊的诊疗经验并通过传统面部和手部图像实现对脑卒中的有效预测,为中医望诊在脑卒中方面的客观化和便捷化发展提供了帮助。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号