首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
行为识别是计算机视觉领域很重要的一个研究问题,其在安全监控、机器人设计、无人驾驶和智能家庭设计等方面都有着非常重要的应用.基于传统RGB视频的行为识别方法由于容易受背景、光照等行为无关因素的影响,导致识别精度不高.廉价RGB-D摄像头出现之后,人们开始从一个新的途径解决行为识别问题.基于RGB-D摄像头的行为识别通过聚合RGB、深度和骨架三种模态的行为数据,可以融合不同模态的行为信息,从而可以克服传统RGB视频行为识别的缺陷,也因此成为近几年的一个研究热点.本文系统地综述了RGB-D行为识别领域的研究进展和展望.首先,对近年来RGB-D行为识别领域中常用的公共数据集进行简要的介绍;同时也系统地介绍了多模态RGB-D行为识别研究领域的典型模型和最新进展,其中包括卷积神经网络(Convolution neural network,CNN)和循环神经网络(Recurrent neural network,RNN)等深度学习技术在RGB-D行为识别的应用;最后,在三个公共RGB-D行为数据库上对现有方法的优缺点进行了比较和分析,并对未来的相关研究进行了展望.  相似文献   

2.
人体行为识别旨在对视频监控中的人体行为进行检索并识别,是人工智能领域的研究热点。基于传统方法的人体行为识别算法存在对样本数据依赖大、易受环境噪声影响等不足。为解决此问题,许多适用于不同应用场景的基于深度学习的人体行为识别算法被提出。介绍了人体行为识别任务中传统特征提取方法和基于深度学习的特征提取方法;从性能和应用两方面对基于深度学习的人体行为识别算法进行总结,重点分析了基于3D卷积神经网络、混合网络、双流卷积神经网络和少样本学习(few-shot learning,FSL)的人体行为识别方法及其在UCF101和HMDB51数据集上的表现;在深度学习的基础上,归纳了主流模型迁移方法的优缺点及其有效性;总结了现有基于深度学习的人体行为识别算法存在的不足,并讨论了以元学习(meta-learning)和transformer为代表的FSL算法将成为未来模型主流算法的可能性,同时对未来基于深度学习的人体行为识别算法的发展方向进行展望。  相似文献   

3.
视频动作识别是计算机视觉领域一个十分具有挑战性的课题,主要任务是利用深度学习等视频智能分析技术识别的深层信息推导出视频人体行为动作.通过结合双流卷积神经网络和三维卷积神经网络的结构特点,提出了一种面向时空特征融合的GSTIN(GoogLeNet based on spatio-temporal intergration network).GSTIN中设计了时空特征融合模块InBST(inception blend spatio-temporal feature),提升网络对空间特征与时间特征的利用能力;在时空特征融合模块InBST基础上,构建了适合动作识别的多流网络结构.GSTIN在动作识别数据集UCF101、HMDB51上识别精度分别达到了93.8%和70.6%,这表明GSTIN与其他动作识别网络相比具有较好的识别性能.  相似文献   

4.
近年来人体行为识别成为计算机视觉领域的一个研究热点,而卷积神经网络(Convolutional Neural Network,CNN)在图像分类和识别领域取得了重要突破,但是人体行为识别是基于视频分析的,视频包含空间域和时间域两部分的信息。针对基于视频的人体行为识别问题,提出一种改进的双流卷积神经网络(Two-Stream CNN)模型,对于空间域,将视频的单帧RGB图像作为输入,送入VGGNet_16模型;对于时间域,将多帧叠加后的光流图像作为输入,送入Flow_Net模型;最终将两个模型的Softmax输出加权融合作为输出结果,得到一个多模型融合的人体行为识别器。基于JHMDB公开数据库的实验,结果证明了改进的双流CNN在人体行为识别任务上的有效性。  相似文献   

5.
卷积神经网络结构优化综述   总被引:31,自引:7,他引:24  
近年来,卷积神经网络(Convolutional neural network,CNNs)在计算机视觉、自然语言处理、语音识别等领域取得了突飞猛进的发展,其强大的特征学习能力引起了国内外专家学者广泛关注.然而,由于深度卷积神经网络普遍规模庞大、计算度复杂,限制了其在实时要求高和资源受限环境下的应用.对卷积神经网络的结构进行优化以压缩并加速现有网络有助于深度学习在更大范围的推广应用,目前已成为深度学习社区的一个研究热点.本文整理了卷积神经网络结构优化技术的发展历史、研究现状以及典型方法,将这些工作归纳为网络剪枝与稀疏化、张量分解、知识迁移和精细模块设计4个方面并进行了较为全面的探讨.最后,本文对当前研究的热点与难点作了分析和总结,并对网络结构优化领域未来的发展方向和应用前景进行了展望.  相似文献   

6.
随着计算机视觉不断发展,人体行为识别在视频监控、视频检索和人机交互等诸多领域中展现出其广泛的应用前景和研究价值。人体行为识别涉及到对图像内容的理解,由于人体姿势复杂多样和背景遮挡的因素导致实际应用的进展缓慢。全面回顾了人体行为识别的发展历程,深入探究了该领域的研究方法,包括传统手工提取特征的方法和基于深度学习的方法,以及最近十分热门的基于图卷积网络(GCN)的方法,并按照所使用的数据类型对这些方法进行了系统的梳理;此外,针对不同的数据类型,分别介绍了一些热门的行为识别数据集,对比分析了各类方法在这些数据集上的性能。最后进行了概括总结,并对未来人体行为识别的研究方向进行了展望。  相似文献   

7.
目前深度学习模型不能较好地把监控视频中跌倒行为的空间和时序特征有效结合起来。为此,提出基于CNN(convolutional neural network)和LSTM(long-short term memory)混合模型的人体跌倒行为识别方法。该模型采用两层结构,将视频以每5帧为一组输入到网络中,CNN提取视频序列的空间特征,LSTM提取视频时间维度上的特征,最后使用softmax分类器进行识别。实验表明,该方法可以有效提高跌倒识别的准确率。  相似文献   

8.
人体行为识别作为计算机视觉领域的重要研究热点,在智能监控、智能家居、虚拟现实等诸多领域中具有重要的研究意义和广泛的应用前景,备受国内外学者的关注。基于传统手工特征的方法难以处理复杂场景下的人体行为识别。随着深度学习在图像分类方面取得巨大成功,将深度学习用于人体行为识别方法中已逐渐成为一种发展趋势,但其仍然存在一些困难与挑战。首先,根据特征提取方法的不同,简单回顾了早期基于传统手工特征的行为识别方法;然后,从网络结构的角度着重对近年来一些基于深度学习的人体行为识别方法进行论述和分析,其中包括目前常用的双流网络架构和三维卷积网络架构等;另外,还介绍了目前用于评价方法性能的人体行为识别数据集,同时总结了部分典型方法在UCF-101和HMDB51两个著名的公开数据集上的性能;最后,从性能和应用两个方面对基于深度学习的人体行为识别方法的未来发展方向进行了展望,并指出了当前方法存在的不足之处。  相似文献   

9.
侯建华  张国帅  项俊 《自动化学报》2020,46(12):2690-2700
近年来, 深度学习在计算机视觉领域的应用取得了突破性进展, 但基于深度学习的视频多目标跟踪(Multiple object tracking, MOT)研究却相对甚少, 而鲁棒的关联模型设计是基于检测的多目标跟踪方法的核心.本文提出一种基于深度神经网络和度量学习的关联模型:采用行人再识别(Person re-identification, Re-ID)领域中广泛使用的度量学习技术和卷积神经网络(Convolutional neural networks, CNNs)设计目标外观模型, 即利用三元组损失函数设计一个三通道卷积神经网络, 提取更具判别性的外观特征构建目标外观相似度; 再结合运动模型计算轨迹片间的关联概率.在关联策略上, 采用匈牙利算法, 首先以逐帧关联方式得到短小可靠的轨迹片集合, 再通过自适应时间滑动窗机制多级关联, 输出各目标最终轨迹.在2DMOT2015、MOT16公开数据集上的实验结果证明了所提方法的有效性, 与当前一些主流算法相比较, 本文方法取得了相当或者领先的跟踪效果.  相似文献   

10.
目的 视频中的人体行为识别技术对智能安防、人机协作和助老助残等领域的智能化起着积极的促进作用,具有广泛的应用前景。但是,现有的识别方法在人体行为时空特征的有效利用方面仍存在问题,识别准确率仍有待提高。为此,本文提出一种在空间域使用深度学习网络提取人体行为关键语义信息并在时间域串联分析从而准确识别视频中人体行为的方法。方法 根据视频图像内容,剔除人体行为重复及冗余信息,提取最能表达人体行为变化的关键帧。设计并构造深度学习网络,对图像语义信息进行分析,提取表达重要语义信息的图像关键语义区域,有效描述人体行为的空间信息。使用孪生神经网络计算视频帧间关键语义区域的相关性,将语义信息相似的区域串联为关键语义区域链,将关键语义区域链的深度学习特征计算并融合为表达视频中人体行为的特征,训练分类器实现人体行为识别。结果 使用具有挑战性的人体行为识别数据集UCF (University of Central Florida)50对本文方法进行验证,得到的人体行为识别准确率为94.3%,与现有方法相比有显著提高。有效性验证实验表明,本文提出的视频中关键语义区域计算和帧间关键语义区域相关性计算方法能够有效提高人体行为识别的准确率。结论 实验结果表明,本文提出的人体行为识别方法能够有效利用视频中人体行为的时空信息,显著提高人体行为识别准确率。  相似文献   

11.
人像智能分析指的是对视频或录像中的人像进行结构化和可视化分析,对目标人物进行性别、年龄、发型等特征的智能识别,这项技术在视频侦查中有极高的应用价值。人像识别早期的算法是通过人工提取特征,通过学习低级视觉特征来针对不同属性进行分类学习,这种基于传统方法的模型表现常常不尽如人意。在计算机视觉领域,通过海量图像数据学习的神经网络比传统方法有更丰富的信息量和特征可以被提取。文章尝试通过深度学习技术训练神经网络模型对行人进行检测和识别,对于衣着不同的行人进行智能识别,具有更好的鲁棒性,提升了视频人像识别的准确率,拓展了人工智能技术在身份识别领域的应用。  相似文献   

12.
周波  李俊峰 《自动化学报》2020,46(9):1961-1970
人体行为识别领域的研究方法大多数是从原始视频帧中提取相关特征, 这些方法或多或少地引入了多余的背景信息, 从而给神经网络带来了较大的噪声. 为了解决背景信息干扰、视频帧存在的大量冗余信息、样本分类不均衡及个别类分类难的问题, 本文提出一种新的结合目标检测的人体行为识别的算法. 首先, 在人体行为识别的过程中增加目标检测机制, 使神经网络有侧重地学习人体的动作信息; 其次, 对视频进行分段随机采样, 建立跨越整个视频段的长时时域建模; 最后, 通过改进的神经网络损失函数再进行行为识别. 本文方法在常见的人体行为识别数据集UCF101和HMDB51上进行了大量的实验分析, 人体行为识别的准确率(仅RGB图像)分别可达96.0%和75.3%, 明显高于当今主流人体行为识别算法.  相似文献   

13.
针对课堂教学场景遮挡严重、学生众多,以及目前的视频行为识别算法并不适用于课堂教学场景,且尚无学生课堂行为的公开数据集的问题,构建了课堂教学视频库以及学生课堂行为库,提出了基于深度时空残差卷积神经网络的课堂教学视频中实时多人学生课堂行为识别算法。首先,结合实时目标检测和跟踪,得到每个学生的实时图片流;接着,利用深度时空残差卷积神经网络对每个学生行为的时空特征进行学习,从而实现课堂教学场景中面向多学生目标的课堂行为的实时识别;此外,构建了智能教学评估模型,并设计实现了基于学生课堂行为识别的智能教学评估系统,助力教学质量的提升,以实现智慧教育。通过在课堂教学视频数据集上进行实验对比与分析,验证了提出的课堂教学视频中实时多人学生课堂行为识别模型能够达到88.5%的准确率,且所构建的基于课堂行为识别的智能教学评估系统在课堂教学视频数据集上也已取得较好的运行效果。  相似文献   

14.
基于骨骼信息的人体行为识别旨在从输入的包含一个或多个行为的骨骼序列中,正确地分析出行为的种类,是计算机视觉领域的研究热点之一。与基于图像的人体行为识别方法相比,基于骨骼信息的人体行为识别方法不受背景、人体外观等干扰因素的影响,具有更高的准确性、鲁棒性和计算效率。针对基于骨骼信息的人体行为识别方法的重要性和前沿性,对其进行全面和系统的总结分析具有十分重要的意义。本文首先回顾了9个广泛应用的骨骼行为识别数据集,按照数据收集视角的差异将它们分为单视角数据集和多视角数据集,并着重探讨了不同数据集的特点和用法。其次,根据算法所使用的基础网络,将基于骨骼信息的行为识别方法分为基于手工制作特征的方法、基于循环神经网络的方法、基于卷积神经网络的方法、基于图卷积网络的方法以及基于Transformer的方法,重点阐述分析了这些方法的原理及优缺点。其中,图卷积方法因其强大的空间关系捕捉能力而成为目前应用最为广泛的方法。采用了全新的归纳方法,对图卷积方法进行了全面综述,旨在为研究人员提供更多的思路和方法。最后,从8个方面总结现有方法存在的问题,并针对性地提出工作展望。  相似文献   

15.
为了梳理深度学习方法在人体动作识别领域的发展脉络,对该领域近年来最具代表性的模型和算法进行了综述。以人体动作识别任务流程为线索,详细阐述了深度学习方法在视频预处理阶段、网络结构上的最新成果及其优缺点。介绍了人体动作识别相关的两类数据集,并选取常用的几种进行具体说明。最后,对人体动作识别未来的研究方向进行了探讨与展望。  相似文献   

16.
人体动作识别是视频理解领域的重要课题之一,在视频监控、人机交互、运动分析、视频信息检索等方面有着广泛的应用。根据骨干网络的特点,从2D卷积神经网络、3D卷积神经网络、时空分解网络三个角度介绍了动作识别领域的最新研究成果,并对三类方法的优缺点进行了定性的分析和比较。然后,从场景相关和时间相关两方面,全面归纳了常用的动作视频数据集,并着重探讨了不同数据集的特点及用法。随后,介绍了动作识别任务中常见的预训练策略,并着重分析了预训练技术对动作识别模型性能的影响。最后,从最新的研究动态出发,从细粒度动作识别、更精简的模型、小样本学习、无监督学习、自适应网络和视频超分辨动作识别六个角度一致探讨了动作识别未来发展的方向。  相似文献   

17.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

18.
人体动作识别是计算机视觉领域的核心研究方向之一,在很多场合都有应用。深 度卷积神经网络在静态图像识别方面已取得了巨大成功,并逐渐扩展到视频内容识别领域,但 应用依然面临很大挑战。为此提出一种基于 ResNeXt 深度神经网络模型用于视频中的人体动作 识别,主要包括:①使用新型 ResNeXt 网络结构代替原有的各种卷积神经网络结构,并使用 RGB 和光流 2 种模态的数据,使模型可充分地利用视频中动作外观及时序信息;②将端到端的 视频时间分割策略应用于 ResNeXt 网络模型,同时将视频分为 K 段实现对视频序列的长范围时 间结构进行建模,并通过测试得到最优视频分段值 K,使模型能更好地区分存在子动作共享现 象的相似动作,解决某些由于子动作相似而易发生的误判问题。通过在动作识别数据集 UCF101 和 HMDB51 上进行的测试表明,该模型和方法的动作识别准确率性能优于目前文献中的一些模 型和方法的性能。  相似文献   

19.
针对现有基于深度学习的人体动作识别模型参数量大、网络过深过重等问题,提出了一种轻量型的双流融合深度神经网络模型并将该模型应用于人体动作识别。该模型将浅层多尺度网络和深度网络相结合,实现了模型参数量的大幅减少,避免了网络过深的问题。在数据集UCF101和HMDB51上进行实验,该模型在ImageNet预训练模式下分别取得了94.0%和69.4%的识别准确率。实验表明,相较于现有大多基于深度学习的人体动作识别模型,该模型大幅减少了参数量,并且仍具有较高的动作识别准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号