首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 109 毫秒
1.
目前在计算机视觉领域,视频行为识别技术已经取得了一定的发展,但仍有一定改进的空间。为解决当下行为识别领域的识别精度问题,提出一种融合CNN与时空分离ViT的网络模型,来提高行为分类识别的准确率。该模型主要将传统ViT模型的编码器结构演变为时间编码器和空间编码器,将时间和空间编码器串联提取视频特征后与CNN卷积所提取的特征进行融合来提高识别效果。实验的结果表明,融合CNN与时空分离ViT的网络模型在识别效果上具有一定的优越性,为人体行为识别算法设计提供了新思路。  相似文献   

2.
3维卷积神经网络(3D CNN)与双流卷积神经网络(two-stream CNN)是视频中人体行为识别研究的常用架构,且各有优势。该文旨在研究结合两种架构且复杂度低、识别精度高的人体行为识别模型。具体地,该文提出基于通道剪枝的双流-非局部时空残差卷积神经网络(TPNLST-ResCNN),该网络采用双流架构,分别在时间流子网络和空间流子网络采用时空残差卷积神经网络(ST-ResCNN),并采用均值融合算法融合两个子网络的识别结果。进一步地,为了降低网络的复杂度,该文提出了针对时空残差卷积神经网络的通道剪枝方案,在实现模型压缩的同时,可基本保持模型的识别精度;为了使得压缩后网络能更好地学习到输入视频中人体行为变化的长距离时空依赖关系,提高网络的识别精度,该文提出在剪枝后网络的首个残差型时空卷积块前引入一个非局部模块。实验结果表明,该文提出的人体行为识别模型在公共数据集UCF101和HMDB51上的识别准确率分别为98.33%和74.63%。与现有方法相比,该文模型具有参数量小、识别精度高的优点。  相似文献   

3.
在动作识别任务中,如何充分学习和利用视频的空间特征和时序特征的相关性,对最终识别结果尤为重要。针对传统动作识别方法忽略时空特征相关性及细小特征,导致识别精度下降的问题,本文提出了一种基于卷积门控循环单元(convolutional GRU, ConvGRU)和注意力特征融合(attentional feature fusion,AFF) 的人体动作识别方法。首先,使用Xception网络获取视频帧的空间特征提取网络,并引入时空激励(spatial-temporal excitation,STE) 模块和通道激励(channel excitation,CE) 模块,获取空间特征的同时加强时序动作的建模能力。此外,将传统的长短时记忆网络(long short term memory, LSTM)网络替换为ConvGRU网络,在提取时序特征的同时,利用卷积进一步挖掘视频帧的空间特征。最后,对输出分类器进行改进,引入基于改进的多尺度通道注意力的特征融合(MCAM-AFF)模块,加强对细小特征的识别能力,提升模型的准确率。实验结果表明:在UCF101数据集和HMDB51数据集上分别达到了95.66%和69.82%的识别准确率。该算法获取了更加完整的时空特征,与当前主流模型相比更具优越性。  相似文献   

4.
人类行为识别作为视频分类中的重要问题,成为计算机视觉中的热门话题.由于卷积神经网络(CNN)的几何结构固定统一,这将会使得其几何变形建模受限,使得行为识别网络难以鲁棒性的识别行为类别.本文提出了一种融入可形变卷积的行为识别网络模型.首先,引入可形变卷积,构建了一种可协同学习空间外观和时间运动线索的模块,该模块分别学习视频数据3个正交视图特征进行融合;其次,在ResNet网络的基础上,用该模块将其网络中部分关键性卷积模块进行替换,产生一种新颖的改进版本的3D-ResNet网络,用于视频数据集的训练和测试;最后,在UCF101和HMDB51数据集训练和测试,得到识别精度优于现有的大多数先进方法.  相似文献   

5.
3D多支路聚合轻量网络视频行为识别算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为构建拥有2D神经网络速度同时保持3D神经网络性能的视频行为识别模型,提出3D多支路聚合轻量网络行为识别算法.首先,利用分组卷积将神经网络分割成多个支路;其次,为促进支路间信息流动,加入具有信息聚合功能的多路复用模块;最后,引入自适应注意力机制,对通道与时空信息进行重定向.实验表明,本算法在UCF101数据集上的计算成本为11.5GFlops,准确率为96.2%;在HMDB51数据集上的计算成本为11.5GFlops,准确率为74.7%.与其他行为识别算法相比,提高了视频识别网络的效率,体现出一定识别速度和准确率优势.  相似文献   

6.
针对目前多数的行为识别算法都是视频分类和时序定位的问题.通过对双流网络结构进行改进,构建出一种3D单阶段的时空定位双流网络,实现对视频中人的行为进行分类,同时可以实时地对人在视频中位置进行准确定位.为了验证效果的有效性,通过使用Kinect2.0摄像头采集训练的视频数据集,并使用不同的网络进行对比,最终得出基于改进的双...  相似文献   

7.
裴晓敏  范慧杰  唐延东 《红外与激光工程》2018,47(2):203007-0203007(6)
基于自然场景图像的人体行为识别方法中遮挡、背景干扰、光照不均匀等因素影响识别结果,利用人体三维骨架序列的行为识别方法可以克服上述缺点。首先,考虑人体行为的时空特性,提出一种时空特征融合深度学习网络人体骨架行为识别方法;其次,根据骨架几何特征建立视角不变性特征表示,CNN(Convolutional Neural Network)网络学习骨架的局部空域特征,作用于空域的LSTM(Long Short Term Memory)网络学习骨架空域节点之间的相关性特征,作用于时域的LSTM网络学习骨架序列时空关联性特征;最后,利用NTU RGB+D数据库验证文中算法。实验结果表明:算法识别精度有所提高,对于多视角骨架具有较强的鲁棒性。  相似文献   

8.
基于3D视频的人体动作识别近年来受到越来越广泛的关注。基于动态时间规整的算法考虑了动作的时序信息,并能较好地解决人体运动在时间上的不确定性,但是随着训练样本增加,效率会变得较低。本文提出了一种基于动作标准序列的动作识别方法。通过特征提取将3D动作视频样本构建为动作序列,在动态时间规整度量下将动作标准序列学习建模成一个序列平均的优化问题,并使用动态时间规整重心平均算法(DBA)求解。对于动作类别类中存在显著差异的场景,研究了多重动作标准序列学习,并针对无监督学习的情况,提出了DBA-K-means聚类算法。实验结果表明,该方法可进一步提高动作识别的效率和准确率。  相似文献   

9.
在基于视频图像的动作识别中,由于固定视角相机所获取的不同动作视频存在视角差异,会造成识别准确率降低等问题。使用多视角视频图像是提高识别准确率的方法之一,提出基于三维残差网络(3D Residual Network,3D ResNet)和长短时记忆(Long Short-term Memory,LSTM)网络的多视角人体动作识别算法,通过3D ResNet学习各视角动作序列的融合时空特征,利用多层LSTM网络继续学习视频流中的长期活动序列表示并深度挖掘视频帧序列之间的时序信息。在NTU RGB+D 120数据集上的实验结果表明,该模型对多视角视频序列动作识别的准确率可达83.2%。  相似文献   

10.
胡正平  邱悦  翟丰鋆  赵梦瑶  毕帅 《信号处理》2021,37(8):1470-1478
视频行为识别算法在特征提取过程中,存在未聚焦视频图像显著区域信息的问题,使模型分类效果不理想。为了提高网络区别关注的能力,提出融入注意力机制的视频多尺度时序行为识别算法模型。在视频长-短时序网络中分别融入通道-空间注意力和通道注意力模块,引入注意力机制使网络在训练过程中重新分配权重,捕捉视频内容与位置兴趣点,提高网络的表达能力。在Something-somethingV1和Jester数据集上的实验结果表明,融入轻量注意力模块的视频多尺度时序融合行为识别网络的性能得到有效提升,与其他行为识别网络相比体现出一定的优势。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号