首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文针对人体行为识别模型中鉴别能力有限的问题,同时避免双流中计算光流的较大时间成本,提出基于通道注意力机制和三维卷积时空注意力模型的行为识别方法。首先,该卷积网络模型使用ResNeXt残差模块,利用三维卷积核有效地提取视频帧时空特征。然后,在此基础上给每个残差模块增加通道注意力机制学习不同特征图的权重,进而形成基于通道域的注意力权重,增强网络结构对人体行为的表征能力。最后,在UCF-101和HMDB-51数据集上,通过交叉熵损失函数训练不同网络深度的行为分类模型。实验结果表明,该模型可以有效提取视频中的时空特征,并在人体行为识别任务中有着较高效率和优秀的准确度。  相似文献   

2.
《现代电子技术》2019,(19):37-40
为了更好地获取视频中连续帧之间的时间信息,提出一种新颖的双流卷积网络结构用于视频的人体行为识别。该网络在不改变双流卷积中空间流结构的情况下,在时间流的卷积模型中加入长短时记忆(LSTM)网络,并且时间流的训练相较于以往的双流卷积架构采用端对端的训练方式。同时在新的网络结构上尝试使用组合误差函数来获得更好的光流信息。在KTH和UCF101两个通用人体行为视频数据集上进行实验,实验结果证明,提出的使用组合误差函数结合LSTM的双流卷积与普通的双流卷积、使用以往误差函数结合LSTM的双流卷积相比,识别率有明显的提高。  相似文献   

3.
韩强  吴帆  蒋剑飞 《信息技术》2021,(4):1-5,10
高效视频编码(HEVC)作为最新视频编码标准,有着非常高的压缩效率,但是由于各种新技术的提出,其编码复杂度也大大提高。复杂度对视频编码有着重要意义,低复杂度编码的研究非常必要。利用神经网络进行HEVC的分区预测为低复杂度编码提供了有效的解决方案。文中提出了一种基于卷积神经网络(CNN)和长短期记忆网络(LSTM)的组合网络架构来对帧间分区进行预测的方法,利用自建数据库对网络进行训练;文中设计了一种预搜索模块来建立训练数据库,仿真结果表明,神经网络的精度可达87%,利用该网络架构进行帧间预测可以实现52%~71%的复杂度节省。  相似文献   

4.
三维卷积神经网络比二维卷积神经网络具有更优越的时空特征提取能力,但运算量却显著增加。针对如何有效减少模型参数量、解决准确率随着计算复杂度降低而降低的问题,提出基于端到端的通道可分离卷积神经网络。通过分离通道交互作用和时空交互作用来分解三维卷积,其中分别利用3×3×3 Depthwise卷积和1×1×1常规卷积进行分离通道交互作用和时空交互作用。与传统三维卷积神经网络相比,通道可分离卷积神经网络加入模型正则化,通过降低训练精度同时提高测试精度,降低了模型的过度拟合。在UCF-101和HMDB-51数据集上的实验分别达到92.7%和64.5%的准确率。结果表明,通道可分离卷积神经网络可以提高准确率并降低计算复杂度。   相似文献   

5.
针对大部分行为识别算法效率较低,难以应对大规模影像识别任务的问题,一方面,提出一种结合双流结构与多纤维网络的双流多纤维网络模型,分别以RGB序列、光流序列为输入提取视频的时空信息,然后将两条支路网络的识别结果进行决策相加,提高了对战场目标聚集行为的检测效率与识别准确率;另一方面,提出一种结合分离卷积思想与多纤维网络的双流分离卷积多纤维网络模型,进一步提高网络检测效率与抗过拟合能力。实验表明,在建立的情报影像仿真数据集中,上述算法能够有效识别出战场目标聚集行为,在大幅提升检测效率同时实现了识别准确率的提升。  相似文献   

6.
人类行为识别作为视频分类中的重要问题,成为计算机视觉中的热门话题.由于卷积神经网络(CNN)的几何结构固定统一,这将会使得其几何变形建模受限,使得行为识别网络难以鲁棒性的识别行为类别.本文提出了一种融入可形变卷积的行为识别网络模型.首先,引入可形变卷积,构建了一种可协同学习空间外观和时间运动线索的模块,该模块分别学习视频数据3个正交视图特征进行融合;其次,在ResNet网络的基础上,用该模块将其网络中部分关键性卷积模块进行替换,产生一种新颖的改进版本的3D-ResNet网络,用于视频数据集的训练和测试;最后,在UCF101和HMDB51数据集训练和测试,得到识别精度优于现有的大多数先进方法.  相似文献   

7.
张昱彤  翟旭平  聂宏 《红外技术》2022,44(3):286-293
近年来动作识别成为计算机视觉领域的研究热点,不同于针对视频图像进行的研究,本文针对低分辨率红外传感器采集到的温度数据,提出了一种基于此类红外传感器的双流卷积神经网络动作识别方法.空间和时间数据分别以原始温度值的形式同时输入改进的双流卷积神经网络中,最终将空间流网络和时间流网络的概率矢量进行加权融合,得到最终的动作类别....  相似文献   

8.
该文受人脑视觉感知机理启发,在深度学习框架下提出融合时空双网络流和视觉注意的行为识别方法。首先,采用由粗到细Lucas-Kanade估计法逐帧提取视频中人体运动的光流特征。然后,利用预训练模型微调的GoogLeNet神经网络分别逐层卷积并聚合给定时间窗口视频中外观图像和相应光流特征。接着,利用长短时记忆多层递归网络交叉感知即得含高层显著结构的时空流语义特征序列;解码时间窗口内互相依赖的隐状态;输出空间流视觉特征描述和视频窗口中每帧标签概率分布。其次,利用相对熵计算时间维每帧注意力置信度,并融合空间网络流感知序列标签概率分布。最后,利用softmax分类视频中行为类别。实验结果表明,与其他现有方法相比,该文行为识别方法在分类准确度上具有显著优势。  相似文献   

9.
目前在计算机视觉领域,视频行为识别技术已经取得了一定的发展,但仍有一定改进的空间。为解决当下行为识别领域的识别精度问题,提出一种融合CNN与时空分离ViT的网络模型,来提高行为分类识别的准确率。该模型主要将传统ViT模型的编码器结构演变为时间编码器和空间编码器,将时间和空间编码器串联提取视频特征后与CNN卷积所提取的特征进行融合来提高识别效果。实验的结果表明,融合CNN与时空分离ViT的网络模型在识别效果上具有一定的优越性,为人体行为识别算法设计提供了新思路。  相似文献   

10.
吴鹏  林国强  郭玉荣  赵振兵 《信号处理》2019,35(10):1747-1752
通道剪枝是深度模型压缩的主要方法之一。针对密集连接卷积神经网络中,每一层都接收其前部所有卷积层的输出特征图作为输入,但并非每个后部层都需要所有先前层的特征,网络中存在很大冗余的缺点。本文提出一种自学习剪枝密集连接网络中冗余通道的方法,得到稀疏密集连接卷积神经网络。首先,提出了一种衡量每个卷积层中每个输入特征图对输出特征图贡献度大小的方法,贡献度小的输入特征图即为冗余特征图;其次,介绍了通过自学习,网络分阶段剪枝冗余通道的训练过程,得到了稀疏密集连接卷积神经网络,该网络剪枝了密集连接网络中的冗余通道,减少了网络参数,降低了存储和计算量;最后,为了验证本文方法的有效性,在图像分类数据集CIFAR-10/100上进行了实验,在不牺牲准确率的前提下减小了模型冗余。   相似文献   

11.
当前行为识别方法在不同视角下的识别准确率较低,该文提出一种视角无关的时空关联深度视频行为识别方法。首先,运用深度卷积神经网络的全连接层将不同视角下的人体姿态映射到与视角无关的高维空间,以构建空间域下深度行为视频的人体姿态模型(HPM);其次,考虑视频序列帧之间的时空相关性,在每个神经元激活的时间序列中分段应用时间等级池化(RP)函数,实现对视频时间子序列的编码;然后,将傅里叶时间金字塔(FTP)算法作用于每一个池化后的时间序列,并加以连接产生最终的时空特征表示;最后,在不同数据集上,基于不同方法进行了行为识别分类测试。实验结果表明,该文方法(HPM+RP+FTP)提高了不同视角下深度视频识别准确率,在UWA3DII数据集中,比现有最好方法高出18%。此外,该文方法具有较好的泛化性能,在MSR Daily Activity3D数据集上得到82.5%的准确率。  相似文献   

12.
朱继洪  裴继红  赵阳 《信号处理》2019,35(4):640-648
本文提出了一种基于样本图像局部模式聚类的卷积核初始化方法,该方法可用于卷积神经网络(Convolutional neural network, CNN)训练中卷积核的初始化。在卷积神经网络中,卷积核的主要作用可看成是利用匹配滤波提取图像中的局部模式,并将其作为后续图像目标识别的特征。为此本文在图像训练集中选取一部分典型的样本图像,在这些图像中抽取与卷积核相同大小的子图作为图像局部模式矢量集合。首先对局部模式子图集合应用拓扑特性进行粗分类,然后对粗分类后的每一子类采用势函数聚类的方法获取样本图像中的典型局部模式子图,构成候选子图模式集,用它们作为CNN的初始卷积核进行训练。实验结果表明,本文方法可以明显加速CNN网络训练初期的收敛速度,同时对最终训练后的网络识别精度也有一定程度的提高。   相似文献   

13.
手语识别涉及计算机视觉、模式识别、人机交互等领域,具有重要的研究意义与应用价值。深度学习技术的蓬勃发展为更加精准、实时的手语识别带来了新的机遇。该文综述了近年来基于深度学习的手语识别技术,从孤立词与连续语句两个分支展开详细的算法阐述与分析。孤立词识别技术划分为基于卷积神经网络(CNN)、3维卷积神经网络(3D-CNN)和循环神经网络(RNN) 3种架构的方法;连续语句识别所用模型复杂度更高,通常需要辅助某种长时时序建模算法,按其主体结构分为双向长短时记忆网络模型、3维卷积网络模型和混合模型。归纳总结了目前国内外常用手语数据集,探讨了手语识别技术的研究挑战与发展趋势,高精度前提下的鲁棒性和实用化仍有待于推进。  相似文献   

14.
为了更好地对人体动作的长时时域信息进行建模,提出了一种结合时序动态图和双流卷积网络的人体行为识别算法.首先,利用双向顺序池化算法来构建时序动态图,实现视频从三维空间到二维空间的映射,用来提取动作的表观和长时时序信息;然后提出了基于inceptionV3的双流卷积网络,包含表观及长时运动流和短时运动流,分别以时序动态图和...  相似文献   

15.
全英华 《移动信息》2020,(1):00042-00044,47
人们一直在探索精确快速识别混凝土墙、瓷砖等建筑材料的裂缝检测方法。基于此,提出一种基于改进卷积神经网络模型(CNN)和完全卷积神经网络模型(FCN)的裂缝识别算法。首先,通过改进的CNN模型定位裂缝区域,排除非裂缝区的斑点、阴影、水渍、涂鸦等干扰因素;然后,通过FCN模型对CNN结果进行再处理,得到精确的裂缝定位图;最后采用统计函数提取裂缝的长度、宽度等特征。结果表明,此算法的检测精度高,耗时短,能有效识别混凝土和瓷砖图像上的裂缝。  相似文献   

16.
针对深度卷积神经网络难以部署到资源受限的端侧设备这一问题,本文提出一种高效精简的轻量化卷积神经网络Mobile_BLNet,在模型规模、计算量和性能之间取得了良好的平衡.该网络引入深度可分离卷积和倒残差结构,通过合理分配不同分支的运算量缩减模型规模并节省大量计算资源;采用通道剪枝操作压缩网络模型,基于占总和比值方法裁剪对模型贡献度低的卷积通道,在相同压缩效果情况下提升了分类准确率;基于通道裁剪情况重构网络,进一步降低模型所需计算资源.实验结果表明,Mobile_BLNet结构精简、性能优异,在CIFAR-10/CIFAR-100数据集上以0.1 M/0.3 M参数量、9.6 M/12.7 M浮点计算量获得91.2%/71.5%分类准确率;在Food101/ImageNet数据集上以1.0 M/2.1 M参数量、203.0 M/249.6 M浮点计算量获得82.8%/70.9%分类准确率,满足轻量化卷积神经网络的端侧硬件高能效部署需求.  相似文献   

17.
自动调制方式识别技术在通信领域有着不可或缺的作用,针对传统的卷积神经网络在信号分类问题中特征提取能力不足的问题,本文研究了一种利用多维度特征的端到端双流膨胀卷积神经网络来对调制信号进行分类的方法。该方法不仅利用原始采样信号,还利用输入信号的瞬时幅度和相位信息;原始IQ(In-phase and Quadrature, IQ)数据输入进神经网络后,网络首先通过内置的数据预处理模块对输入的IQ信号进行预处理,提取原始信号的幅度和相位信息,再将原始IQ信号和幅度相位两种特征信息分别通过两个并行的卷积神经网络结构分别进行特征提取;本文所设计的双流卷积神经网络模型中的膨胀残差网络分支利用卷积核的膨胀卷积特性,将膨胀卷积与残差网络结构相结合,在网络参数不变的情况下使得卷积核具有更大的感受野,同时也能够更好地结合上下文信息,另一个网络分支是将卷积神经网络与长短期记忆神经网络相串联,然后将两个并行卷积神经网络的输出特征向量进行矩阵相乘达到两种特征信息融合的目的。整个识别过程是基于端到端的,数据预处理模块内嵌到神经网络内部,由神经网络完成对数据的预处理,只需将原始的IQ数据直接送入神经网络即可;仿真实验...  相似文献   

18.
陈莹  龚苏明 《电子与信息学报》2021,43(12):3538-3545
针对现有通道注意力机制对各通道信息直接全局平均池化而忽略其局部空间信息的问题,该文结合人体行为识别研究提出了两种改进通道注意力模块,即矩阵操作的时空(ST)交互模块和深度可分离卷积(DS)模块。ST模块通过卷积和维度转换操作提取各通道时空加权信息数列,经卷积得到各通道的注意权重;DS模块首先利用深度可分离卷积获取各通道局部空间信息,然后压缩通道尺寸使其具有全局的感受野,接着通过卷积操作得到各通道注意权重,进而完成通道注意力机制下的特征重标定。将改进后的注意力模块插入基础网络并在常见的人体行为识别数据集UCF101和HDBM51上进行实验分析,实现了准确率的提升。  相似文献   

19.
针对如何利用视频中空域C3D与光流2D网络的互补性、光流高效计算与存储问题,提出基于端到端时空双流卷积网络融合的视频分类算法(TV BN-Inception network and ResNeXt-101 TVBN-ResNeXt),可融合C3D与自学习端到端光流卷积网络的优点。针对空间流,首先基于C3D 的ResNeXt-101残差网络进行空域视频分类;然后另一支路使用端到端时间流网络,由TVnet网络实时进行光流学习,其次针对堆叠光流特征数据利用BN-Inception网络进行视频分类;最后将双流支路的视频分类结果进行加权融合形成最后判决。在UCF-101和HMDB-51数据集上的实验分别达到94.6%和70.4%的准确率。结果表明,本文提出的TVBN-ResNeXt双流互补网络融合方法不但可解决光流自学习问题,提高网络的运行效率,还可有效提高视频分类的性能   相似文献   

20.
针对现有无线射频信号的手势识别研究中的数据预处理和特征利用问题,该文提出一种用于调频连续波(FMCW)雷达的时空压缩特征表示学习的手势识别算法。首先对手部反射的毫米波雷达回波信号的距离-多普勒(RD)图进行静态干扰去除和动目标点筛选,减少杂波对手势信号的干扰,同时减少计算数据量;然后提出一种压缩手势时空特征的表示方法,利用动目标点的主导速度来表示手势的运动特征,实现多维特征的压缩映射,并保留手势运动的关键特征信息;最后设计了一个单通道的卷积神经网络(CNN)来学习和分类多维手势特征信息并应用于多用户和多位置的手势识别。实验结果表明,与现有其他手势识别算法相比,该文提出的手势识别方法在识别精度、实时性以及泛化能力上都具有明显的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号