首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对现有的人体行为识别算法不能充分利用网络多层次时空信息的问题,提出了一种基于三维残差稠密网络的人体行为识别算法。首先,所提算法使用三维残差稠密块作为网络的基础模块,模块通过稠密连接的卷积层提取人体行为的层级特征;其次,经过局部特征聚合自适应方法来学习人体行为的局部稠密特征;然后,应用残差连接模块来促进特征信息流动以及减轻训练的难度;最后,通过级联多个三维残差稠密块实现网络多层局部特征提取,并使用全局特征聚合自适应方法学习所有网络层的特征用以实现人体行为识别。设计的网络算法在结构上增强了对网络多层次时空特征的提取,充分利用局部和全局特征聚合学习到更具辨识力的特征,增强了模型的表达能力。在基准数据集KTH和UCF-101上的大量实验结果表明,所提算法的识别率(top-1精度)分别达到了93.52%和57.35%,与三维卷积神经网络(C3D)算法相比分别提升了3.93和13.91个百分点。所提算法框架有较好的鲁棒性和迁移学习能力,能够有效地处理多种视频行为识别任务。  相似文献   

2.
针对原始C3D卷积神经网络的层数较少、参数量较大和难以关注关键帧而导致的人体行为识别准确率较低的问题,提出一种基于改进型C3D的注意力残差网络模型;首先,增加原始网络卷积层并采用卷积核合并与拆分操作实现(3×1×7)和(3×7×1)的非对称式卷积核,之后采用全预激活式残差网络结构来增加构建的非对称卷积层,并且在残差块中增加时空通道注意力模块;最后,为展示该算法的先进性和应用性,则将该算法与原始C3D网络以及其他流行算法分别在基准数据集HMDB51和自建的43类别体育运动数据集上相比较;实验结果表明,该算法与原始C3D网络相比,在HMDB51和43类体育运动数据集上分别提高了9.88%和21.61%,参数量比原来降低了38.68%,并且结果也优于其他流行算法。  相似文献   

3.
针对LSTM网络无法充分提取短时信息导致人体行为识别率不高的问题,提出一种基于上下文特征融合的卷积长短时记忆网络联合优化架构,用于仅具有RGB数据的行为识别网络。使用3D卷积核对输入的动作序列提取其空间特征和短时时间特征,并将多通道信息进行融合,将融合后的特征送入下一级卷积神经网络和LSTM层中进行长期时间的特征学习,获取上下文的长期时空信息,最后用Softmax分类器进行人体行为的分类。实验结果表明,在人体行为识别公开数据集UCF-101上,提出的基于上下文特征融合的卷积长短时记忆网络的平均识别准确率达93.62%,相比于未进行特征融合的卷积长短时记忆网络提高了1.28%,且平均检测时间降低了37.1%。  相似文献   

4.
在视频理解任务中,人体行为识别是一个重要的研究内容,但视频序列中存在时空信息融合困难、准确率低等问题。针对这些问题,提出一种基于时空信息融合的双流时空残差卷积网络模型。将视频分段采样提取RGB图像和光流图像,并将其输入到双流时空残差网络,通过设计的时空残差模块提取视频的深度时空特征,将每个视频片段的类别结果加权融合得到行为类别。提出的双流时空残差模块引入了少量的三维卷积和混合注意力机制,能够同时获取不同尺度的时空信息并且抑制无效信息,可以有效平衡时空信息的捕捉和计算量问题,并且提升了精度。实验基于TSN网络模型,在UCF101数据集上进行验证,实验结果表明提出的模型比原TSN网络模型的精准度提高了0.9个百分点,有效地提高了网络的时空信息捕获效率。  相似文献   

5.
倪苒岩  张轶 《计算机应用》2023,43(2):521-528
针对双流网络提取运动信息需要预先计算光流图,从而无法实现端到端的识别以及三维卷积网络参数量巨大的问题,提出了一种基于视频时空特征的行为识别方法。该方法能够高效提取视频中的时空信息,且无需添加任何光流计算和三维卷积操作。首先,利用基于注意力机制的运动信息提取模块捕获相邻两帧之间的运动位移信息,从而模拟双流网络中光流图的作用;其次,提出了一种解耦的时空信息提取模块代替三维卷积,从而实现时空信息的编码;最后,在将两个模块嵌入二维的残差网络中后,完成端到端的行为识别。将所提方法在几个主流的行为识别数据集上进行实验,结果表明在仅使用RGB视频帧作为输入的情况下,在UCF101、HMDB51、Something-Something-V1数据集上的识别准确率分别为96.5%、73.1%和46.6%,与使用双流结构的时间分段网络(TSN)方法相比,在UCF101数据集上的识别准确率提高了2.5个百分点。可见,所提方法能够高效提取视频中的时空特征。  相似文献   

6.
针对基于深度学习的动态手势识别方法网络规模庞大、提取的时空特征尺度单一、有效特征的提取能力不足等问题,提出了一种深度网络框架。首先,使用时域多尺度信息融合的时空卷积模块改进3D残差网络结构,大幅度缩小网络规模,获得多种尺度的时空感受野特征;其次,引入一种全局信息同步的时空特征通道注意力机制,使用极少量参数构建特征图通道之间的全局依赖关系,使模型更加高效地获取动态手势的关键特征。在自建手势数据集SHC和公开手势数据集SKIG上的实验结果显示,提出的手势识别方法参数量更少且多尺度时空特征提取能力强,识别率高于目前的主流算法。  相似文献   

7.
针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1%和66.1%的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高.  相似文献   

8.
针对传统3D卷积神经网络(CNN)对医学和自然场景视频中的动作识别存在输入片段帧数少、正向推理速度慢、网络层数浅、参数量和计算量大的问题,基于2D深度卷积和1D卷积设计了局部时空深度分离卷积模块(LSDW)和时序卷积模块(TCM),进而提出了轻量级局部多片段网络MLNet.首先,MLNet的输入是视频中的多个局部片段,这些片段通过间隔采样得到;其次,将输入中的多个局部片段通过LSDW提取相应的时空特征;最后,通过TCM对LSDW输出特征在时序维度进行融合,得到视频动作的全局表示.实验结果表明,利用该方法在公开数据集UCF101和HX上测试,其识别精度分别达到了76%和94.23%,与时序3D卷积网络方法(T3D)相比,识别率分别至少提升了4.89和4.6个百分点,在拥有低的参数量和计算量的同时提高了识别精度和网络的正向推理速度.  相似文献   

9.
针对现有深度学习医学图像超分辨率重建算法因网络参数量大导致计算复杂度过高、网络难以训练的问题,提出一种采用伪3D卷积的轻量级密集残差连接3D卷积神经网络(P3DSRNet)模型.首先利用密集残差块拓宽残差块中卷积层的通道,将更多的特征信息传送到激活函数,使网络中浅层图像特征更容易地传播到高层,增强医学图像超分辨率的表达...  相似文献   

10.
3D点云的不规则性与无序性使点云的分类仍具有挑战性.针对上述问题,文中设计基于残差边卷积的3D点云分类算法,可直接从点云学习到具有区分度的形状描述子,用于目标分类.首先,设计具有残差学习的边卷积模块,用于点云的特征提取.通过K近邻算法,该边卷积模块在输入点云上构建局部图,使用卷积及最大池化进行局部特征的提取与聚合.然后,通过多层感知器从原始点特征中提取全局特征,并以残差学习的方式与局部特征结合.最后,以该卷积块为基本单元,构建深度神经卷积网络,实现3D点云的分类.文中方法较全面地考虑点云局部特征与全局特征的有机结合,网络具有更深层次的结构,最终得到的形状描述子更抽象,具有更高的区分度.在具有挑战性的ModelNet40、ScanObjectNN数据集上的实验证实文中方法的分类性能较优.  相似文献   

11.
卷积神经网络(CNNs)具有出色的局部上下文建模能力,被广泛用于高光谱图像分类中,但由于其固有网络主干的局限性,CNNs未能很好地挖掘和表示光谱特征的序列属性。为了解决此问题,提出了一种基于Swin Transformer和三维残差多层融合网络的新型网络(ReSTrans)用于高光谱图像分类。在ReSTrans网络中,为了尽可能地挖掘高光谱图像的深层特征,采用三维残差多层融合网络来提取空谱特征,然后由基于自注意机制的Swin Transformer网络模块近一步捕获连续光谱间的关系,最后由多层感知机根据空谱联合特征完成最终的分类任务。为了验证ReSTrans网络模型的有效性,改进的模型在IP,UP和KSC 3个高光谱数据集上进行实验验证,分类精度分别达到了98.65%,99.64%,99.78%。与SST方法相比,该网络模型的分类性能分别平均提高了3.55%,0.68%,1.87%。实验结果表明该模型具有很好的泛化能力,可以提取更深层的、判别性的特征。  相似文献   

12.
为解决现有传统环境声音识别技术识别率不高和普通卷积神经网络易出现网络退化的问题,提出一种基于滤波器组和残差网络的环境声音识别算法。采用滤波器组对声音信号进行特征提取,设计14层的残差网络,使用学习率衰减策略,将提取的特征输入到14层残差网络之中训练并测试。实验结果表明,在使用相同数据集ESC-10的情况下,与传统分类器模型和DCASE基线系统提供的识别方法相比,识别准确率分别提高了22.3%、17.4%和9.5%,验证了该方法在小样本情况下具有更高的识别准确率。  相似文献   

13.
由于从单一行为模态中获取的特征难以准确地表达复杂的人体动作,本文提出基于多模态特征学习的人体行为识别算法.首先采用两条通道分别提取行为视频的RGB特征和3D骨骼特征,第1条通道C3DP-LA网络由两部分组成:(1)包含时空金字塔池化(Spatial Temporal Pyramid Pooling,STPP)的改进3D CNN;(2)基于时空注意力机制的LSTM,第2条通道为时空图卷积网络(ST-GCN),然后,本文将提取到的两种特征融合使其优势互补,最后用Softmax分类器对融合特征进行分类,并在公开数据集UCF101和NTU RGB+D上验证.实验表明,本文提出的方法与现有行为识别算法相比具有较高的识别准确度.  相似文献   

14.
在6D物体姿态估计领域中, 现有算法往往难以实现对目标物体精准且鲁棒的姿态估计. 为解决该问题, 提出了一种结合残差注意力、混合空洞卷积和标准差信息的物体6D姿态细化网络. 首先, 在Gen6D图片特征提取网络中, 采用混合空洞卷积模块替换传统卷积模块, 以此扩大感受野、加强全局特征捕获能力. 接着, 在3D卷积神经网络中, 加入残差注意力模块, 这有助于区分特征通道的重要程度, 进而在提取关键特征的同时, 减少浅层特征的丢失. 最后, 在平均距离损失函数中, 引入了标准差信息, 从而使模型能够区分物体的更多姿态信息. 实验结果显示, 所提出的网络在LINEMOD数据集和GenMOP数据集上的ADD指标分别达到了68.79%和56.03%. 与Gen6D网络相比, ADD指标分别提升了1.78个百分点和5.64个百分点, 这一结果验证了所提出的网络能够显著提升6D姿态估计的准确性.  相似文献   

15.
传统人体动作识别算法无法充分利用视频中人体动作的时空信息,且识别准确率较低。提出一种新的三维密集卷积网络人体动作识别方法。将双流网络作为基本框架,在空间网络中运用添加注意力机制的三维密集网络提取视频中动作的表观信息特征,结合时间网络对连续视频序列运动光流的运动信息进行特征提取,经过时空特征和分类层的融合后得到最终的动作识别结果。同时为更准确地提取特征并对时空网络之间的相互作用进行建模,在双流网络之间加入跨流连接对时空网络进行卷积层的特征融合。在UCF101和HMDB51数据集上的实验结果表明,该模型识别准确率分别为94.52%和69.64%,能够充分利用视频中的时空信息,并提取运动的关键信息。  相似文献   

16.
针对在视频行为检测中卷积神经网络(CNN)对时域信息理解能力不足的问题,提出了一种融合非局部神经网络的行为检测模型.模型采用一种双分支的CNN结构,分别提取视频的空间特征和运动特征.将视频单帧和视频连续帧序列作为网络输入,空间网络对视频当前帧进行2D CNN特征提取,时空网络采用融合非局部模块的3D CNN来捕获视频帧...  相似文献   

17.
目的 随着3D扫描技术和虚拟现实技术的发展,真实物体的3D识别方法已经成为研究的热点之一。针对现有基于深度学习的方法训练时间长,识别效果不理想等问题,提出了一种结合感知器残差网络和超限学习机(ELM)的3D物体识别方法。方法 以超限学习机的框架为基础,使用多层感知器残差网络学习3D物体的多视角投影特征,并利用提取的特征数据和已知的标签数据同时训练了ELM分类层、K最近邻(KNN)分类层和支持向量机(SVM)分类层识别3D物体。网络使用增加了多层感知器的卷积层替代传统的卷积层。卷积网络由改进的残差单元组成,包含多个卷积核个数恒定的并行残差通道,用于拟合不同数学形式的残差项函数。网络中半数卷积核参数和感知器参数以高斯分布随机产生,其余通过训练寻优得到。结果 提出的方法在普林斯顿3D模型数据集上达到了94.18%的准确率,在2D的NORB数据集上达到了97.46%的准确率。该算法在两个国际标准数据集中均取得了当前最好的效果。同时,使用超限学习机框架使得本文算法的训练时间比基于深度学习的方法减少了3个数量级。结论 本文提出了一种使用多视角图识别3D物体的方法,实验表明该方法比现有的ELM方法和深度学习等最新方法的识别率更高,抗干扰性更强,并且其调节参数少,收敛速度快。  相似文献   

18.
针对现有的动态手势识别方法对长时间序列的时空特征难以精确匹配的问题,提出了一种基于宽残差和双向长短时记忆网络的时空特征一致手势识别方法。首先使用已经训练好的3D卷积神经网络从视频的空间和时间维度同步提取出短时特征,再经双向空间长短时记忆网络同步解析后形成长时空特征连接单元,并作为残差网络的输入。为了验证算法的有效性,使用Kinect传感器构建了一个全新的多模式手势数据集,在三个手势识别公开数据集SLVM、Montalbano和SKIG上的实验表明,提出的方法有很好的性能表现,识别精度超越了目前已公开的最佳识别率。  相似文献   

19.
周云  陈淑荣 《计算机应用》2020,40(8):2236-2240
针对传统卷积神经网络(CNN)对人体行为动作仅能提取局部特征易导致相似行为动作识别准确率不高的问题,提出了一种基于双流非局部残差网络(NL-ResNet)的行为识别方法。首先提取视频的RGB帧和密集光流图,分别作为空间流和时间流网络的输入,并通过角落裁剪和多尺度相结合的预处理方法进行数据增强;其次分别利用残差网络的残差块提取视频的局部表观特征和运动特征,再通过在残差块之后接入的非局部CNN模块提取视频的全局信息,实现网络局部特征和全局特征的交叉提取;最后将两个分支网络分别通过A-softmax损失函数进行更精细的分类,并输出加权融合后的识别结果。该方法能充分利用局部和全局特征提高模型的表征能力。在UCF101数据集上,NL-ResNet取得了93.5%的识别精度,与原始双流网络相比提高了5.5个百分点。实验结果表明,所提模型能更好地提取行为特征,有效提高行为识别的准确率。  相似文献   

20.
面向三维模型视图特征提取的残差卷积网络优化   总被引:1,自引:0,他引:1  
在已有残差卷积神经网络基础上,采用加权损失函数提高视图特征的可分性,提出面向三维模型视图特征提取的残差卷积网络优化算法.首先对三维模型进行多视图渲染得到二维视图;然后通过残差网络扩展模块加深网络深度;最后采用中心损失函数和交叉熵损失函数定义加权损失函数,解决交叉熵损失函数因为类内距离小于类间距离而导致的特征不可分问题.在ModelNet数据集上的实验结果表明,该算法提取到的特征在三维模型分类问题上性能表现优异.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号