首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 139 毫秒
1.
3维卷积神经网络(3D CNN)与双流卷积神经网络(two-stream CNN)是视频中人体行为识别研究的常用架构,且各有优势。该文旨在研究结合两种架构且复杂度低、识别精度高的人体行为识别模型。具体地,该文提出基于通道剪枝的双流-非局部时空残差卷积神经网络(TPNLST-ResCNN),该网络采用双流架构,分别在时间流子网络和空间流子网络采用时空残差卷积神经网络(ST-ResCNN),并采用均值融合算法融合两个子网络的识别结果。进一步地,为了降低网络的复杂度,该文提出了针对时空残差卷积神经网络的通道剪枝方案,在实现模型压缩的同时,可基本保持模型的识别精度;为了使得压缩后网络能更好地学习到输入视频中人体行为变化的长距离时空依赖关系,提高网络的识别精度,该文提出在剪枝后网络的首个残差型时空卷积块前引入一个非局部模块。实验结果表明,该文提出的人体行为识别模型在公共数据集UCF101和HMDB51上的识别准确率分别为98.33%和74.63%。与现有方法相比,该文模型具有参数量小、识别精度高的优点。  相似文献   

2.
视频异常行为检测是目前计算机视觉领域的热点问题之一.然而,由于异常行为难以具体定义,使得基于监督学习的二类分类方法难以应用在该领域.本文提出了一种无监督的视频异常检测模型,称之为基于时空特征融合的3D自编码器模型(ST-3DCAE).模型采用PWCNet提取场景光流特征图,并与原视频帧融合作为基本单元,由多个基本单元组成连续基本单元作为模型的输入;利用3DConv和ConvLSTM模块进行时空特征的自主提取,3DSEblock模块进行重要特征的筛选;最终,通过输入数据和自编码器重建视频块之间的重建误差,来判断视频是否出现异常行为.通过在UCSD、Avenue等公开数据集上进行验证,实验结果的定性和定量分析证明了本方法具有较好的性能.  相似文献   

3.
裴晓敏  范慧杰  唐延东 《红外与激光工程》2020,49(5):20190552-20190552-6
提出一种基于多通道时空融合网络的双人交互行为识别方法,对双人骨架序列行为进行识别。首先,采用视角不变性特征提取方法提取双人骨架特征,然后,设计两层级联的时空融合网络模型,第一层基于一维卷积神经网络(1DCNN)和双向长短时记忆网络(BiLSTM)学习空间特征,第二层基于长短时记忆网络(LSTM)学习时间特征,得到双人骨架的时空融合特征。最后,采用多通道时空融合网络分别学习多组双人骨架特征得到多通道融合特征,利用融合特征识别交互行为,各通道之间权值共享。将文中算法应用于NTU-RGBD人体交互行为骨架库,双人交叉对象实验准确率可达96.42%,交叉视角实验准确率可达97.46%。文中方法与该领域的典型方法相比,在双人交互行为识别中表现出更好的性能。  相似文献   

4.
针对地铁站特定场合下,人体异常行为识别无法有效利用帧间运动时间维度信息,导致人体异常行为识别准确率不高的问题,提出一种深层次残差长短期双流网络结构。将RGB帧和连续光流帧作为双流网络的输入,分别利用ResNet34提取低层特征信息,空间流网络提取运动外观特征信息,时间流网络提取光流运动信息,然后将特征信息输入长短期记忆(LSTM)网络,有效学习空间外观和光流运动的帧间关联时间信息,并且通过多种加权融合策略加强模型识别效果。最后在地铁站异常行为数据集上验证提出的网络结构,并与原双流网络进行对比,改进后的网络识别准确率提高了4.7%,融合后的模型准确率提高了12.9%。实验结果表明,所提方法能够充分利用时间维度信息,可有效提高异常行为识别准确率,在昏暗环境下仍有较好的识别效果。  相似文献   

5.
可调谐二极管激光吸收光谱层析成像(TDLAT)是一种重要的光学非侵入式燃烧诊断技术,可实现燃烧场2维横截面气体温度和浓度等流场参数分布的重建。该文将视觉Transformer(ViT)与多尺度特征融合引入TDLAT领域,研究有限数量测量数据与整个测量空间温度分布的非线性映射,提出基于级联ViT与多尺度特征融合的燃烧场温度层析成像网络(HVTMFnet)。该网络提取并融合TDLAT测量数据的局部-全局相关特征,实现整个测量空间的层次化温度分布重建。仿真实验与实际TDLAT系统实验均表明,HVTMFnet重建图像的质量优于现有的基于卷积神经网络(CNN)和基于残差网络的温度层析成像方案。与基于CNN的温度层析成像方案相比,HVTMFnet的重建误差能够降低49.2%~72.1%。  相似文献   

6.
为高效提取视频时空特征以提高视频预测准确性,提出了注意力时空解耦3D卷积LSTM算法.首先,将卷积LSTM内部单元的传统2D卷积运算改为3D卷积,额外提取视频帧间短期空间运动信息;并借助注意力机制自动捕捉视频帧间长期动态信息的相关性.其次,由于卷积LSTM网络中特征信息在所有层的Z型传递方式会导致梯度消失,为此在网络结构中加入层间高速通道优化不同层间LSTM单元视频信息流的传递过程.同时,时间特征和空间特征在网络中会彼此干扰学习冗余功能,造成特征信息的低效获取以及网络预测质量的降低,为此在损失函数中加入时空解耦运算分离时间特征和空间特征的学习.最后,针对训练编码阶段和预测解码阶段的数据输入过程,提出数据输入重采样,在模型训练和预测阶段使用相近相反的数据输入策略减少编码器和解码器的差异.在合成数据集以及人体动作数据库上的实验结果表明,该算法模型在时空特征提取上有更好的性能.  相似文献   

7.
刘杰  王月  田明 《电子与信息学报》2023,45(7):2614-2622
由于动态手势数据具有时间复杂性以及空间复杂性,传统的机器学习算法难以提取准确的手势特征;现有的动态手势识别算法网络设计复杂、参数量大、手势特征提取不充分。为解决以上问题,该文提出一种基于卷积视觉自注意力模型(CvT)的多尺度时空特征融合网络。首先,将图片分类领域的CvT网络引入动态手势分类领域,用于提取单张手势图片的空间特征,将不同空间尺度的浅层特征与深层特征融合。其次,设计一种多时间尺度聚合模块,提取动态手势的时空特征,将CvT网络与多时间尺度聚合模块结合,抑制无效特征。最后为了弥补CvT网络中dropout层的不足,将R-Drop模型应用于多尺度时空特征融合网络。在Jester数据集上进行实验验证,与多种基于深度学习的动态手势识别方法进行对比,实验结果表明,该文方法在识别率上优于现有动态手势识别方法,在动态手势数据集Jester上识别率达到92.26%。  相似文献   

8.
行为识别是计算机视觉领域的一个重要研究方向,已被广泛应用于视频监控、人群分析、人机交互、虚拟现实等领域.而时空建模是视频行为识别的一个重要部分,有效地进行时空建模可以极大地提高行为识别的精度.现有的先进算法采用3D CNN学习强大的时空表示,但在计算上是复杂的,这也使得相关部署昂贵;此外,改进的具有时间迁移操作的2D CNN算法也被用来进行时空建模,这种算法通过沿时间维度移动一部分特征通道用以进行高效的时序建模.然而,时间迁移操作不允许自适应地重新加权时空特征.以前的工作没有考虑将这两种方法结合利用起来,取长补短,以便更好地建模时空特征.本文提出了一个协作网络用以有效地结合3D CNN和2D卷积形式的时间迁移模块.特别是一个新的嵌入注意力机制的协同时空模块(Collaborative Spatial-temporal module,CSTM)被提出用以有效的学习时空特征.本文在与时序相关的数据集(Something-Something v1,v2,Jester)上验证了该算法的有效性,并且获得了竞争性的性能.  相似文献   

9.
王军  鹿姝  李云伟 《信号处理》2020,36(9):1429-1439
连续手语识别的难点之一是手语数据中存在时空维度的冗余信息,以及手语数据与给定标签序列的对齐问题。因此,本文提出一种融合注意力机制和连接时序分类的连续手语识别模型,可以提取手语数据中彩色和深度视频片段的短期时空特征以及手部运动轨迹特征,将三种模态的特征融合后使用空间注意力加权并按照时间顺序输入到双向长短期记忆网络中进行时序建模,以获取长期时空特征,最后利用融合注意力机制和连接时序分类模型的解码网络以端到端的方式实现连续手语的准确识别。本模型在自行采集的中国手语数据集上进行测试,得到了高达0.935的准确率。   相似文献   

10.
当采用高分辨雷达对空间微动目标进行观测时,往往能同时获得其窄带、宽带回波。为充分利用其中蕴含的丰富电磁散射、形状、结构及运动信息,该文提出基于稀疏自编码器(SAE)的空间微动目标特征级融合识别方法。在训练阶段,首先采用卷积神经网络(CNN)分别提取训练集中微动目标回波的1维高分辨距离像(HRRP)、时频图(JTF)及距离-瞬时多普勒像(RID)层级特征。随后,将提取的3个深层特征进行1维拼接形成联合特征向量,并采用SAE自动学习联合特征向量的隐层特征。进而剔除SAE解码部分并在编码器后接入Softmax分类器构成识别网络。最后,利用SAE网络参数对识别网络进行初始化,并利用上述联合特征向量对其进行微调得到训练好的识别网络。在测试阶段,将CNN所提测试集的联合特征向量直接输入训练好的识别网络以得到融合识别结果。不同条件下的电磁仿真数据识别结果证明了所提方法的有效性及稳健性。  相似文献   

11.
在动作识别任务中,如何充分学习和利用视频的空间特征和时序特征的相关性,对最终识别结果尤为重要。针对传统动作识别方法忽略时空特征相关性及细小特征,导致识别精度下降的问题,本文提出了一种基于卷积门控循环单元(convolutional GRU, ConvGRU)和注意力特征融合(attentional feature fusion,AFF) 的人体动作识别方法。首先,使用Xception网络获取视频帧的空间特征提取网络,并引入时空激励(spatial-temporal excitation,STE) 模块和通道激励(channel excitation,CE) 模块,获取空间特征的同时加强时序动作的建模能力。此外,将传统的长短时记忆网络(long short term memory, LSTM)网络替换为ConvGRU网络,在提取时序特征的同时,利用卷积进一步挖掘视频帧的空间特征。最后,对输出分类器进行改进,引入基于改进的多尺度通道注意力的特征融合(MCAM-AFF)模块,加强对细小特征的识别能力,提升模型的准确率。实验结果表明:在UCF101数据集和HMDB51数据集上分别达到了95.66%和69.82%的识别准确率。该算法获取了更加完整的时空特征,与当前主流模型相比更具优越性。  相似文献   

12.
针对传统行为识别方法难以适应复杂的电厂环境,且未充分利用监控视频的时序信息等问题,提出了一种基于时空双分支网络的行为检测与识别技术。该技术利用时空双分支网络提取图像特征,分别基于卷积神经网络、循环神经网络获取图像的空域及时域特征,且使用混合组卷积与横向连接完成特征融合。同时将融合特征作为Softmax分类函数的输入,并经过分数计算得到行为类型。以某电厂的视频监控数据集为样本进行的实验分析结果表明,所提技术方案的行为识别准确率高达94%,且收敛速度快,优于其他对比技术,能够有效解决电厂的行为检测与识别问题。  相似文献   

13.
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。  相似文献   

14.
该文受人脑视觉感知机理启发,在深度学习框架下提出融合时空双网络流和视觉注意的行为识别方法。首先,采用由粗到细Lucas-Kanade估计法逐帧提取视频中人体运动的光流特征。然后,利用预训练模型微调的GoogLeNet神经网络分别逐层卷积并聚合给定时间窗口视频中外观图像和相应光流特征。接着,利用长短时记忆多层递归网络交叉感知即得含高层显著结构的时空流语义特征序列;解码时间窗口内互相依赖的隐状态;输出空间流视觉特征描述和视频窗口中每帧标签概率分布。其次,利用相对熵计算时间维每帧注意力置信度,并融合空间网络流感知序列标签概率分布。最后,利用softmax分类视频中行为类别。实验结果表明,与其他现有方法相比,该文行为识别方法在分类准确度上具有显著优势。  相似文献   

15.
人类行为识别作为视频分类中的重要问题,成为计算机视觉中的热门话题.由于卷积神经网络(CNN)的几何结构固定统一,这将会使得其几何变形建模受限,使得行为识别网络难以鲁棒性的识别行为类别.本文提出了一种融入可形变卷积的行为识别网络模型.首先,引入可形变卷积,构建了一种可协同学习空间外观和时间运动线索的模块,该模块分别学习视频数据3个正交视图特征进行融合;其次,在ResNet网络的基础上,用该模块将其网络中部分关键性卷积模块进行替换,产生一种新颖的改进版本的3D-ResNet网络,用于视频数据集的训练和测试;最后,在UCF101和HMDB51数据集训练和测试,得到识别精度优于现有的大多数先进方法.  相似文献   

16.
在语种识别过程中,为提取语音信号中的空间特 征以及时序特征,从而达到提高多语 种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型。该模型首先提 取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN) 提取低维度的空间特征;再通过空 间金字塔池化层(spatial pyramid pooling layer,SPP layer) 对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经 网络(recurrenrt neural network,CNN) 来判别语种信息。为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相 比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别 准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3% 和6.1%。  相似文献   

17.
针对大部分行为识别算法效率较低,难以应对大规模影像识别任务的问题,一方面,提出一种结合双流结构与多纤维网络的双流多纤维网络模型,分别以RGB序列、光流序列为输入提取视频的时空信息,然后将两条支路网络的识别结果进行决策相加,提高了对战场目标聚集行为的检测效率与识别准确率;另一方面,提出一种结合分离卷积思想与多纤维网络的双流分离卷积多纤维网络模型,进一步提高网络检测效率与抗过拟合能力。实验表明,在建立的情报影像仿真数据集中,上述算法能够有效识别出战场目标聚集行为,在大幅提升检测效率同时实现了识别准确率的提升。  相似文献   

18.
本文针对人体行为识别模型中鉴别能力有限的问题,同时避免双流中计算光流的较大时间成本,提出基于通道注意力机制和三维卷积时空注意力模型的行为识别方法。首先,该卷积网络模型使用ResNeXt残差模块,利用三维卷积核有效地提取视频帧时空特征。然后,在此基础上给每个残差模块增加通道注意力机制学习不同特征图的权重,进而形成基于通道域的注意力权重,增强网络结构对人体行为的表征能力。最后,在UCF-101和HMDB-51数据集上,通过交叉熵损失函数训练不同网络深度的行为分类模型。实验结果表明,该模型可以有效提取视频中的时空特征,并在人体行为识别任务中有着较高效率和优秀的准确度。  相似文献   

19.
基于自编码器结构的无监督学习算法已经被广泛应用在异常检测中如智能制造、医疗影像、安防监控等领域。针对现有的基于自编码器结构的图像异常算法模型与传统有监督模型相比仍存在识别精度差、鲁棒性较差、训练效率低的问题,提出了基于图像特征重建方法的自编码器架构和基于迁移学习思想对自编码器进行特征增强处理的异常检测算法。通过引入预先训练的特征提取网络作为前置图像特征提取模块完成对输入图像多尺度特征的提取和融合,得到输入图像的多尺度特征融合图,再据此选择搭另一个预训练网络和自编码器组成Teacher-Student模型,完成自编码器模型的快速收敛。基于多尺度特征融合图的重建思想是利用了图像卷积特征的可判别性,实现了对图像潜在的异常信息的辨识。在自编码器与预训练网络构成的T-S模型中,经过预训练的T模型将S模型的解空间限定在一定范围,极大加速了模型的训练过程。在MVTec-AD标准数据集上将本文所提方法与现有方法进行实验对比,验证了方法的可行性。  相似文献   

20.
网络入侵检测是网络安全领域的重要课题,传统的机器学习检测算法以特征提取和特征分离为基础,存在检测能力不足和误报率高等问题。本文提出一种基于深度学习的网络入侵检测模型IDNet。其综合考虑流量数据中的空间特征和时间特征。首先使用卷积神经网络(CNN)提取流量数据的空间特征,然后通过递归神经网络(RNN)提取流量数据的时间特征,通过堆叠CNN+RNN模块,并逐步增加学习粒度,达到同时有效提取空间特征和时间特征的目的。试验结果表明,所提算法检测准确率和误报率均优于传统机器学习算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号