期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

周云陈淑荣《计算机应用》2020,40(8):2236-2240

针对传统卷积神经网络（CNN）对人体行为动作仅能提取局部特征易导致相似行为动作识别准确率不高的问题,提出了一种基于双流非局部残差网络（NL-ResNet）的行为识别方法。首先提取视频的RGB帧和密集光流图,分别作为空间流和时间流网络的输入,并通过角落裁剪和多尺度相结合的预处理方法进行数据增强;其次分别利用残差网络的残差块提取视频的局部表观特征和运动特征,再通过在残差块之后接入的非局部CNN模块提取视频的全局信息,实现网络局部特征和全局特征的交叉提取;最后将两个分支网络分别通过A-softmax损失函数进行更精细的分类,并输出加权融合后的识别结果。该方法能充分利用局部和全局特征提高模型的表征能力。在UCF101数据集上,NL-ResNet取得了93.5%的识别精度,与原始双流网络相比提高了5.5个百分点。实验结果表明,所提模型能更好地提取行为特征,有效提高行为识别的准确率。相似文献

2.

基于双流网络融合与时空卷积的人体行为识别

秦悦石跃祥《计算技术与自动化》2021,40(2):140-147

针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1％和66.1％的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高. 相似文献

3.

融合行人时空信息的视频异常检测

下载免费PDF全文

闫善武肖洪兵王瑜孙梅《图学学报》2023,44(1):95-103

针对目前视频异常检测不能充分利用时序信息且忽视正常行为多样性的问题,提出了一种融合行人时空信息的异常检测方法。以卷积自编码器为基础,通过其中的编码器和解码器对输入帧进行压缩和还原,并根据输出帧与真实值的差异实现异常检测。为了加强视频连续帧之间的特征信息联系,引入残差时间移位模块和残差通道注意力模块,分别提升网络对时间信息和通道信息的建模能力。考虑到卷积神经网络(CNN)过度的泛化性,在编解码器各层的跳跃连接之间加入记忆增强模块,限制自编码器对异常帧过于强大的表示能力,提高网络的异常检测精度。此外,通过一种特征离散性损失来修正目标函数,有效区分不同的正常行为模式。在 CUHK Avenue 和 ShanghaiTech 数据集上的实验结果表明,该方法在满足实时性要求的同时,优于当前主流的视频异常检测方法。相似文献

4.

T-STAM:基于双流时空注意力机制的端到端的动作识别模型

石祥滨李怡颖刘芳代钦《计算机应用研究》2021,38(4):1235-1239,1276

针对双流法进行视频动作识别时忽略特征通道间的相互联系、特征存在大量冗余的时空信息等问题,提出一种基于双流时空注意力机制的端到端的动作识别模型T-STAM,实现了对视频关键时空信息的充分利用。首先,将通道注意力机制引入到双流基础网络中,通过对特征通道间的依赖关系进行建模来校准通道信息,提高特征的表达能力。其次,提出一种基于CNN的时间注意力模型,使用较少的参数学习每帧的注意力得分,重点关注运动幅度明显的帧。同时提出一种多空间注意力模型,从不同角度计算每帧中各个位置的注意力得分,提取多个运动显著区域,并且对时空特征进行融合进一步增强视频的特征表示。最后,将融合后的特征输入到分类网络,按不同权重融合两流输出得到动作识别结果。在数据集HMDB51和UCF101上的实验结果表明T-STAM能有效地识别视频中的动作。相似文献

5.

基于视频深度学习的时空双流人物动作识别模型

杨天明陈志岳文静《计算机应用》2018,38(3):895-899

深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。相似文献

6.

基于长短时记忆单元和卷积神经网络混合神经网络模型的视频着色方法

张政何山贺靖淇《计算机应用》2019,39(9):2726-2730

视频可以看作是连续的视频帧图像组成的序列,视频彩色化的实质是对图像进行彩色化处理,但由于视频的长期序列性,若直接将现有的图像着色方法应用到视频彩色化上极易产生抖动或闪烁现象。针对这个问题,提出一种结合长短时记忆（LSTM）和卷积神经网络（CNN）的混合神经网络模型用于视频的着色。该方法用CNN提取视频帧的语义特征,同时使用LSTM单元学习灰度视频的时序信息,保证视频的时空一致性,然后融合局部语义特征和时序特征,生成最终的彩色视频帧序列。通过对实验结果的定量分析和用户研究表明,该方法在视频彩色化上实现了较好的效果。相似文献

7.

基于双流卷积神经网络的改进人体行为识别算法

下载免费PDF全文

张怡佳茅耀斌《计算机测量与控制》2018,26(8):266-269

近年来人体行为识别成为计算机视觉领域的一个研究热点,而卷积神经网络(Convolutional Neural Network,CNN)在图像分类和识别领域取得了重要突破,但是人体行为识别是基于视频分析的,视频包含空间域和时间域两部分的信息。针对基于视频的人体行为识别问题,提出一种改进的双流卷积神经网络(Two-Stream CNN)模型,对于空间域,将视频的单帧RGB图像作为输入,送入VGGNet_16模型;对于时间域,将多帧叠加后的光流图像作为输入,送入Flow_Net模型;最终将两个模型的Softmax输出加权融合作为输出结果,得到一个多模型融合的人体行为识别器。基于JHMDB公开数据库的实验,结果证明了改进的双流CNN在人体行为识别任务上的有效性。相似文献

8.

基于时空域深度神经网络的野火视频烟雾检测

张斌魏维高联欣宋岩贝李佳欣《计算机应用与软件》2019,36(9)

针对目前的烟雾检测算法主要基于单一特征或烟雾的多个动静态特征的融合导致检测精度低的问题,提出一种使用卷积神经网络和循环神经网络组合的视频烟雾检测框架来捕获烟雾在空间域和时间域中的特征信息。利用空间流网络部分对运动区域自动提取特征后进行初步的空域的判别;在将空域判断为有烟的基础上进一步通过时间流网络和循环神经网络部分累积一组连续帧之间的运动信息以区分烟雾和非烟雾区域。与现有的使用深度卷积神经网络模型进行对比实验,实验结果表明,该方法具有较高的分类检测准确率。在多个视频场景中进行测试,验证了该算法的有效性。相似文献

9.

基于非局部关注和多重特征融合的视频行人重识别

刘紫燕朱明成袁磊马珊珊陈霖周廷《计算机应用》2021,41(2):530-536

现有视频行人重识别方法无法有效地提取视频连续帧之间的时空信息,因此提出一种基于非局部关注和多重特征融合的行人重识别网络来提取全局与局部表征特征和时序信息。首先嵌入非局部关注模块来提取全局特征;然后通过提取网络的低中层特征和局部特征实现多重特征融合,从而获得行人的显著特征;最后将行人特征进行相似性度量并排序,计算出视频行人重识别的精度。在大数据集MARS和DukeMTMC-VideoReID上进行实现,结果显示所提出的模型较现有的多尺度三维卷积（M3D）和学习片段相似度聚合（LCSA）模型的性能均有明显提升,平均精度均值（mAP）分别达到了81.4%和93.4%,Rank-1分别达到了88.7%和95.3%;同时在小数据集PRID2011上,所提模型的Rank-1也达到94.8%。相似文献

10.

三维卷积和视频帧采样算法下斗殴检测技术

下载免费PDF全文

黎晓昀贾杰《计算机工程与应用》2021,57(10):241-245

针对监控视频中斗殴行为检测的需求,提出了一种新的基于三维卷积神经网络和视频帧采样算法的斗殴行为检测方法。针对监控视频行为检测起始定位的难点,提出了一种利用基于人体姿态信息的关键区域检测算法定位斗殴行为起始帧的方法,形成了斗殴行为预识别空间。针对深度学习训练数据冗余和优化程度不够的问题,提出了基于时间采样的视频帧采样算法,并且搭建了一个三维卷积神经网络,使网络学习到整个行为动作的时空信息。实验结果证明了所提方法在两个公共数据集上取得了优越的性能。相似文献

11.

多模态特征融合的长视频行为识别方法

下载免费PDF全文

王婷刘光辉张钰敏孟月波徐胜军《计算机测量与控制》2021,29(11):165-170

行为识别技术在视频检索具有重要的应用价值;针对基于卷积神经网络的行为识别方法存在的长时序行为识别能力不足、尺度特征提取困难、光照变化及复杂背景干扰等问题,提出一种多模态特征融合的长视频行为识别方法;首先,考虑到长时序行为帧间差距较小,易造成视频帧的冗余,基于此,通过均匀稀疏采样策略完成全视频段的时域建模,在降低视频帧冗余度的前提下实现长时序信息的充分保留;其次,通过多列卷积获取多尺度时空特征,弱化视角变化对视频图像带来的干扰;后引入光流数据信息,通过空间注意力机制引导的特征提取网络获取光流数据的深层次特征,进而利用不同数据模式之间的优势互补,提高网络在不同场景下的准确性和鲁棒性;最后,将获取的多尺度时空特征和光流信息在网络的全连接层进行融合,实现了端到端的长视频行为识别;实验结果表明,所提方法在UCF101和HMDB51数据集上平均精度分别为97.2％和72.8％,优于其他对比方法,实验结果证明了该方法的有效性. 相似文献

12.

基于CNN_BiLSTM网络的入侵检测方法

下载免费PDF全文

马明艳陈伟吴礼发《计算机工程与应用》2022,58(10):116-124

网络攻击事件频发,正确高效地检测攻击行为对网络安全至关重要.该方法基于一维卷积神经网络和双向长短期记忆网络引入自注意力机制来检测恶意行为.首先借助随机森林来选择重要的特征作为模型输入以减少输入数据的冗余问题,之后利用一维卷积神经网络和双向长短期记忆网络分别提取空间特征和时间特征,将二者提取的特征"并联"得到融合特征,为... 相似文献

13.

结合目标检测的人体行为识别

周波李俊峰《自动化学报》2020,46(9):1961-1970

人体行为识别领域的研究方法大多数是从原始视频帧中提取相关特征, 这些方法或多或少地引入了多余的背景信息, 从而给神经网络带来了较大的噪声. 为了解决背景信息干扰、视频帧存在的大量冗余信息、样本分类不均衡及个别类分类难的问题, 本文提出一种新的结合目标检测的人体行为识别的算法. 首先, 在人体行为识别的过程中增加目标检测机制, 使神经网络有侧重地学习人体的动作信息; 其次, 对视频进行分段随机采样, 建立跨越整个视频段的长时时域建模; 最后, 通过改进的神经网络损失函数再进行行为识别. 本文方法在常见的人体行为识别数据集UCF101和HMDB51上进行了大量的实验分析, 人体行为识别的准确率(仅RGB图像)分别可达96.0%和75.3%, 明显高于当今主流人体行为识别算法. 相似文献

14.

采用Transformer网络的视频序列表情识别

下载免费PDF全文

陈港张石清赵小明《中国图象图形学报》2022,27(10):3022-3030

目的相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法。方法首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短时记忆网络（long short-term memory network,LSTM）和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务。结果在公开的BAUM-1s （Bahcesehir University multimodal）和RML （Ryerson Multimedia Lab）视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能。结论该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能。相似文献

15.

CNN和三维Gabor滤波器的高光谱图像分类

魏祥坡余旭初谭熊刘冰职露《计算机辅助设计与图形学学报》2020,32(1):90-98

卷积神经网络(CNN)具有强大的特征提取能力,能够有效地提高高光谱图像的分类精度.然而CNN模型训练需要大量的训练样本参与,以防止过拟合,Gabor滤波器以非监督的方式提取图像的边缘和纹理等空间信息,能够减轻CNN模型对训练样本的依赖度及特征提取的压力.为了充分利用CNN和Gabor滤波器的优势,提出了一种双通道CNN和三维Gabor滤波器相结合的高光谱图像分类方法Gabor-DC-CNN.首先利用二维卷积神经网络(2D-CNN)模型处理原始高光谱图像数据,提取图像的深层空间特征;同时利用一维卷积神经网络(1D-CNN)模型处理三维Gabor特征数据,进一步提取图像的深层光谱-纹理特征.连接2个CNN模型的全连接层实现特征融合,并将融合特征输入到分类层中完成分类.实验结果表明,该方法能够有效地提高分类精度,在Indian Pines,Pavia University和Kennedy Space Center 3组数据上分别达到98.95%,99.56%和99.67%. 相似文献

16.

基于CNN与双向LSTM的行为识别算法

吴潇颖李锐吴胜昔《计算机工程与设计》2020,41(2):361-366

针对传统行为识别依赖手工提取特征,智能化程度不高,识别精度低的问题,提出一种基于3D骨骼数据的卷积神经网络(CNN)与双向长短期记忆网络(Bi-LSTM)的混合模型。使用3D骨骼数据作为网络输入,CNN提取每个时间步的3D输入数据间的空间特征,Bi-LSTM更深层地提取3D数据序列的时间特征。该混合模型自动提取特征完成分类,实现骨骼数据到识别结果的端对端学习。在UTKinect-Action3D标准数据集上,模型的识别率达到97.5%,在自制Kinect数据集上的准确率达到98.6%,实验结果表明,该网络有效提高了分类准确率,具备可用性和有效性。相似文献

17.

Weakly-Supervised Action Localization,and Action Recognition Using Global–Local Attention of 3D CNN

Yudistira Novanto Kavitha Muthu Subash Kurita Takio 《International Journal of Computer Vision》2022,130(10):2349-2363

International Journal of Computer Vision - 3D convolutional neural network (3D CNN) captures spatial and temporal information on 3D data such as video sequences. However, due to the convolution and... 相似文献

18.

基于多阶信息融合的行为识别方法研究 总被引：2，自引：0，他引：2

张冰冰葛疏雨王旗龙李培华《自动化学报》2021,47(3):609-619

双流卷积神经网络能够获取视频局部空间和时间特征的一阶统计信息, 测试阶段将多个视频局部特征的分类器分数平均作为最终的预测. 但是, 一阶统计信息不能充分建模空间和时间特征分布, 测试阶段也未考虑使用多个视频局部特征之间的更高阶统计信息. 针对这两个问题, 本文提出一种基于二阶聚合的视频多阶信息融合方法. 首先, 通过建立二阶双流模型得到视频局部特征的二阶统计信息, 与一阶统计信息形成多阶信息. 其次, 将基于多阶信息的视频局部特征分别进行二阶聚合, 形成高阶视频全局表达. 最后, 采用两种策略融合该表达. 实验表明, 本文方法能够有效提高行为识别精度, 在HMDB51和UCF101数据集上的识别准确率比双流卷积神经网络分别提升了8 % 和2.1 %, 融合改进的密集点轨迹(Improved dense trajectory, IDT) 特征之后, 其性能进一步提升. 相似文献

19.

An efficient attention module for 3d convolutional neural networks in action recognition

Jiang Guanghao Jiang Xiaoyan Fang Zhijun Chen Shanshan 《Applied Intelligence》2021,51(10):7043-7057

Due to illumination changes, varying postures, and occlusion, accurately recognizing actions in videos is still a challenging task. A three-dimensional convolutional neural network (3D CNN), which can simultaneously extract spatio-temporal features from sequences, is one of the mainstream models for action recognition. However, most of the existing 3D CNN models ignore the importance of individual frames and spatial regions when recognizing actions. To address this problem, we propose an efficient attention module (EAM) that contains two sub-modules, that is, a spatial efficient attention module (EAM-S) and a temporal efficient attention module (EAM-T). Specifically, without dimensionality reduction, EAM-S concentrates on mining category-based correlation by local cross-channel interaction and assigns high weights to important image regions, while EAM-T estimates the importance score of different frames by cross-frame interaction between each frame and its neighbors. The proposed EAM module is lightweight yet effective, and it can be easily embedded into 3D CNN-based action recognition models. Extensive experiments on the challenging HMDB-51 and UCF-101 datasets showed that our proposed module achieves state-of-the-art performance and can significantly improve the recognition accuracy of 3D CNN-based action recognition methods.

相似文献