首页 | 本学科首页   官方微博 | 高级检索  
 共查询到19条相似文献,搜索用时 125 毫秒
闫善武  肖洪兵  王瑜  孙梅 《图学学报》2023,44(1):95-103
针对目前视频异常检测不能充分利用时序信息且忽视正常行为多样性的问题,提出了一种融合行 人时空信息的异常检测方法。以卷积自编码器为基础,通过其中的编码器和解码器对输入帧进行压缩和还原,并 根据输出帧与真实值的差异实现异常检测。为了加强视频连续帧之间的特征信息联系,引入残差时间移位模块和 残差通道注意力模块,分别提升网络对时间信息和通道信息的建模能力。考虑到卷积神经网络(CNN)过度的泛化 性,在编解码器各层的跳跃连接之间加入记忆增强模块,限制自编码器对异常帧过于强大的表示能力,提高网络 的异常检测精度。此外,通过一种特征离散性损失来修正目标函数,有效区分不同的正常行为模式。在 CUHK Avenue 和 ShanghaiTech 数据集上的实验结果表明,该方法在满足实时性要求的同时,优于当前主流的视频异常 检测方法。  相似文献   

目的 视频异常检测通过挖掘正常事件样本的模式来检测不符合正常模式的异常事件。基于自编码器的模型广泛用于视频异常检测领域,由于自监督学习的特征提取具有一定盲目性,使得网络的特征表达能力有限。为了提升模型对正常模式的学习能力,提出一种基于Transformer和U-Net的视频异常检测方法。方法 首先,编码器对输入的连续帧进行下采样提取低层特征,并将最后一层特征图输入Transformer编码全局信息,学习特征像素之间的相关信息。然后解码器对编码特征进行上采样,通过跳跃连接与编码器中相同分辨率的低层特征融合,将全局空间信息与局部细节信息结合从而实现异常定位。针对近景康复动作的异常反馈需求,本文基于周期性动作收集了一个室内近景数据集,并进一步引入动态图约束引导网络关注近景周期性运动区域。结果 实验在4个室外公开数据集和1个室内近景数据集上与同类方法比较。在室外数据集CUHK(Chinese University of Hong Kong)Avenue,UCSD Ped1(University of California, San Diego, pedestrian1),UCSD Ped2,L...  相似文献   

为提高视频异常检测的准确率,提出一种融合混合注意力的自编码器视频异常检测算法。针对自编码器网络强大的“泛化”能力可能重构异常行为问题,提出一种混合注意力模块(CSCFAM)并将其融合至编码器和解码器之间的跳跃连接层以限制异常行为的生成。为考虑正常样本的多样性,在编码器和解码器之间的瓶颈处引入存储记忆模块(Memory),记录正常样本潜在特征的原型模式。实验结果表明,该算法在UCSD Ped2、CUHK Avenue数据集上帧级AUC分别达到97.3%、87.0%,与当前先进的视频异常检测算法相比,异常检测能力得到有效提升。  相似文献   

在使用自编码器结构的神经网络处理视频异常检测任务时,U-Net风格的自编码器由于编码器层数深度过浅,导致在面对复杂的数据集时,不能充分抽取更多有用的特征信息。同时,在训练模型时使用MSE(均方误差),仅考虑了预测帧与真实帧之间的像素级相似性,对于复杂场景,像素级相似性可能无法准确判断预测帧与真实帧之间的相似性。针对以上问题,对基于U-Net风格的自编码器进行改进,提出了一种使用改进的VGG16作为编码器的视频异常检测算法,同时在均方误差的基础上添加结构相似性(SSIM)损失函数。改进的VGG16去掉了全连接层,并加入了残差连接防止特征退化,添加SSIM在计算像素级相似性的同时计算图像的亮度、对比度和结构等方面的相似性来优化网络。实验结果表明,改进后的算法,在Ped2数据集上检测效果达到95.91%,在Avenue数据集上检测效果达到84.89%,与改进前的方法相比分别提高了0.80%和0.19%,验证了所提方法的有效性。  相似文献   

针对视频异常检测中对正常视频预测不准确、学习正常特征的能力欠佳的问题,提出融合小波变换和编解码注意力的异常检测模型。模型中引入多级离散小波变换,设计了一种离散小波变换融合模块,将由视频帧分解得到的多个子带图拼接,传入深度可分离卷积,再与编码器特征融合,以弥补下采样过程中丢失的高频细节信息;构建了一种编解码注意力模块,通过对编码器特征图进行高斯差分操作,然后分别沿水平和垂直方向获取注意力权重,再根据权重聚合编码器特征,最后关联解码器特征,增强网络对正常事件的学习。在Ped1、Ped2、Avenue数据集上的实验表明,采用提出的模块使模型的AUC分别提升了3.2%、3.1%、2.0%,说明该模块能有效提高模型检测异常的能力。  相似文献   

无监督视频异常检测方法通常使用正常的监控视频数据通过帧重构/帧预测方法来训练视频异常检测模型。然而,正常视频中往往包含大量的相似画面和背景帧,数据集冗余的问题尤为明显,因此不能高效地进行异常检测模型训练。针对该问题,提出了伪异常选择驱动学习的视频异常检测方法,从原始视频训练数据中迭代选取部分异常分数高的正常视频帧(伪异常帧)来构建新的训练池,用于学习和优化视频异常检测模型。在检测模型方面,设计了基于后继帧预测的双路U-Net骨干网络,以不同采样率的视频段分别作为两个支路的输入,从而从多个粒度上更好地提取和利用视频的时空特征。为了加强典型训练数据对帧预测任务和异常检测的影响,双路U-Net中设计了多层的记忆学习模块。在常用视频异常检测数据集上进行实验,验证了所提方法在检测精度和训练效率上的有效性。  相似文献   

为了在视频异常行为检测中更加充分地运用外观和动作信息,设计出了一种能同时捕捉外观和动作信息的孪生网络模型。该网络的两个分支采用相同的自编码器结构,其中的外观子网络以连续几帧RGB图作为输入来预测下一帧,而动作子网络则输入RGB帧差图来预测未来帧差图。此外,考虑到影响基于预测的方法的检测效果的原因之一,即正常样本的多样性以及自编码器网络强大的“生成”能力,即对部分异常样本也有很好的预测效果,因此在编码器与解码器之间加入一个学习并存储正常样本的“原型”特征的记忆增强模块,从而使异常样本能获得更大的预测误差。在Avenue、UCSD-ped2和ShanghaiTech三个公共的异常数据集上进行了广泛的实验。实验结果表明,相较于其他基于重建或预测的视频异常行为检测方法,所提方法取得了更优异的表现。具体来说,该方法在Avenue、UCSD-ped2和ShanghaiTech数据集上的平均曲线下面积(AUC)分别达到了88.2%、97.5%和73.0%。  相似文献   

针对异常事件的不确定性,文中选择使用未来帧预测的方式对视频进行异常事件检测。通过正常样本对预测模型进行训练,使模型能够准确预测不包含异常事件的未来帧,但对于包含未知事件的视频帧,模型无法进行预测,利用生成对抗网络以及表观约束和运动约束对用于预测的生成器模型进行训练。为了减少相关目标特征丢失,提出了非局部注意力U型网络生成器(Nonlocal Attention Unet Generator, NA-UnetG)模型,提升了生成器的预测精度,同时提升了视频异常事件检测的准确度。通过公开数据集CUHK Avenue和UCSD Ped2对所提方法进行实验验证,实验结果表明,所提方法的AUC指标优于其他方法,AUC分别达到了83.4%和96.3%。  相似文献   

降雨天气会导致视觉质量下降,从而影响目标识别和追踪等视觉任务的处理效果。为了减小雨的影响,完成对运动视频背景细节的有效恢复,近年来相关研究者在视频去雨方向提出了很多方法。其中基于卷积神经网络的视频去雨方法使用最为广泛,它们大多采用单帧增强后多帧融合去雨的方式。但由于直接单帧增强使相邻帧之间部分像素的移动无法完成时间维度上的对齐,不能有效实现端到端的训练,因此丢失了大量细节信息,使得最终得到的去雨效果不尽人意。为有效解决上述问题,文中提出了一个基于运动估计与时空结合的多帧融合去雨网络(ME-Derain)。首先通过光流估计算法将相邻帧对齐到当前帧来有效利用时间信息;然后引入基于残差连接的编码器-解码器结构,结合与时间相关的注意力增强机制一起构成多帧融合网络来有效融合多帧信息;最后利用空间相关的多尺度增强模块来进一步增强去雨效果和得到最终的去雨视频。在多个数据集上的大量实验结果表明,所提算法优于现阶段大部分视频去雨算法,能够获得更好的去雨效果。  相似文献   

面对背景越来越复杂的海量红外视频图像,传统方法的显著性目标检测性能不断下降。为了提升红外图像的显著性目标检测性能,提出了一种基于深度学习的红外视频显著性目标检测模型。该模型主要由空间特征提取模块、时间特征提取模块、残差连接块以及像素级分类器4个模块组成。首先利用空间特征提取模块获得空间特征,然后利用时间特征提取模块获得时间特征并实现时空一致性,最后将时空特征信息和由残差连接块连接空间模块获得的空间低层特征信息一同送入像素级分类器,生成最终的显著性目标检测结果。训练网络时,使用BCEloss和DICEloss两个损失函数结合的方式,以提高模型训练的稳定性。在红外视频数据集OTCBVS以及背景复杂的红外视频序列上进行测试,结果表明所提模型都能够获得准确的显著性目标检测结果,并且具有鲁棒性及较好的泛化能力。  相似文献   

With the rapid development of automated visual analysis, visual analysis systems have become a popular research topic in the field of computer vision and automated analysis. Visual analysis systems can assist humans to detect anomalous events (e.g., fighting, walking alone on the grass, etc). In general, the existing methods for visual anomaly detection are usually based on an autoencoder architecture, i.e., reconstructing the current frame or predicting the future frame. Then, the reconstruction error is adopted as the evaluation metric to identify whether an input is abnormal or not. The flaws of the existing methods are that abnormal samples can also be reconstructed well. In this paper, inspired by the human memory ability, we propose a novel deep neural network (DNN) based model termed cognitive memory-augmented network (CMAN) for the visual anomaly detection problem. The proposed CMAN model assumes that the visual analysis system imitates humans to remember normal samples and then distinguishes abnormal events from the collected videos. Specifically, in the proposed CMAN model, we introduce a memory module that is able to simulate the memory capacity of humans and a density estimation network that can learn the data distribution. The reconstruction errors and the novelty scores are used to distinguish abnormal events from videos. In addition, we develop a two-step scheme to train the proposed model so that the proposed memory module and the density estimation network can cooperate to improve performance. Comprehensive experiments evaluated on various popular benchmarks show the superiority and effectiveness of the proposed CMAN model for visual anomaly detection comparing with the state-of-the-arts methods. The implementation code of our CMAN method can be accessed at https://github.com/CMAN-code/CMAN_pytorch.   相似文献   


Video anomaly detection automatically recognizes abnormal events in surveillance videos. Existing works have made advances in recognizing whether a video contains abnormal events; however, they cannot temporally localize the abnormal events within videos. This paper presents a novel anomaly attention-based framework for accurately temporally localize the abnormal events. Benefiting from the proposed framework, we can achieve frame-level VAD using video-level labels, which significantly reduces the burden of data annotation. Our method is an end-to-end deep neural network-based approach, which contains three modules: anomaly attention module (AAM), discriminative anomaly attention module (DAAM) and generative anomaly attention module (GAAM). Specifically, AAM is trained to generate the anomaly attention, which is used to measure the abnormal degree of each frame. Whereas, DAAM and GAAM are used to alternately augmenting AAM from two different aspects. On the one hand, DAAM enhancing AAM by optimizing the video-level video classification. On the other hand, GAAM adopts a conditional variational autoencoder to model the likelihood of each frame given the attention for refining AAM. As a result, AAM can generate higher anomaly scores for abnormal frames while lower anomaly scores for normal frames. Experimental results show that our proposed approach outperforms state-of-the-art methods, which validates the superiority of our AAVAD.


视频异常检测是指识别不符合预期行为的事件.当前许多方法利用重构误差来检测异常,由于深度神经网络的强大能力可能会重构出异常行为,这与异常行为重构误差较大的假设不符.而利用预测未来帧的方法进行异常检测取得了很好的效果,但这些方法大多未考虑正常样本的多样性,或不能建立视频连续帧之间的关联.为了解决该问题,提出了一种时序多尺度...  相似文献   

Remaining useful life (RUL) prediction plays a significant role in the prognostic and health management (PHM) of rotating machineries. A good health indicator (HI) can ensure the accuracy and reliability of RUL prediction. However, numerous existing deep learning-based HI construction approaches rely heavily on the prior knowledge, and they are difficult to capture the key information in the process of machinery degradation from raw signals, thereby affecting the performance of RUL prediction. To tackle the aforementioned problem, a new supervised multi-head self-attention autoencoder (SMSAE) is proposed for extracting the HI that effectively reflects the degraded state of rotating machinery. By embedding the multi-head self-attention (MS) module into autoencoder and imposing the constraint of power function-type labels on the hidden variable, SMSAE can directly extract the HIs from raw vibration signals. As the current HI evaluation indexes don’t consider the global monotonicity and variation law of HI, two improved monotonicity and robustness indexes are designed for the better evaluation of HI. With the proposed HI, a two-stage residual life prediction framework based on similarity is developed. Extensive experiments have been performed on an actual wind turbine gearbox bearing dataset and a well-known open commercial modular aero-propulsion system simulation (C-MAPSS) dataset. The comparative results verify that the constructed SMSAE HI has better comprehensive performance than the typical HIs, and the proposed prediction method is competitive with the state-of-the-art methods.  相似文献   

In materials science, good representations of materials are important for use with prediction models in order to ensure accurate prediction of the properties of the output. In this paper, in order to address this issue, we use a learning system, linear guided autoencoder (LGAE) we call, which consists of an autoencoder and a linear predictor. For the autoencoder, we adopt a variant of the denoising autoencoder. In the LGAE, the learning addresses the unsupervised and supervised tasks simultaneously. Thus, the LGAE can be regarded as a form of nonlinear partial least squares (PLS) regression. Previous studies have not found the optimal solution for the encoder for an objective that contains both tasks. Our main contributions are a first-order approximation of the optimal solution and determination of the condition for linear solution that applies to the LGAE after training, in order to acquire knowledge from the nonlinear model (i.e., the LGAE). The main drawback of nonlinear PLS regression is that it is difficult to interpret the latent representation. Therefore, we propose a technical method for interpreting the latent representation. Experiments on benchmark datasets are conducted in order to compare the LGAE with kernel PLS regression, which is a powerful nonlinear PLS regression method. We also applied the LGAE to a dataset of methane storage materials in order to interpret the methane uptake based on the input variables and obtained reasonable results.  相似文献   

张亚  金鑫  江倩  李昕洁  董云云  姚绍文 《计算机应用》2021,41(10):2985-2990
基于深度学习的图像伪造方法生成的图像肉眼难辨,一旦该技术被滥用于制作虚假图像和视频,可能会对国家政治、经济、文化造成严重的负面影响,也可能会对社会生活和个人隐私构成威胁。针对上述问题,提出了一种基于自动编码器的深度伪造Deepfake图像检测方法。首先,借助高斯滤波对图像进行预处理,提取高频信息作为模型输入;然后,利用自动编码器对图像进行特征提取,并在编码器中添加注意力机制模块以获取更好的分类效果;最后,通过消融实验证明,采用所提的预处理方法和添加注意力机制模块有助于伪造图像检测。实验结果表明,与ResNet50、Xception以及InceptionV3相比,所提方法在数据集样本量较小且包含的场景丰富时,可以有效检测多种生成方法所伪造的图像,其平均准确率可达97.10%,明显优于对比方法,且其泛化性能也明显优于对比方法。  相似文献   

目的 近年来,采用神经网络完成人像实时抠图已成为计算机视觉领域的研究热点,现有相关网络在处理高分辨率视频时还无法满足实时性要求,为此本文提出一种结合背景图的高分辨率视频人像实时抠图网络。方法 给出一种由基准网络和精细化网络构成的双层网络,在基准网络中,视频帧通过编码器模块提取图像的多尺度特征,采用金字塔池化模块融合这些特征作为循环解码器网络的输入;在循环解码器中,通过残差门控循环单元聚合连续视频帧间的时间信息,以此生成蒙版图、前景残差图和隐藏特征图,采用残差结构降低模型参数量并提高网络的实时性。为提高高分辨率图像实时抠图性能,在精细化网络中,设计高分辨率信息指导模块,通过高分辨率图像信息指导低分辨率图像的方式生成高质量人像抠图结果。结果 与近年来的相关网络模型进行实验对比,实验结果表明,本文方法在高分辨率数据集Human2K上优于现有相关方法,在评价指标(绝对误差、均方误差、梯度、连通性)上分别提升了18.8%、39.2%、40.7%、20.9%。在NVIDIA GTX 1080Ti GPU上处理4 K分辨率影像运行速率可达26帧/s,处理HD(high definition)分辨率影像运行速率可达43帧/s。结论 本文模型能够更好地完成高分辨率人像实时抠图任务,可以为影视、短视频社交以及网络会议等高级应用提供更好的支持。  相似文献   

单一生物数据网络提供的特征信息是十分受限的,针对这一问题,提出了一种基于半监督自编码器的多网络特征融合方法,丰富特征信息。此外,为解决在人为设置模型的超参数时,易出现模型性能较低、陷入局部最优等问题,进一步提出了利用遗传算法优化支持向量机(GA-SVM算法)模型的方法,提高脑部疾病基因的预测性能。构建来自不同数据源的相似性数据网络,利用重启随机游走算法从四个数据网络中提取特征,通过半监督自编码器进行处理及融合,在十折交叉验证的策略下使用GA-SVM算法模型预测脑部疾病基因,并与其他算法进行比较。实验结果表明,在PD数据集上的AUC和AUPR值分别为0.805、0.792,而在MDD数据集上的AUC和AUPR值分别为0.825、0.823,均优于已有的预测模型,有效证明了该方法能够提高脑部疾病基因的预测效果。  相似文献   

Rate control plays an important role in regulating bit streams in video coding. In order to obtain good coding performance, the hierarchical B prediction structure has been adopted in Multi-view Video Coding (MVC). However, the conventional rate control scheme is not efficient in the hierarchical B prediction structure. In this paper, we propose a rate control algorithm to address this problem. First, the accurate estimation of Mean Absolute Distortion (MAD) of the current frame is desired for both quantization parameter (QP) selection and Rate Distortion Optimization (RDO). Considering the hierarchical B structure, a bi-directional MAD prediction model is proposed to predict the MAD of the current frame by using the actual MADs of the encoded frames in the lower Temporal Layers (TLs). Second, the number of header bits has a close relationship with the TLs in the hierarchical B prediction structure. Therefore, we propose an enhanced prediction method in which a proportional relationship of the header bits is introduced if the frames are located in different TLs. Experimental results show that our proposed algorithm can achieve both accurate target bit rate and good coding performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号