首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
视频异常检测旨在检测视频中的表观异常和运动异常,多示例学习(Multiple Instance Learning, MIL)是目前较先进的弱监督视频异常检测方法,但是MIL提取的C3D特征不能同时描述视频中表观和运动信息,这导致异常检测性能较低.本文提出了利用注意力机制的多示例学习视频异常检测算法(A-MIL),首先提取视频数据的三维特征C3D和光流特征图,并利用Conv-AE提取光流图的特征向量,然后输入至3层全连接神经网络中得到每个示例每种特征的异常分数,接着通过注意力机制获取特征的权重参数,得到最终的示例分数,最后利用改进的MIL排序算法进行模型训练并设置阈值,测试时将异常分数与阈值相比较以判断异常.在公开数据集UCF-Crime上的实验结果表明,本文方法的AUC指标提升了2.79%.  相似文献   

2.
针对传统方法在通过视频数据进行人体行为识别的过程中,无法准确分析长时间范围的运动信息,不能很好地利用运动信息中的局部特征和其空间关系.提出将基于注意力机制的卷积长短时记忆神经网络(Attention-ConvLSTM)与传统的双流卷积进行结合,实现了对视频数据中运动信息的非线性特征更好的学习,对局部显著特征及其空间关系更好的利用.本文还设计了新的正则交叉熵损失函数,使得扩展之后的神经网络实现更快的收敛.本文的方法在UCF101和HMDB51两个通用人体行为视频数据集上的表现相较于传统的方法有明显的提升.  相似文献   

3.
深度学习在人物动作识别方面已取得较好的成效,但当前仍然需要充分利用视频中人物的外形信息和运动信息。为利用视频中的空间信息和时间信息来识别人物行为动作,提出一种时空双流视频人物动作识别模型。该模型首先利用两个卷积神经网络分别抽取视频动作片段空间和时间特征,接着融合这两个卷积神经网络并提取中层时空特征,最后将提取的中层特征输入到3D卷积神经网络来完成视频中人物动作的识别。在数据集UCF101和HMDB51上,进行视频人物动作识别实验。实验结果表明,所提出的基于时空双流的3D卷积神经网络模型能够有效地识别视频人物动作。  相似文献   

4.
弱监督异常事件检测是一项极富挑战性的任务,其目标是在已知正常和异常视频标签的监督下,定位出异常发生的具体时序区间.文中采用多示例排序网络来实现弱监督异常事件检测任务,该框架在视频被切分为固定数量的片段后,将一个视频抽象为一个包,每个片段相当于包中的示例,多示例学习在已知包类别的前提下训练示例分类器.由于视频有丰富的时序信息,因此重点关注监控视频在线检测的时序关系.从全局和局部角度出发,采用自注意力模块学习出每个示例的权重,通过自注意力值与示例异常得分的线性加权,来获得视频整体的异常分数,并采用均方误差损失训练自注意力模块.另外,引入LSTM和时序卷积两种方式对时序建模,其中时序卷积又分为单一类别的时序空洞卷积和融合了不同空洞率的多尺度的金字塔时序空洞卷积.实验结果显示,多尺度的时序卷积优于单一类别的时序卷积,时序卷积联合包内包外互补损失的方法在当前UCF-Crime数据集上比不包含时序模块的基线方法的AUC指标高出了3.2%.  相似文献   

5.
为解决采用卷积神经网络对商家招牌进行分类时存在特征判别性较差的问题,通过在注意力机制中引入神经网络,提出一种端到端的深度学习卷积神经网络方法。使用卷积注意力模块分别学习通道注意力与空间注意力信息以增强特征的判别性,利用余弦间隔损失函数增强所提取特征的泛化能力,且可在特征空间中减小类内方差与增大类间间隔。实验结果表明,与基于传统交叉损失函数方法相比,该方法通过将注意力机制模块与余弦间隔损失函数相结合,使得准确率与F1值分别提高2.2和2.0个百分点,达到99.3%和98.6%。  相似文献   

6.
莫秀云  陈俊洪  杨振国  刘文印 《机器人》2022,44(2):186-194+202
为了提高机器人学习技能的能力,免除人工示教过程,本文基于对无特殊标记的人类演示视频的观察,提出了一种基于序列到序列模式的机器人指令自动生成框架。首先,使用Mask R-CNN(区域卷积神经网络)来缩小操作区域的范围,并采用双流I3D网络(膨胀3D卷积网络)从视频中提取光流特征和RGB特征;其次,引入双向LSTM(长短期记忆)网络从先前提取的特征中获取上下文信息;最后,使用自我注意力机制和全局注意力机制,学习视频帧序列和命令序列的关联性,序列到序列模型最终输出机器人的命令。在扩展后的MPII烹饪活动2数据集和IIT-V2C数据集上进行了大量的实验,与现有的方法进行比较,本文提出的方法在BLEU_4(0.705)和METEOR(0.462)等指标上达到目前最先进性能水平。结果表明,该方法能够从人类演示视频中学习操作任务。此外,本框架成功应用于Baxter机器人。  相似文献   

7.
示例查询语音关键词检测中,卷积神经网络(CNN)或者循环神经网络(RNN)提取到的声学词嵌入语音信息有限,为更好地表示语音内容以及改善模型的性能,提出一种基于双向长短时记忆(Bi-LSTM)和卷积Transformer的声学词嵌入模型。首先,使用Bi-LSTM提取特征、对语音序列进行建模,并通过叠加方式来提高模型的学习能力;其次,为了能在捕获全局信息的同时学习到局部信息,将CNN和Transformer编码器并联连接组成卷积Transformer,充分利用它在特征提取上的优势,聚合更多有效的信息,提高嵌入的区分性。在对比损失约束下,所提模型平均精度达到了94.36%,与基于注意力的Bi-LSTM模型相比,平均精度提高了1.76%。实验结果表明,所提模型可以有效改善模型性能,更好地实现示例查询语音关键词检测。  相似文献   

8.
闫善武  肖洪兵  王瑜  孙梅 《图学学报》2023,44(1):95-103
针对目前视频异常检测不能充分利用时序信息且忽视正常行为多样性的问题,提出了一种融合行 人时空信息的异常检测方法。以卷积自编码器为基础,通过其中的编码器和解码器对输入帧进行压缩和还原,并 根据输出帧与真实值的差异实现异常检测。为了加强视频连续帧之间的特征信息联系,引入残差时间移位模块和 残差通道注意力模块,分别提升网络对时间信息和通道信息的建模能力。考虑到卷积神经网络(CNN)过度的泛化 性,在编解码器各层的跳跃连接之间加入记忆增强模块,限制自编码器对异常帧过于强大的表示能力,提高网络 的异常检测精度。此外,通过一种特征离散性损失来修正目标函数,有效区分不同的正常行为模式。在 CUHK Avenue 和 ShanghaiTech 数据集上的实验结果表明,该方法在满足实时性要求的同时,优于当前主流的视频异常 检测方法。  相似文献   

9.
李生武  张选德 《计算机应用》2020,40(8):2219-2224
为了解决多域卷积神经网络(MDNet)在目标快速移动和外观剧烈变化时发生的模型漂移问题,提出了自注意力多域卷积神经网络(SAMDNet),通过引入自注意力机制从通道和空间两个维度来提升追踪网络的性能。首先,利用空间注意力模块将所有位置上的特征的加权总和选择性地聚合到特征图中的所有位置上,使得相似的特征彼此相关;然后,利用通道注意力模块整合所有特征图来选择性地强调互相关联的通道的重要性;最后,融合得到最终的特征图。此外,针对MDNet算法因训练数据中存在较多相似但属性不同的序列所造成的网络模型分类不准的问题,构造了复合损失函数。该复合损失函数由分类损失函数和实例判别损失函数组成,首先,用分类损失函数来统计分类的损失值;然后,利用实例判别损失函数来提高目标在当前视频序列中的权重,抑制其在其他序列中的权重;最后,融合两项损失作为模型的最终损失。在目前广泛采用的测试基准数据集OTB50和OTB2015上进行实验,结果表明所提出的算法在成功率指标上相比2015年视觉目标跟踪挑战(VOT2015)的冠军算法MDNet分别提高了1.6个百分点和1.4个百分点,在精确率和成功率指标上优于连续域卷积相关滤波(CCOT)算法,在OTB50上的精确率指标优于高效卷积操作(ECO)算法,验证了该算法的有效性。  相似文献   

10.
目的 视频异常行为检测是当前智能监控技术的研究热点之一,在社会安防领域具有重要应用。如何通过有效地对视频空间维度信息和时间维度信息建模来提高异常检测的精度仍是目前研究的难点。由于结构优势,生成对抗网络目前广泛应用于视频异常检测任务。针对传统生成对抗网络时空特征利用率低和检测效果差等问题,本文提出一种融合门控自注意力机制的生成对抗网络进行视频异常行为检测。方法 在生成对抗网络的生成网络U-net部分引入门控自注意力机制,逐层对采样过程中的特征图进行权重分配,融合U-net网络和门控自注意力机制的性能优势,抑制输入视频帧中与异常检测任务不相关背景区域的特征表达,突出任务中不同目标对象的相关特征表达,更有效地针对时空维度信息进行建模。采用LiteFlownet网络对视频流中的运动信息进行提取,以保证视频序列之间的连续性。同时,加入强度损失函数、梯度损失函数和运动损失函数加强模型检测的稳定性,以实现对视频异常行为的检测。结果 在CUHK(Chinese University of Hong Kong) Avenue、UCSD(University of California, San Dieg...  相似文献   

11.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

12.
针对当前基于二维图像的人体动作识别算法鲁棒性差、识别率不高等问题,提出了一种融合卷积神经网络和图卷积神经网络的双流人体动作识别算法,从人体骨架信息提取动作的时间与空间特征进行人体动作识别。首先,构建人体骨架信息时空图,利用引入注意机制的图卷积网络提取骨架信息的时间和空间特征;其次,构建骨架信息运动图,将卷积神经网络网络提取到骨架运动信息的特征作为时空图卷积网络所提取特征的时间和空间特征的补充;最后,将双流网络进行融合,形成基于双流的、注意力机制的人体动作识别算法。算法增强了骨架信息的表征能力,有效提高了人体动作的识别精度,在NTU-RGB+D60数据集上取得了比较好的结果,Cross-Subject和Cross-View的识别率分别为86.5%和93.5%,相比其他同类算法有一定的提高。  相似文献   

13.
目的 复杂环境下的疲劳驾驶检测是一个具有挑战性的技术问题。为了充分利用驾驶员面部特征信息与时间特征,提出一种基于伪3D(Pseudo-3D,P3D)卷积神经网络(convolutional neural network,CNN)与注意力机制的驾驶疲劳检测方法。方法 采用伪3D卷积模块进行时空特征学习;提出P3D-Attention模块,利用P3D的结构融合双通道注意力模块和适应的空间注意力模块,提高对重要通道特征的相关度,增加特征图的全局相关性,将多层深度卷积特征进行融合。利用双通道注意力模块分别在视频帧之间和每一帧的通道上施加关注,去除背景和噪声对识别的干扰,使用自适应空间注意模块使模型训练更快、收敛更好;使用2D全局平均池化层替代3D全局平均池化层获得更具表达能力的特征,进而提高网络收敛速度;运用softmax分类层进行分类。结果 在公共数据集YawDD(a yawning detection dataset)上开展对比实验,本文方法在测试集上的F1-score检测准确率达到99.89%,在打哈欠类别上召回率达到100%;在数据集UTA-RLDD(University of Texas at Arlington real-life drowsiness dataset)上,本文方法在测试集上的F1-score检测准确率达到99.64%,在困倦类别上召回率达到100%;与Inception-V3融合LSTM(long short-term memory)的方法相比,本文方法模型大小为42.5 MB,是其模型大小的1/9,本文方法预测时间约660 ms,是其11%左右。结论 提出一种基于伪3D卷积神经网络与注意力机制的驾驶疲劳检测方法,利用注意力机制进一步分析哈欠、眨眼和头部特征运动,将哈欠行为与说话行为动作很好地区分开来。  相似文献   

14.
随着城市交通量的增大,安全隐患越来越多,车辆轨迹异常检测对于安全驾驶领域来说也越来越重要。为了更好地提取轨迹的特征,在循环神经网络检测的基础上加入了卷积神经网络,利用卷积加循环的神经网络检测学习轨迹序列信息,并且结合了注意力机制,通过这种技术结合的方法,进一步提高轨迹嵌入的质量。结果表明,该轨迹异常检测方法的性能在各项指标上显著优于其他检测算法,验证了该异常检测方法的有效性和实用性。  相似文献   

15.
针对视频中存在噪音,无法更好地获取特征信息,造成动作识别不精准的问题.提出了一种基于时空卷积神经网络的人体行为识别网络.将长时段视频进行分段处理,分别把RGB图片和计算出的光流图输入到两个卷积神经网络(CNN)中,使用权重相加的融合算法将提取的时域特征和空域特征融合成时空特征.形成的中层语义信息输入到R(2+1)D的卷积中,利用ResNet提高网络性能,最后在softmax层进行行行为识别.在UCF-101和HMDB-51数据集上进行实验,获得了92.1%和66.1%的准确率.实验表明,提出的双流融合与时空卷积网络模型有助于视频行为识别的准确率提高.  相似文献   

16.
视频异常检测是计算机视觉领域的一个重要研究课题,广泛应用于道路监控、异常事件监测等方面。考虑到异常行为的外观、运动特征与正常行为存在明显差异,提出一种改进型时间分段网络,利用该网络学习视频中的外观和运动信息,从而对视频异常行为进行预测。为了提取更多的视频信息,将RGB图和RGB帧差图相融合作为输入,以提取RGB图中的外观信息并通过RGB帧差图获得更有效的运动特征。将卷积注意力机制模块加入到时间分段网络模型中,从空间和通道2个不同的维度学习注意力图,利用学习到的注意力权重区分异常和正常的视频片段,同时运用焦点损失函数降低大量简单负样本在训练过程中所占的权重,使得模型更专注于难分类的样本,从而解决视频异常检测中正负样本比例不平衡的问题。实验结果表明,改进型时间分段网络在UCF-Crime和CUHK Avenue数据集上的AUC值分别达到77.6%和83.3%,检测性能优于基准方法TSN(RGB流)以及ISTL、3D-ConvAE等方法。  相似文献   

17.
为更好解决卷积神经网络提取特征不充分,难以处理长文本结构信息和捕获句子语义关系等问题,提出一种融合CNN和自注意力BiLSTM的并行神经网络模型TC-ABlstm.对传统的卷积神经网络进行改进,增强对文本局部特征的提取能力;设计结合注意力机制的双向长短期记忆神经网络模型来捕获文本上下文相关的全局特征;结合两个模型提取文...  相似文献   

18.
针对视频人体动作识别中动作信息利用率不高、时间信息关注度不足等问题,提出了一种基于紧耦合时空双流卷积神经网络的人体动作识别模型。首先,采用两个2D卷积神经网络分别提取视频中的空间特征和时间特征;然后,利用长短期记忆(LSTM)网络中的遗忘门模块在各采样片段之间建立特征层次的紧耦合连接以实现信息流的传递;接着,利用双向长短期记忆(Bi-LSTM)网络评估各采样片段的重要性并为其分配自适应权重;最后,结合时空双流特征以完成人体动作识别。在数据集UCF101和HMDB51上进行实验验证,该模型在这两个数据集上的准确率分别为94.2%和70.1%。实验结果表明,所提出的紧耦合时空双流卷积网络模型能够有效提高时间信息利用率和动作整体表达能力,由此明显提升人体动作识别的准确度。  相似文献   

19.
基于视频的行为识别技术在计算机视觉领域有广泛的应用.针对当前存在的网络模型不能有效结合视频数据中的时空信息,并且缺乏对不同尺度数据之间的融合信息进行考虑等问题,提出一种结合双流网络以及3D卷积神经网络的多尺度输入3D卷积融合双流模型.首先利用2D残差网以及多尺度输入3D卷积融合网络获取视频中的时空维度信息;然后将2层网络得到的实验结果进行决策相加,有效地提升网络对视频中时空特征提取的能力;最后通过在多尺度输入3D卷积融合网络对不同尺度的数据进行不同策略的融合,提高了网络对不同尺度数据的泛化能力.实验结果表明,文中模型在数据集UCF-101以及HMDB-51的识别准确率分别为90.5%与66.3%;相比于其他方法,该模型能取得更高的识别精度,体现出文中方法的优越性与鲁棒性.  相似文献   

20.
对于两阶段目标检测算法中模型存在检测精度低、小目标漏检率高等问题,提出通道分离双注意力机制的目标检测算法,通过改进Faster+FPN主干网络来提高小目标的检测精度。首先针对神经网络不能自动学习特征间的重要性问题,在通道分离过程中提出双注意力机制来构建深度神经网络,另结合分组卷积、空洞卷积等技术减少网络参数。其次针对高分辨率特征经过深度CNN后导致的信息丢失问题,通过添加细节提取模块以及通道注意力特征融合模块来提取更多的细节特征。最后考虑到一般损失函数不可重点评估目标物位置的置信度,结合KL散度进行损失函数优化,通过训练使得预测分布更接近真实分布,有效地解决了神经网络直接用于目标检测存在的问题。采用PASCAL VOC2007、KITTI以及Pedestrian三类数据集对网络进行训练,并将提出的模型与多个目标检测算法进行对比。实验结果表明,该算法能够高效地对图像进行识别,且具有较高的检测精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号