首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 218 毫秒
1.
目前深度学习模型不能较好地把监控视频中跌倒行为的空间和时序特征有效结合起来。为此,提出基于CNN(convolutional neural network)和LSTM(long-short term memory)混合模型的人体跌倒行为识别方法。该模型采用两层结构,将视频以每5帧为一组输入到网络中,CNN提取视频序列的空间特征,LSTM提取视频时间维度上的特征,最后使用softmax分类器进行识别。实验表明,该方法可以有效提高跌倒识别的准确率。  相似文献   

2.
时序数据存在时序性,并且其短序列的特征存在重要程度差异性。针对时序数据特征,提出一种基于注意力机制的卷积神经网络(CNN)联合长短期记忆网络(LSTM)的神经网络预测模型,融合粗细粒度特征实现准确的时间序列预测。该模型由两部分构成:基于注意力机制的CNN,在标准CNN网络上增加注意力分支,以抽取重要细粒度特征;后端为LSTM,由细粒度特征抽取潜藏时序规律的粗粒度特征。在真实的热电联产供热数据上的实验表明,该模型比差分整合移动平均自回归、支持向量回归、CNN以及LSTM模型的预测效果更好,对比目前企业将预定量作为预测量的方法,预测缩放误差平均值(MASE)与均方根误差(RMSE)指标分别提升了89.64%和61.73%。  相似文献   

3.
针对在视频行为检测中卷积神经网络(CNN)对时域信息理解能力不足的问题,提出了一种融合非局部神经网络的行为检测模型.模型采用一种双分支的CNN结构,分别提取视频的空间特征和运动特征.将视频单帧和视频连续帧序列作为网络输入,空间网络对视频当前帧进行2D CNN特征提取,时空网络采用融合非局部模块的3D CNN来捕获视频帧...  相似文献   

4.
张德正  翁理国  夏旻  曹辉 《计算机应用》2019,39(6):1657-1662
针对视频帧预测中难以准确预测空间结构信息细节的问题,通过对卷积长短时记忆(LSTM)神经网络的改进,提出了一种深度卷积长短时神经网络的方法。首先,将输入序列图像输入到两个不同通道的深度卷积LSTM网络组成的编码网络中,由编码网络学习输入序列图像的位置信息变化特征和空间结构信息变化特征;然后,将学习到的变化特征输入到与编码网络通道数对应的解码网络中,由解码网络输出预测的下一张图;最后,将这张图输入回解码网络中,预测接下来的一张图,循环预先设定的次后输出全部的预测图。与卷积LSTM神经网络相比,在Moving-MNIST数据集上的实验中,相同训练步数下所提方法不仅保留了位置信息预测准确的特点,而且空间结构信息细节表征能力更强。同时,将卷积门控循环单元(GRU)神经网络的卷积层加深后,该方法在空间结构信息细节表征上也取得了提升,检验了该方法思想的通用性。  相似文献   

5.
王艺霏  于雷  滕飞  宋佳玉  袁玥 《计算机应用》2022,42(5):1508-1515
高准确率的资源负载预测能够为实时任务调度提供依据,从而降低能源消耗。但是,针对资源负载的时间序列的预测模型,大多是通过提取时间序列的长时序依赖特性来进行短期或者长期预测,忽略了时间序列中的短时序依赖特性。为了更好地对资源负载进行长期预测,提出了一种基于长-短时序特征融合的边缘计算资源负载预测模型。首先,利用格拉姆角场(GAF)将时间序列转变为图像格式数据,以便利用卷积神经网络(CNN)来提取特征;然后,通过卷积神经网络提取空间特征和短期数据的特征,用长短期记忆(LSTM)网络来提取时间序列的长时序依赖特征;最后,将所提取的长、短时序依赖特征通过双通道进行融合,从而实现长期资源负载预测。实验结果表明,所提出的模型在阿里云集群跟踪数据集CPU资源负载预测中的平均绝对误差(MAE)为3.823,均方根误差(RMSE)为5.274,拟合度(R2)为0.815 8,相较于单通道的CNN和LSTM模型、双通道CNN+LSTM和ConvLSTM+LSTM模型,以及资源负载预测模型LSTM-ED和XGBoost,所提模型的预测准确率更高。  相似文献   

6.
为实现感兴趣区手语视频编码,提高通话效率,提出一种基于细胞神经网络(CNN)的快速手语视频分割方法。该方法首先利用肤色信息特征进行基于CNN的肤色检测,检测出手语视频中的肤色区域;然后对肤色检测结果,利用帧差法进行基于CNN的运动检测,获得初始的手势区域;最后采用形态学处理方法进行空洞填充和边界平滑,实现了手语视频图像序列中的面部和手部区域的分割。研究结果表明,该方法能够快速准确地进行手语视频分割。  相似文献   

7.
为让用户通过输入自然语言就可以跟机器进行交互,实现文本的智能问答,提出基于混合神经网络的智能问答算法。将LSTM(long short-term memory)和CNN(convolutional neural network)相结合。利用LSTM计算问题和答案的语义特征,针对语义特征的选择进行改进。采用CNN对LSTM得到的语义特征进行筛选;通过计算问题和答案特征之间的相似度得到该模型的目标函数,给出问题对应的正确答案。仿真结果验证了该算法的可行性及有效性。  相似文献   

8.
近年来,深度学习在人工智能领域表现出优异的性能。基于深度学习的人脸生成和操纵技术已经能够合成逼真的伪造人脸视频,也被称作深度伪造,让人眼难辨真假。然而,这些伪造人脸视频可能会给社会带来巨大的潜在威胁,比如被用来制作政治虚假新闻,从而引发政治暴力或干扰正常选举等。因此,亟需研发对应的检测方法来主动发现伪造人脸视频。现有的方法在制作伪造人脸视频时,容易在空间上和时序上留下一些细微的伪造痕迹,比如纹理和颜色上的扭曲或脸部的闪烁等。主流的检测方法同样采用深度学习,可以被划分为两类,即基于视频帧的方法和基于视频片段的方法。前者采用卷积神经网络(Convolutional Neural Network,CNN)发现单个视频帧中的空间伪造痕迹,后者则结合循环神经网络(Recurrent Neural Network,RNN)捕捉视频帧之间的时序伪造痕迹。这些方法都是基于图像的全局信息进行决策,然而伪造痕迹一般存在于五官的局部区域。因而本文提出了一个统一的伪造人脸视频检测框架,利用全局时序特征和局部空间特征发现伪造人脸视频。该框架由图像特征提取模块、全局时序特征分类模块和局部空间特征分类模块组成。在FaceForensics++数据集上的实验结果表明,本文所提出的方法比之前的方法具有更好的检测效果。  相似文献   

9.
针对传统视频摘要方法往往没有考虑时序信息以及提取的视频特征过于复杂、易出现过拟合现象的问题,提出一种基于改进的双向长短期记忆(BiLSTM)网络的视频摘要生成模型。首先,通过卷积神经网络(CNN)提取视频帧的深度特征,而且为了使生成的视频摘要更具多样性,采用BiLSTM网络将深度特征识别任务转换为视频帧的时序特征标注任务,让模型获得更多上下文信息;其次,考虑到生成的视频摘要应当具有代表性,因此通过融合最大池化在降低特征维度的同时突出关键信息以淡化冗余信息,使模型能够学习具有代表性的特征,而特征维度的降低也减少了全连接层需要的参数,避免了过拟合问题;最后,预测视频帧的重要性分数并转换为镜头分数,以此选取关键镜头生成视频摘要。实验结果表明,在标准数据集TvSum和SumMe上,改进后的视频摘要生成模型能提升生成视频摘要的准确性;而且它的F1-score值也比基于长短期记忆(LSTM)网络的视频摘要模型DPPLSTM在两个数据集上分别提高1.4和0.3个百分点。  相似文献   

10.
微博情感分析旨在研究用户关于热点事件的情感观点,研究表明深度学习在微博情感分析上具有可行性。针对传统卷积神经网络进行微博情感分析时忽略了非连续词之间的相关性,为此将注意力机制应用到卷积神经网络(CNN)模型的输入端以改善此问题。由于中文微博属于短文本范畴,卷积神经网络前向传播过程中池化层特征选择存在丢失过多语义特征的可能性,为此在卷积神经网络的输出端融入树型的长短期记忆神经网络(LSTM),通过添加句子结构特征加强深层语义学习。在两种改进基础上构造出一种微博情感分析模型(Att-CTL),实验表明该模型在微博情感分析上具有优良的特性,尤其在极性转移方面仍保持较高的F1值。  相似文献   

11.
目的 相比于静态人脸表情图像识别,视频序列中的各帧人脸表情强度差异较大,并且含有中性表情的帧数较多,然而现有模型无法为视频序列中每帧图像分配合适的权重。为了充分利用视频序列中的时空维度信息和不同帧图像对视频表情识别的作用力差异特点,本文提出一种基于Transformer的视频序列表情识别方法。方法 首先,将一个视频序列分成含有固定帧数的短视频片段,并采用深度残差网络对视频片段中的每帧图像学习出高层次的人脸表情特征,从而生成一个固定维度的视频片段空间特征。然后,通过设计合适的长短时记忆网络(long short-term memory network,LSTM)和Transformer模型分别从该视频片段空间特征序列中进一步学习出高层次的时间维度特征和注意力特征,并进行级联输入到全连接层,从而输出该视频片段的表情分类分数值。最后,将一个视频所有片段的表情分类分数值进行最大池化,实现该视频的最终表情分类任务。结果 在公开的BAUM-1s (Bahcesehir University multimodal)和RML (Ryerson Multimedia Lab)视频情感数据集上的试验结果表明,该方法分别取得了60.72%和75.44%的正确识别率,优于其他对比方法的性能。结论 该方法采用端到端的学习方式,能够有效提升视频序列表情识别性能。  相似文献   

12.
针对Word2Vec、GloVe等词嵌入技术对多义词只能产生单一语义向量的问题,提出一种融合基于语言模型的词嵌入(ELMo)和多尺度卷积神经网络(MSCNN)的情感分析模型。首先,该模型利用ELMo学习预训练语料,生成上下文相关的词向量;相较于传统词嵌入技术,ELMo利用双向长短程记忆(LSTM)网络融合词语本身特征和词语上下文特征,能够精确表示多义词的多个不同语义;此外,该模型使用预训练的中文字符向量初始化ELMo的嵌入层,相对于随机初始化,该方法可加快模型的训练速度,提高训练精度;然后,该模型利用多尺度卷积神经网络,对词向量的特征进行二次抽取,并进行特征融合,生成句子的整体语义表示;最后,经过softmax激励函数实现文本情感倾向的分类。实验在公开的酒店评论和NLPCC2014 task2两个数据集上进行,实验结果表明,在酒店评论数据集上与基于注意力的双向LSTM模型相比,该模型正确率提升了1.08个百分点,在NLPCC2014 task2数据集上与LSTM和卷积神经网络(CNN)的混合模型相比,该模型正确率提升了2.16个百分点,证明了所提方法的有效性。  相似文献   

13.
现有法语命名实体识别(NER)研究中,机器学习模型多使用词的字符形态特征,多语言通用命名实体模型使用字词嵌入代表的语义特征,都没有综合考虑语义、字符形态和语法特征。针对上述不足,设计了一种基于深度神经网络的法语命名实体识别模型CGC-fr。首先从文本中提取单词的词嵌入、字符嵌入和语法特征向量;然后由卷积神经网络(CNN)从单词的字符嵌入序列中提取单词的字符特征;最后通过双向门控循环神经网络(BiGRU)和条件随机场(CRF)分类器根据词嵌入、字符特征和语法特征向量识别出法语文本中的命名实体。实验中,CGC-fr在测试集的F1值能够达到82.16%,相对于机器学习模型NERC-fr、多语言通用的神经网络模型LSTM-CRF和Char attention模型,分别提升了5.67、1.79和1.06个百分点。实验结果表明,融合三种特征的CGC-fr模型比其他模型更具有优势。  相似文献   

14.
目的 图像检索是计算机视觉的一项重要任务。图像检索的关键是图像的内容描述,复杂图像的内容描述很具有挑战性。传统的方法用固定长度的向量描述图像内容,为此提出一种变长序列描述模型,目的是丰富特征编码的信息表达能力,提高检索精度。方法 本文提出序列描述模型,用可变长度特征序列描述图像。序列描述模型首先用CNN(convolutional neural network)提取底层特征,然后用中间层LSTM(long short-term memory)产生局部特征的相关性表示,最后用视觉注意LSTM(attention LSTM)产生一组向量描述一幅图像。通过匈牙利算法计算图像之间的相似性完成图像检索任务。模型采用标签级别的triplet loss函数进行端对端的训练。结果 在MIRFLICKR-25K和NUS-WIDE数据集上进行图像检索实验,并和相关算法进行比较。相对于其他方法,本文模型检索精度提高了512个百分点。相对于定长的图像描述方式,本文模型在多标签数据集上能够显著改善检索效果。结论 本文提出了新的图像序列描述模型,可以显著改善检索效果,适用于多标签图像的检索任务。  相似文献   

15.
为了有效提取连续视频帧间的时间信息,提出一种融合独立循环神经网络(IndRNN)与变分自编码(VAE)网络的预测网络IndRNN-VAE。首先,利用VAE网络提取视频帧的空间信息,并通过线性变换得到视频帧的潜在特征;然后,将潜在特征作为IndRNN的输入以得到视频帧序列的时间信息;最后,通过残差块将获得的潜在变量与时间信息进行融合并输入到解码网络中来生成预测帧。通过在UCSD Ped1、UCSD Ped2、Avenue公开数据集上进行测试,实验结果表明,与现有的异常检测方法相比,基于IndRNN-VAE的方法性能得到了显著提升,曲线下面积(AUC)值分别达到了84.3%、96.2%和86.6%,错误率(EER)值分别达到了22.7%、8.8%和19.0%,平均异常得分的差值分别达到了0.263、0.497和0.293,且运行速度达到了每秒28帧。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号