首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
技术可以从冗长的原始视频中提取出关键帧或关键镜头,生成简明紧凑的视频摘要,在基本概括了视频主要内容的基础上极大地缩短用户浏览时间。针对目前视频摘要算法普遍忽略视频中的运动信息而导致摘要缺乏逻辑性和故事性的问题,提出了一种基于多模态特征融合的动态视频摘要算法(MFFSN),采用了有监督的编码器-解码器的网络框架。在编码端通过深度神经网络提取原始视频帧的多尺度空间特征和光流图像的多尺度运动特征,利用运动引导注意力模块(Motion Guided Attention,MGA)进行时空注意力建模,对空间特征和运动特征进行有机融合得到多模态特征;在解码阶段,采用自注意力机制关注数据中的显著特征,再通过回归网络得到帧重要性分数;最后根据背包算法选择关键镜头生成动态摘要。在Sum Me基准数据集上的实验结果证明提出的MFFSN摘要算法优于现有的同类视频摘要算法。  相似文献   

2.
当前对视频的分析通常是基于视频帧,但视频帧通常存在大量冗余,所以关键帧的提取至关重要.现有的传统手工提取方法通常存在漏帧,冗余帧等现象.随着深度学习的发展,相对传统手工提取方法,深度卷积网络可以大大提高对图像特征的提取能力.因此本文提出使用深度卷积网络提取视频帧深度特征与传统方法提取手工特征相结合的方法提取关键帧.首先使用卷积神经网络对视频帧进行深度特征提取,然后基于传统手工方法提取内容特征,最后融合内容特征和深度特征提取关键帧.由实验结果可得本文方法相对以往关键帧提取方法有更好的表现.  相似文献   

3.
李群  肖甫  张子屹  张锋  李延超 《软件学报》2022,33(9):3195-3209
视频摘要生成是计算机视觉领域必不可少的关键任务,这一任务的目标是通过选择视频内容中信息最丰富的部分来生成一段简洁又完整的视频摘要,从而对视频内容进行总结.所生成的视频摘要通常为一组有代表性的视频帧(如视频关键帧)或按时间顺序将关键视频片段缝合所形成的一个较短的视频.虽然视频摘要生成方法的研究已经取得了相当大的进展,但现有的方法存在缺乏时序信息和特征表示不完备的问题,很容易影响视频摘要的正确性和完整性.为了解决视频摘要生成问题,本文提出一种空时变换网络模型,该模型包括三大模块,分别为:嵌入层、特征变换与融合层、输出层.其中,嵌入层可同时嵌入空间特征和时序特征,特征变换与融合层可实现多模态特征的变换和融合,最后输出层通过分段预测和关键镜头选择完成视频摘要的生成.通过空间特征和时序特征的分别嵌入,以弥补现有模型对时序信息表示的不足;通过多模态特征的变换和融合,以解决特征表示不完备的问题.我们在两个基准数据集上做了充分的实验和分析,验证了我们模型的有效性.  相似文献   

4.
白晨  范涛  王文静  王国中 《计算机应用研究》2023,40(11):3276-3281+3288
针对传统视频摘要算法没有充分利用视频的多模态信息、难以确保摘要视频片段时序一致性的问题,提出了一种融合多模态特征与时区检测的视频摘要算法(MTNet)。首先,通过GoogLeNet与VGGish预训练模型提取视频图像与音频的特征表示,设计了一种维度平滑操作对齐两种模态特征,使模型具备全面的表征能力;其次,考虑到生成的视频摘要应具备全局代表性,因此通过单双层自注意力机制结合残差结构分别提取视频图像与音频特征的长范围时序特征,获取模型在时序范围的单一向量表示;最后,通过分离式时区检测与权值共享方法对视频逐个时序片段的摘要边界与重要性进行预测,并通过非极大值抑制来选取关键视频片段生成视频摘要。实验结果表明,在两个标准数据集SumMe与TvSum上,MTNet的表征能力与鲁棒性更强;它的F1值相较基于无锚框的视频摘要算法DSNet-AF以及基于镜头重要性预测的视频摘要算法VASNet,在两个数据集上分别有所提高。  相似文献   

5.
目的 深度学习在视频超分辨率重建领域表现出优异的性能,本文提出了一种轻量级注意力约束的可变形对齐网络,旨在用一个模型参数少的网络重建出逼真的高分辨率视频帧。方法 本文网络由特征提取模块、注意力约束对齐子网络和动态融合分支3部分组成。1)共享权重的特征提取模块在不增加参数量的前提下充分提取输入帧的多尺度语义信息。2)将提取到的特征送入注意力约束对齐子网络中生成具有精准匹配关系的对齐特征。3)将拼接好的对齐特征作为共享条件输入动态融合分支,融合前向神经网络中参考帧的时域对齐特征和原始低分辨率(low-resolution,LR)帧在不同阶段的空间特征。4)通过上采样重建高分辨率(high-resolution,HR)帧。结果 实验在两个基准测试数据集(Vid4(Vimeo-90k)和REDS4(realistic and diverse scenes dataset))上进行了定量评估,与较先进的视频超分辨率网络相比,本文方法在图像质量指标峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)方面获得...  相似文献   

6.
视频摘要技术的目的是在缩短视频长度的同时,概括视频的主要内容,这样可以极大地节省人们浏览视频的时间。视频摘要技术的一个关键步骤是评估生成摘要的性能,现有的大多数方法是基于整个视频进行评估。然而,基于整个视频序列进行评估的计算成本很高,特别是对于长视频。而且在整个视频上评估生成摘要往往忽略了视频数据固有的时序关系,导致生成摘要缺乏故事情节的逻辑性。因此,提出了一个关注局部信息的视频摘要网络,称为自注意力和局部奖励视频摘要网络(ALRSN)。确切地说,该模型采用自注意力机制预测视频帧的重要性分数,然后通过重要性分数生成视频摘要。为了评估生成摘要的性能,进一步设计了一个局部奖励函数,同时考虑了视频摘要的局部多样性和局部代表性。该函数将生成摘要映射回原视频,并在局部范围内评估摘要的性能,使其具有原视频的时序结构。通过在局部范围内获得更高的奖励分数,使模型生成更多样化、更具代表性的视频摘要。综合实验表明,在两个基准数据集SumMe和TvSum上,ALRSN模型优于现有方法。  相似文献   

7.
自注意力机制的视频摘要模型   总被引:1,自引:0,他引:1  
针对如何高效地识别出视频中具有代表性的内容问题,提出了一种对不同的视频帧赋予不同重要性的视频摘要算法.首先使用长短期记忆网络来建模视频序列的时序关系,然后利用自注意力机制建模视频中不同帧的重要性程度并提取全局特征,最后通过每一帧回归得到的重要性得分进行采样,并使用强化学习策略优化模型参数.其中,强化学习的动作定义为每一帧选或者不选,状态定义为当前这个视频的选择情况,反馈信号使用多样性和代表性代价.在2个公开数据集SumMe和TVSum中进行视频摘要实验,并使用F-度量来衡量这2个数据集上不同视频摘要算法的准确度,实验结果表明,提出的视频摘要算法结果要优于其他算法.  相似文献   

8.
视频的时序结构特征是视频的重要特征。提出了一种基于DTW和图谱理论的视频结构特征提取与表示方法,并将这种结构特征融合视觉特征用于视频的镜头检索。根据镜头分割中的帧差曲线,使用DTW原理得到视频镜头特征帧,以镜头特征帧作为图的顶点,以特征帧间的关系作为图的边,生成镜头关系图,分解图的邻接矩阵,得到镜头结构谱,融合镜头的视觉特征得到最终的检索结果。实验结果表明,视频的结构谱特征可以有效地表示视频的结构特征,在视频检索中也是有效的。  相似文献   

9.
赵磊  黄华 《计算机科学》2016,43(7):46-50
传统的像素域视频摘要方法需要完全解码视频,计算时间长。因此提出了一种在不解码的前提下直接在压缩域生成AVS格式摘要视频的算法。首先对AVS码流中的运动向量(MV)进行分析,提取前景运动宏块;然后跟踪前景宏块,得到有效的运动目标轨迹;最后提取AVS监控档视频中的背景帧,并将它与运动目标轨迹相结合,生成摘要视频。实验表明,该算法能够在压缩域下有效地生成摘要视频,相比于传统方法具有更快的处理速度。  相似文献   

10.
关键帧提取是基于内容的视频摘要生成中的一个重要技术.首次引入仿射传播聚类方法来提取视频关键帧.该方法结合两个连续图像帧的颜色直方图交,通过消息传递,实现数据点的自动聚类.并与k means和SVC(support vector clustering)算法的关键帧提取方法进行了比较.实验结果表明,AP(Affinity Propagation)聚类的关键帧提取速度快,准确性高,生成的视频摘要具有良好的压缩率和内容涵盖率.  相似文献   

11.
基于BiLSTM-CNN串行混合模型的文本情感分析   总被引:1,自引:0,他引:1  
针对现有文本情感分析方法准确率不高、实时性不强以及特征提取不充分的问题,构建了双向长短时记忆神经网络和卷积神经网络(BiLSTM-CNN)的串行混合模型。首先,利用双向循环长短时记忆(BiLSTM)神经网络提取文本的上下文信息;然后,对已提取的上下文特征利用卷积神经网络(CNN)进行局部语义特征提取;最后,使用Softmax得出文本的情感倾向。通过与CNN、长短时记忆神经网络(LSTM)、BiLSTM等单一模型对比,所提出的文本情感分析模型在综合评价指标F1上分别提高了2.02个百分点、1.18个百分点和0.85个百分点;与长短时记忆神经网络和卷积神经网络(LSTM-CNN)、BiLSTM-CNN并行特征融合等混合模型对比,所提出的文本情感分析模型在综合评价指标F1上分别提高了1.86个百分点和0.76个百分点。实验结果表明,基于BiLSTM-CNN的串行混合模型在实际应用中具有较大的价值。  相似文献   

12.
卫星  乐越  韩江洪  陆阳 《计算机应用》2019,39(7):1894-1898
高级辅助驾驶装置采用机器视觉技术实时处理摄录的行车前方车辆视频,动态识别并预估其姿态和行为。针对该类识别算法精度低、延迟大的问题,提出一种基于长短期记忆(LSTM)的车辆行为动态识别深度学习算法。首先,提取车辆行为视频中的关键帧;其次,引入双卷积网络并行对关键帧的特征信息进行分析,再利用LSTM网络对提取出的特性信息进行序列建模;最后,通过输出的预测得分判断出车辆行为类别。实验结果表明,所提算法识别准确率可达95.6%,对于单个视频的识别时间只要1.72 s;基于自建数据集,改进的双卷积算法相比普通卷积网络在准确率上提高8.02%,与传统车辆行为识别算法相比准确率提高6.36%。  相似文献   

13.
语言优美是学生写作能力中重要的一部分。该文提出一个面向作文自动评分的作文优美句识别任务,主要识别中学生中文作文中的优美句。相比传统文本分类任务,优美句识别更加难以用特征工程的方式解决。因此,该文提出一种基于卷积神经网络(CNN)和双向长短时记忆(BiLSTM)网络的混合神经网络结构进行优美句识别,并和CNN、BiLSTM网络进行了对比。实验证明,混合神经网络的准确率最高,达到89.23%,F1值与BiLSTM相当,达到75.39%。此外,该文将优美句子特征用于作文自动评分任务,可使计算机评分和人工评分的大分差比例下降21.41%。  相似文献   

14.
武国亮  徐继宁 《计算机应用》2021,41(7):1891-1896
针对基于双向长短期记忆网络-条件随机场(BiLSTM-CRF)的事件抽取模型仅能获取字粒度语义信息,可学习特征维度较低致使模型上限低的问题,以开放领域的中文公共突发事件数据为研究对象,提出了一种基于命名实体识别任务反馈增强的中文突发事件抽取方法FB-Latiice-BiLSTM-CRF.首先,将Lattice(点阵)机...  相似文献   

15.
基于CNN和BiLSTM网络特征融合的文本情感分析   总被引:1,自引:0,他引:1  
李洋  董红斌 《计算机应用》2018,38(11):3075-3080
卷积神经网络(CNN)和循环神经网络(RNN)在自然语言处理上得到广泛应用,但由于自然语言在结构上存在着前后依赖关系,仅依靠卷积神经网络实现文本分类将忽略词的上下文含义,且传统的循环神经网络存在梯度消失或梯度爆炸问题,限制了文本分类的准确率。为此,提出一种卷积神经网络和双向长短时记忆(BiLSTM)特征融合的模型,利用卷积神经网络提取文本向量的局部特征,利用BiLSTM提取与文本上下文相关的全局特征,将两种互补模型提取的特征进行融合,解决了单卷积神经网络模型忽略词在上下文语义和语法信息的问题,也有效避免了传统循环神经网络梯度消失或梯度弥散问题。在两种数据集上进行对比实验,实验结果表明,所提特征融合模型有效提升了文本分类的准确率。  相似文献   

16.
传统图像描述算法存在提取图像特征利用不足、缺少上下文信息学习和训练参数过多的问题,提出基于ViLBERT和双层长短期记忆网络(BiLSTM)结合的图像描述算法.使用ViLBERT作为编码器,ViLBERT模型能将图片特征和描述文本信息通过联合注意力的方式进行结合,输出图像和文本的联合特征向量.解码器使用结合注意力机制的BiLSTM来生成图像描述.该算法在MSCOCO2014数据集进行训练和测试,实验评价标准BLEU-4和BLEU得分分别达到36.9和125.2,优于基于传统图像特征提取结合注意力机制图像描述算法.通过生成文本描述对比可看出,该算法生成的图像描述能够更细致地表述图片信息.  相似文献   

17.
针对工业领域中故障诊断数据存在时序性和夹杂强噪声的特点导致的收敛速度慢以及诊断精度低的问题,提出了一种基于改进一维卷积和双向长短期记忆(1DCNN-BiLSTM)神经网络融合的故障诊断方法。该方法包括故障振动信号的预处理、特征的自动提取以及振动信号的分类。首先,采用自适应白噪声的完整经验模态分解(CEEMDAN)技术对原始振动信号进行预处理;其次,构建1DCNN-BiLSTM双通道模型,将处理后信号输入双向长短期记忆(BiLSTM)神经网络模型和一维卷积神经网络(1DCNN)模型两个通道,从而对信号的时序相关性特征、局部空间的非相关性特征和弱周期性规律进行充分提取;然后,针对信号夹杂强噪声的问题,对压缩与激励网络(SENet)模块进行改进并将其作用于两个不同的通道;最后,输入全连接层将双通道提取的特征进行融合并借助Softmax分类器实现对设备故障的精确识别。使用凯斯西储大学轴承数据集进行实验,结果表明改进后的SENet模块同时作用于1DCNN通道和stacked BiLSTM通道,1DCNN-BiLSTM双通道模型在保证快速收敛的情况下有最高诊断精度96.87%,优于传统单通道模型,有效提高了机械设备故障诊断效率。  相似文献   

18.
卫鑫  武淑红  王耀力 《计算机应用》2019,39(10):2883-2887
针对采样的每帧烟雾特征具有极大的相似性,以及森林火灾烟雾数据集相对较小且单调等问题,为充分利用烟雾的静态与动态信息来达到预防森林火灾的目的,提出一种深度卷积集成式长短期记忆网络(DC-ILSTM)模型。首先,使用在ImageNet数据集上预训练好的VGG-16网络进行基于同构数据的特征迁移,以有效提取出烟雾特征;其次,基于池化层与长短期记忆网络(LSTM)提出一种集成式长短期记忆网络(ILSTM),并利用ILSTM分段融合烟雾特征;最后,搭建一种可训练的深度神经网络模型用于森林火灾烟雾检测。烟雾检测实验中,与深卷积长递归网络(DCLRN)相比,DC-ILSTM在最佳效率下以10帧的优势检测到烟雾,而且在测试准确率上提高了1.23个百分点。实验结果表明,DC-ILSTM在森林火灾烟雾检测中有很好的适用性。  相似文献   

19.
针对视频流行度动态变化过程中的时序信息难以捕捉的问题,提出一种融合内容特征和时序信息的深度注意力视频流行度预测模型(DAFCT).首先,根据用户的反馈信息,构建基于注意力机制的长短期记忆网络(Attention-LSTM)模型来捕捉流行趋势并挖掘时序信息;然后,采用神经网络因子分解机(NFM)处理多模态的内容特征,并采...  相似文献   

20.
张玉帅  赵欢  李博 《计算机科学》2021,48(1):247-252
语义槽填充是对话系统中一项非常重要的任务,旨在为输入句子的每个单词标注正确的标签,其性能的好坏极大地影响着后续的对话管理模块.目前,使用深度学习方法解决该任务时,一般利用随机词向量或者预训练词向量作为模型的初始化词向量.但是,随机词向量存在不具备语义和语法信息的缺点;预训练词向量存在"一词一义"的缺点,无法为模型提供具...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号