首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
视频摘要技术综述   总被引:2,自引:0,他引:2       下载免费PDF全文
目的 类似于文本摘要,视频摘要是对视频内容的总结。为了合理地评估视频摘要领域的研究进展,正确导向视频摘要的继续研究,本文归纳总结视频摘要技术的主要研究方法和显著性成果,对视频摘要技术进行综述。方法 依据视频摘要的两个主要生成步骤:视频内容分析和摘要生成分别介绍视频摘要的主要研究方法。同时,分析了近5年视频摘要领域的研究状况,对视频摘要发展的新趋势:实时视频摘要和多视角视频摘要进行了阐述。最后,还对视频摘要的评价系统进行了分类总结。结果 对视频摘要进行综述,对摘要中的语义获取难题提出了2种指导性建议。并依据分析结果,展望了视频摘要技术未来的发展方向。结论 视频摘要技术作为视频内容理解的重要组成部分,有较大研究价值。而目前,视频摘要在视频语义表达和摘要评价系统方面并不精确完善,还需进一步的深入研究。  相似文献   

2.
基于局部-空间模型的视频摘要研究与设计   总被引:1,自引:1,他引:0       下载免费PDF全文
王群  刘群  向明辉  吴渝 《计算机工程》2011,37(2):278-280
介绍视频摘要技术以及缩略视频的3类研究方法,提出一种基于局部-空间模型的视频摘要研究方法.通过对视频序列的帧内与帧间信息的分析得到关键帧,对提取出的关键帧进行双线性插值形成视频段,运用DirectShow开发软件的DES对视频段编辑融合成最终的动态视频摘要.实验结果表明,在不需要人工干预的情况下,自动生成的视频摘要不仅...  相似文献   

3.
针对长文本自动摘要任务中抽取式模型摘要较为冗余,而生成式摘要模型时常有关键信息丢失、摘要不准确和生成内容重复等问题,提出一种面向长文本的基于优势演员-评论家算法的强化自动摘要模型(A2C-RLAS)。首先,用基于卷积神经网络(CNN)和循环神经网络(RNN)的混合神经网络的抽取器(extractor)来提取原文关键句;然后,用基于拷贝机制和注意力机制的重写器(rewriter)来精炼关键句;最后,使用强化学习的优势演员-评论家(A2C)算法训练整个网络,把重写摘要和参考摘要的语义相似性(BERTScore值)作为奖励(reward)来指导抽取过程,从而提高抽取器提取句子的质量。在CNN/Daily Mail数据集上的实验结果表明,与基于强化学习的抽取式摘要(Refresh)模型、基于循环神经网络的抽取式摘要序列模型(SummaRuNNer)和分布语义奖励(DSR)模型等模型相比,A2C-RLAS的最终摘要内容更加准确、语言更加流畅,冗余的内容有效减少,且A2C-RLAS的ROUGE和BERTScore指标均有提升。相较于Refresh模型和SummaRuNNer模型,A2C-RLAS模型的ROUGE-L值分别提高了6.3%和10.2%;相较于DSR模型,A2C-RLAS模型的F1值提高了30.5%。  相似文献   

4.
视频摘要技术是当前多媒体领域研究的热点之一。视频摘要生成方法归结为两类:基于关键帧的视频摘要和基于对象的视频摘要;对基于关键帧的视频摘要方法做了简要的介绍,并重点总结了历年来出现的基于对象的视频摘要的生成方法。最后对视频摘要技术的发展做出了总结和展望。  相似文献   

5.
基于流形学习和混合模型的视频摘要方法   总被引:1,自引:0,他引:1       下载免费PDF全文
视频摘要是进行视频浏览、视频检索、视频索引等视频应用的前提,而且视频摘要类似于文本的摘要,也是对视频内容的一个简短概括。为了自动获得既包含视频的主要信息,而冗余信息又少的视频摘要,提出了一种基于流形学习和有限混合模型的自动视频摘要方法。该方法通过对视频序列进行流形建模,首先得到视频场景的初次分割;然后对包含内容较多的场景,使用等距降维方法计算视频帧的特征向量;最后将视频帧的特征向量输入到混合模型进行聚类分析,得到更细粒度的摘要结果。为了实现视频摘要的自动处理,所采用的混合模型需要具有模型选择功能。混合模型的聚类结果和流形建模的结果共同构成了视频摘要。视频分割片段的实验结果表明,在不需人为干预的情况下,所提供的视频摘要不仅包含视频主要内容,而且冗余信息少。  相似文献   

6.
视频摘要技术的目的是在缩短视频长度的同时,概括视频的主要内容,这样可以极大地节省人们浏览视频的时间。视频摘要技术的一个关键步骤是评估生成摘要的性能,现有的大多数方法是基于整个视频进行评估。然而,基于整个视频序列进行评估的计算成本很高,特别是对于长视频。而且在整个视频上评估生成摘要往往忽略了视频数据固有的时序关系,导致生成摘要缺乏故事情节的逻辑性。因此,提出了一个关注局部信息的视频摘要网络,称为自注意力和局部奖励视频摘要网络(ALRSN)。确切地说,该模型采用自注意力机制预测视频帧的重要性分数,然后通过重要性分数生成视频摘要。为了评估生成摘要的性能,进一步设计了一个局部奖励函数,同时考虑了视频摘要的局部多样性和局部代表性。该函数将生成摘要映射回原视频,并在局部范围内评估摘要的性能,使其具有原视频的时序结构。通过在局部范围内获得更高的奖励分数,使模型生成更多样化、更具代表性的视频摘要。综合实验表明,在两个基准数据集SumMe和TvSum上,ALRSN模型优于现有方法。  相似文献   

7.
视频摘要是对视频内容进行浓缩的一项技术,对于快速了解视频内容至关重要。如何对视频摘要的效果进行评价,是值得研究的一个问题。论文基于层次分析法构建了视频摘要评价模型,将视频摘要质量作为最终评价目标,以内容合理性和结构合理性作为准则,以内容完整性、特殊重要性、整体流畅性等作为测度层,从而建立了视频摘要评价指标体系。最后,通过对随机生成、基于特写人脸的摘要生成以及融合视音频特征的摘要生成三种算法对所提评价方法进行了实验验证,表明该方法能够有效反映出视频摘要的质量。  相似文献   

8.
视频摘要的现状和研究进展*   总被引:1,自引:0,他引:1  
首先概述了视频摘要的概念和分类、视频摘要生成方法及视频摘要模型的建立,综述了国内外视频摘要系统。最后探讨了视频摘要的性能评估、存在问题和发展方向。  相似文献   

9.
基于模式识别视频搜索技术的研究   总被引:1,自引:0,他引:1  
本文中视频搜索技术针对音视频这类非结构化数据,使用了实时音频索引、自动抽帧和内容自动关联等技术,从内容上对视频进行检索,通过对视频中的语音、图象和文字的自动分析和处理,根据不同的视频分解粒度和对象重要度判定模型,建立模式识别算法,生成视频摘要,从而形成高效的视频搜索系统。  相似文献   

10.
基于关键帧的视频摘要研究   总被引:7,自引:0,他引:7  
提出基于Directshow组件结构实时提取各类音视频特征的方法,并综合利用这些特征,通过对常用的视频关键帧提取算法进行分析比较,提出了基于FCNN模型的自适应关键帧提取方法,该方法可以适应于各种视频类型。以关键帧为基础,提出利用插值算法建立视频摘要的方法。最后以新闻视频为例,给出了基于内容的新闻视频摘要系统(KBVA-1)。  相似文献   

11.
谭洁  吴玲达  应龙 《计算机应用研究》2009,26(10):3960-3962
针对动画视频与新闻视频、体育运动视频的不同特点,提出了一种适合动画视频的 技术。首先通过对动画视频的结构分析得到动画视频的可视特征与层次结构;然后根据动画视频内容的重要度来选取视频中的重要片段;最后通过粒度选择,按照时序方式组合得到故事板和缩略视频形式的视频 。实验表明该方法能有效地获得动画视频 。  相似文献   

12.
13.
Due to the information redundancy of video, automatically extracting essential video content is one of key techniques for accessing and managing large video library. In this paper, we present a generic framework of a user attention model, which estimates the attentions viewers may pay to video contents. As human attention is an effective and efficient mechanism for information prioritizing and filtering, user attention model provides an effective approach to video indexing based on importance ranking. In particular, we define viewer attention through multiple sensory perceptions, i.e. visual and aural stimulus as well as partly semantic understanding. Also, a set of modeling methods for visual and aural attentions are proposed. As one of important applications of user attention model, a feasible solution of video summarization, without fully semantic understanding of video content as well as complex heuristic rules, is implemented to demonstrate the effectiveness, robustness, and generality of the user attention model. The promising results from the user study on video summarization indicate that the user attention model is an alternative way to video understanding.  相似文献   

14.
With the proliferation of video data, video summarization is an ideal tool for users to browse video content rapidly. In this paper, we propose a novel foveated convolutional neural networks for dynamic video summarization. We are the first to integrate gaze information into a deep learning network for video summarization. Foveated images are constructed based on subjects’ eye movements to represent the spatial information of the input video. Multi-frame motion vectors are stacked across several adjacent frames to convey the motion clues. To evaluate the proposed method, experiments are conducted on two video summarization benchmark datasets. The experimental results validate the effectiveness of the gaze information for video summarization despite the fact that the eye movements are collected from different subjects from those who generated summaries. Empirical validations also demonstrate that our proposed foveated convolutional neural networks for video summarization can achieve state-of-the-art performances on these benchmark datasets.  相似文献   

15.
自注意力机制的视频摘要模型   总被引:1,自引:0,他引:1  
针对如何高效地识别出视频中具有代表性的内容问题,提出了一种对不同的视频帧赋予不同重要性的视频摘要算法.首先使用长短期记忆网络来建模视频序列的时序关系,然后利用自注意力机制建模视频中不同帧的重要性程度并提取全局特征,最后通过每一帧回归得到的重要性得分进行采样,并使用强化学习策略优化模型参数.其中,强化学习的动作定义为每一帧选或者不选,状态定义为当前这个视频的选择情况,反馈信号使用多样性和代表性代价.在2个公开数据集SumMe和TVSum中进行视频摘要实验,并使用F-度量来衡量这2个数据集上不同视频摘要算法的准确度,实验结果表明,提出的视频摘要算法结果要优于其他算法.  相似文献   

16.
In this paper, we propose a new video summarization procedure that produces a dynamic (video) abstract of the original video sequence. Our technique compactly summarizes a video data by preserving its original temporal characteristics (visual activity) and semantically essential information. It relies on an adaptive nonlinear sampling. The local sampling rate is directly proportional to the amount of visual activity in localized sub-shot units of the video. To get very short, yet semantically meaningful summaries, we also present an event-oriented abstraction scheme, in which two semantic events; emotional dialogue and violent action, are characterized and abstracted into the video summary before all other events. If the length of the summary permits, other non key events are then added. The resulting video abstract is highly compact.  相似文献   

17.
针对传统视频摘要方法往往没有考虑时序信息以及提取的视频特征过于复杂、易出现过拟合现象的问题,提出一种基于改进的双向长短期记忆(BiLSTM)网络的视频摘要生成模型。首先,通过卷积神经网络(CNN)提取视频帧的深度特征,而且为了使生成的视频摘要更具多样性,采用BiLSTM网络将深度特征识别任务转换为视频帧的时序特征标注任务,让模型获得更多上下文信息;其次,考虑到生成的视频摘要应当具有代表性,因此通过融合最大池化在降低特征维度的同时突出关键信息以淡化冗余信息,使模型能够学习具有代表性的特征,而特征维度的降低也减少了全连接层需要的参数,避免了过拟合问题;最后,预测视频帧的重要性分数并转换为镜头分数,以此选取关键镜头生成视频摘要。实验结果表明,在标准数据集TvSum和SumMe上,改进后的视频摘要生成模型能提升生成视频摘要的准确性;而且它的F1-score值也比基于长短期记忆(LSTM)网络的视频摘要模型DPPLSTM在两个数据集上分别提高1.4和0.3个百分点。  相似文献   

18.
19.
一种层次的电影视频摘要生成方法   总被引:1,自引:0,他引:1       下载免费PDF全文
合理地组织视频数据对于基于内容的视频分析和检索有着重要的意义。提出了一种基于运动注意力模型的电影视频摘要生成方法。首先给出了一种基于滑动镜头窗的聚类算法将相似的镜头组织成为镜头类;然后根据电影视频场景内容的发展模式,在定义两个镜头类的3种时序关系的基础上,提出了一种基于镜头类之间的时空约束关系的场景检测方法;最后利用运动注意力模型选择场景中的重要镜头和代表帧,由选择的代表帧集合和重要镜头的关键帧集合建立层次视频摘要(场景级和镜头级)。该方法较全面地涵盖了视频内容,又突出了视频中的重要内容,能够很好地应用于电影视频的快速浏览和检索。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号