首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
视频摘要是通过生成关键帧或片段来达到压缩视频的效果,能够在概括视频主要内容的基础上极大缩短观看时间,在视频快速浏览与检索领域应用广泛。现有方法大多只基于图像内容进行探索,忽略了视频具有时序的特点,且模型对波动数据学习能力较差,导致生成的摘要缺乏时间连贯性和代表性。提出了一个以编码器-解码器为框架的视频摘要网络。具体来说,编码部分由卷积神经网络提取特征,通过自注意力机制提升对关键特征的权重,而解码部分由融合了随机森林的双向长短期记忆网络构成,通过调整随机森林和双向长短期记忆网络在损失函数中所占比例,使模型具有较强的稳定性和预测准确率。实验在两个数据集上与其他七种方法进行了比较,综合实验结果证明了方法的有效性与可行性。提出了自注意力机制和随机森林回归的视频摘要网络,利用自注意力机制完成对特征的优化,将双向长短期记忆网络与随机森林结合,提升模型的稳定性与泛化性,有效降低损失值,使得生成的视频摘要更符合用户视觉特性。  相似文献   

2.
白晨  范涛  王文静  王国中 《计算机应用研究》2023,(11):3276-3281+3288
针对传统视频摘要算法没有充分利用视频的多模态信息、难以确保摘要视频片段时序一致性的问题,提出了一种融合多模态特征与时区检测的视频摘要算法(MTNet)。首先,通过GoogLeNet与VGGish预训练模型提取视频图像与音频的特征表示,设计了一种维度平滑操作对齐两种模态特征,使模型具备全面的表征能力;其次,考虑到生成的视频摘要应具备全局代表性,因此通过单双层自注意力机制结合残差结构分别提取视频图像与音频特征的长范围时序特征,获取模型在时序范围的单一向量表示;最后,通过分离式时区检测与权值共享方法对视频逐个时序片段的摘要边界与重要性进行预测,并通过非极大值抑制来选取关键视频片段生成视频摘要。实验结果表明,在两个标准数据集SumMe与TvSum上,MTNet的表征能力与鲁棒性更强;它的F1值相较基于无锚框的视频摘要算法DSNet-AF以及基于镜头重要性预测的视频摘要算法VASNet,在两个数据集上分别有所提高。  相似文献   

3.
个性化评论摘要旨在针对一篇评论文本,面向不同用户产生反映他们不同偏好的摘要,具有较高的应用价值.现有工作存在新用户偏好无法增量学习、忽略用户属性关联对偏好的影响等不足.为了解决上述问题,本文提出了融合用户属性交互的个性化评论摘要生成算法.该算法自动学习用户各方面属性的嵌入表达,在此基础上利用自注意力机制捕捉所有属性之间的交互关联,从而使获得的用户偏好表达更加准确.得到的偏好表达被用于捕捉评论中用户可能感兴趣的信息,进而指导模型生成符合用户个性化偏好的摘要文本.实验结果表明,本文提出的算法在评价指标ROUGE上明显高于已有的先进算法.  相似文献   

4.
视频摘要是海量视频浏览的重要手段,现有的方法一般生成短帧视频或多帧序列图像以概括原视频,但它们都受限于原有时间序列,难以高效地表达信息.为此,提出了一种视频海报的自动生成方法来制作更为精练的视频摘要.如何提取视频中的关键画面与如何实现海报自动排版是其中的2个核心问题.对现有的视频关键帧提取方法进行扩展,采用综合视觉关注度模型,提出了基于视觉重要性的关键帧排序算法;在现有排版规则基础上,增加了版面位置对视觉心理感知的影响,设计出位置重要性驱动的视频海报自动排版算法.实验结果证明了文中算法的有效性.  相似文献   

5.
李群  肖甫  张子屹  张锋  李延超 《软件学报》2022,33(9):3195-3209
视频摘要生成是计算机视觉领域必不可少的关键任务,这一任务的目标是通过选择视频内容中信息最丰富的部分来生成一段简洁又完整的视频摘要,从而对视频内容进行总结.所生成的视频摘要通常为一组有代表性的视频帧(如视频关键帧)或按时间顺序将关键视频片段缝合所形成的一个较短的视频.虽然视频摘要生成方法的研究已经取得了相当大的进展,但现有的方法存在缺乏时序信息和特征表示不完备的问题,很容易影响视频摘要的正确性和完整性.为了解决视频摘要生成问题,本文提出一种空时变换网络模型,该模型包括三大模块,分别为:嵌入层、特征变换与融合层、输出层.其中,嵌入层可同时嵌入空间特征和时序特征,特征变换与融合层可实现多模态特征的变换和融合,最后输出层通过分段预测和关键镜头选择完成视频摘要的生成.通过空间特征和时序特征的分别嵌入,以弥补现有模型对时序信息表示的不足;通过多模态特征的变换和融合,以解决特征表示不完备的问题.我们在两个基准数据集上做了充分的实验和分析,验证了我们模型的有效性.  相似文献   

6.
视频摘要技术的目的是在缩短视频长度的同时,概括视频的主要内容,这样可以极大地节省人们浏览视频的时间。视频摘要技术的一个关键步骤是评估生成摘要的性能,现有的大多数方法是基于整个视频进行评估。然而,基于整个视频序列进行评估的计算成本很高,特别是对于长视频。而且在整个视频上评估生成摘要往往忽略了视频数据固有的时序关系,导致生成摘要缺乏故事情节的逻辑性。因此,提出了一个关注局部信息的视频摘要网络,称为自注意力和局部奖励视频摘要网络(ALRSN)。确切地说,该模型采用自注意力机制预测视频帧的重要性分数,然后通过重要性分数生成视频摘要。为了评估生成摘要的性能,进一步设计了一个局部奖励函数,同时考虑了视频摘要的局部多样性和局部代表性。该函数将生成摘要映射回原视频,并在局部范围内评估摘要的性能,使其具有原视频的时序结构。通过在局部范围内获得更高的奖励分数,使模型生成更多样化、更具代表性的视频摘要。综合实验表明,在两个基准数据集SumMe和TvSum上,ALRSN模型优于现有方法。  相似文献   

7.
针对视频流行度动态变化过程中的时序信息难以捕捉的问题,提出一种融合内容特征和时序信息的深度注意力视频流行度预测模型(DAFCT)。首先,根据用户的反馈信息,构建基于注意力机制的长短期记忆网络(Attention-LSTM)模型来捕捉流行趋势并挖掘时序信息;然后,采用神经网络因子分解机(NFM)处理多模态的内容特征,并采用嵌入技术对稀疏的高维特征进行降维处理,从而降低模型的计算复杂性;最后,采用concatenate方法融合时序信息和内容特征,并设计了一种深度注意力视频流行度预测(DAVPP)算法来求解DAFCT。实验结果表明,与Attention-LSTM模型和NFM模型相比,DAFCT的召回率分别提高了10.82和3.31个百分点,F1分数分别提高了9.80和3.07个百分点。  相似文献   

8.
基于用户关注度的场景绘制是大规模场景表意式绘制的研究热点之一.用户关注度高的景物应充分展示其细节,而用户关注度低的景物则可淡化其绘制效果.传统方法基于景物与用户关注中心景物的空间距离计算景物用户关注度.提出一种基于语义的景物用户关注度计算算法,首先建立场景的语义森林模型并预计算任意两语义之间的语义距离;运行时,根据用户输入的关注中心景物的语义和空间位置,综合考虑景物与该关注中心的语义距离与空间距离,计算景物的用户关注度;最后,根据用户关注度对景物分类,并通过多风格绘制与合成得到最终结果.本文算法计算的景物用户关注度更符合人类感知,且性能上可以达到交互实时.  相似文献   

9.
针对开放性的社交文本领域的文本生成技术生成的文本内容缺少个性化特征的问题,提出了一种用户级的细粒度控制生成模型,即PTG-GPT2-Chinese(Personalized Text Generation Generative Pre-trained Transformer 2-Chinese)。所提模型基于GPT2(Generative Pre-trained Transformer 2.0)结构设计了Encoder-Decoder模型框架。首先在Encoder端对用户的静态个性化信息建模并编码,在Decoder端添加了双向独立的注意力模块,用于接收该静态的个性化特征向量,并利用原始GPT2结构中的注意力模块捕获用户文本中的动态个性化特征;然后,动态加权融合各注意力模块分数并参与后续解码,从而自动生成以用户个性化特征属性作为约束的社交文本;此外,为了解决用户基本信息的语义稀疏性导致的生成文本偶尔与某些个性化特征存在矛盾的问题,采用BERT模型对Decoder端输出数据与用户个性化特征进行一致性理解的二次增强生成,最终实现个性化的社交文本生成。实验结果表明,与GPT2模型相比,所提模型...  相似文献   

10.
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。  相似文献   

11.
目的 经典的人眼注视点预测模型通常采用跳跃连接的方式融合高、低层次特征,容易导致不同层级之间特征的重要性难以权衡,且没有考虑人眼在观察图像时偏向中心区域的问题。对此,本文提出一种融合注意力机制的图像特征提取方法,并利用高斯学习模块对提取的特征进行优化,提高了人眼注视点预测的精度。方法 提出一种新的基于多重注意力机制(multiple attention mechanism,MAM)的人眼注视点预测模型,综合利用3种不同的注意力机制,对添加空洞卷积的ResNet-50模型提取的特征信息分别在空间、通道和层级上进行加权。该网络主要由特征提取模块、多重注意力模块和高斯学习优化模块组成。其中,空洞卷积能够有效获取不同大小的感受野信息,保证特征图分辨率大小的不变性;多重注意力模块旨在自动优化获得的低层丰富的细节信息和高层的全局语义信息,并充分提取特征图通道和空间信息,防止过度依赖模型中的高层特征;高斯学习模块用来自动选择合适的高斯模糊核来模糊显著性图像,解决人眼观察图像时的中心偏置问题。结果 在公开数据集SALICON(saliency in context)上的实验表明,提出的方法相较于同结构的SAM-Res(saliency attention modal)模型以及DINet(dilated inception network)模型在相对熵(Kullback-Leibler divergence,KLD)、sAUC(shuffled area under ROC curve)和信息增益(information gain,IG)评价标准上分别提高了33%、0.3%和6%;53%、0.5%和192%。结论 实验结果表明,提出的人眼注视点预测模型能通过加权的方式分别提取空间、通道、层之间的特征,在多数人眼注视点预测指标上超过了主流模型。  相似文献   

12.
Recent applications of convolutional neural networks (CNNs) in single image super-resolution (SISR) have achieved unprecedented performance. However, existing CNN-based SISR network structure design consider mostly only channel or spatial information, and cannot make full use of both channel and spatial information to improve SISR performance further. The present work addresses this problem by proposing a mixed attention densely residual network architecture that can make full and simultaneous use of both channel and spatial information. Specifically, we propose a residual in dense network structure composed of dense connections between multiple dense residual groups to form a very deep network. This structure allows each dense residual group to apply a local residual skip connection and enables the cascading of multiple residual blocks to reuse previous features. A mixed attention module is inserted into each dense residual group, to enable the algorithm to fuse channel attention with laplacian spatial attention effectively, and thereby more adaptively focus on valuable feature learning. The qualitative and quantitative results of extensive experiments have demonstrate that the proposed method has a comparable performance with other state-of-the-art methods.  相似文献   

13.
刘茂福  施琦  聂礼强 《软件学报》2022,33(9):3210-3222
图像描述生成有着重要的理论意义与应用价值,在计算机视觉与自然语言处理领域皆受到广泛关注.基于注意力机制的图像描述生成方法,在同一时刻融合当前词和视觉信息以生成目标词,忽略了视觉连贯性及上下文信息,导致生成描述与参考描述存在差异.针对这一问题,本文提出一种基于视觉关联与上下文双注意力机制的图像描述生成方法(visual relevance and context dual attention,简称VRCDA).视觉关联注意力在传统视觉注意力中增加前一时刻注意力向量以保证视觉连贯性,上下文注意力从全局上下文中获取更完整的语义信息,以充分利用上下文信息,进而指导生成最终的图像描述文本.在MSCOCO和Flickr30k两个标准数据集上进行了实验验证,结果表明本文所提出的VRCDA方法能够有效地生成图像语义描述,相比于主流的图像描述生成方法,在各项评价指标上均取得了较高的提升.  相似文献   

14.
针对图像分类任务中现有神经网络模型对分类对象特征表征能力不足,导致识别精度不高的问题,提出一种基于轻量级分组注意力模块(LGAM)的图像分类算法。该模块从输入特征图的通道和空间两个方向出发重构特征图:首先,将输入特征图沿通道方向进行分组并生成每个分组对应的通道注意力权重,同时采用阶梯型结构解决分组间信息不流通的问题;然后,基于各分组串联成的新特征图生成全局空间注意力权重,通过两种注意力权重加权得到重构特征图;最后,将重构特征图与输入特征图融合得到增强的特征图。以分类Top-1错误率作为评估指标,基于Cifar10和Cifar100数据集以及部分ImageNet2012数据集,对经LGAM增强之后的ResNet、Wide-ResNet、ResNeXt进行对比实验。实验结果表明,经LGAM增强之后的神经网络模型其Top-1错误率均低于增强之前1至2个百分点。因此LGAM能够提升现有神经网络模型的特征表征能力,从而提高图像分类的识别精度。  相似文献   

15.
We propose a biologically-motivated computational model for learning task-driven and object-based visual attention control in interactive environments. In this model, top-down attention is learned interactively and is used to search for a desired object in the scene through biasing the bottom-up attention in order to form a need-based and object-driven state representation of the environment. Our model consists of three layers. First, in the early visual processing layer, most salient location of a scene is derived using the biased saliency-based bottom-up model of visual attention. Then a cognitive component in the higher visual processing layer performs an application specific operation like object recognition at the focus of attention. From this information, a state is derived in the decision making and learning layer. Top-down attention is learned by the U-TREE algorithm which successively grows an object-based binary tree. Internal nodes in this tree check the existence of a specific object in the scene by biasing the early vision and the object recognition parts. Its leaves point to states in the action value table. Motor actions are associated with the leaves. After performing a motor action, the agent receives a reinforcement signal from the critic. This signal is alternately used for modifying the tree or updating the action selection policy. The proposed model is evaluated on visual navigation tasks, where obtained results lend support to the applicability and usefulness of the developed method for robotics.  相似文献   

16.
随着信息的爆炸式增长,我们面临着如何选择的难题,这其实是我们的注意力缺乏的一个信号。我们有限的注意力已经无法抵挡大量信息汹涌而来。物以稀为贵,日渐缺乏的注意力便催生了一种新的经济形式—注意力经济,这种经济正在到来。注意力经济促使了隐式网络的出现。人们的注意力正在被这些网站收集和使用没有意识到,AttentionTrust制定的规则试图改变这一现状。注意力经济的发展还面临诸多挑战,但终将取代旧经济。  相似文献   

17.
现有的大多数利用知识图谱的推荐算法在探索用户的潜在偏好时没有有效解决知识图谱中存在的不相关实体的问题,导致推荐结果准确率不高。针对这一问题,提出了基于知识图谱和图注意网络的推荐算法KG-GAT(knowledge graph and graph attention network)。该算法将知识图谱作为辅助信息,在图注意网络中使用分层注意力机制嵌入与实体相关的近邻实体的信息来重新定义实体的嵌入,得到更有效的用户和项目的潜在表示,生成更精确的top-N推荐列表,并带来了可解释性。最后利用两个公开数据集将所提算法和其他算法进行实验对比,得出所提算法KG-GAT能够有效解决沿着知识图谱中的关系探索用户的潜在偏好时存在的不相关实体的问题。  相似文献   

18.
针对显著性区域突出不均匀和边缘不清晰导致显著性检测鲁棒性差等问题,提出了一种通道-空间联合注意力机制的显著性检测模型。改进了一种通道注意力机制,将特征图中的像素概率值逐像素相加以更好的获取通道中层间信息的关联性;在通道注意力机制的基础上并行融入了空间注意力机制,对特征图的空间信息进行加权获得目标突出的显著性区域;将通道注意力机制与空间注意力机制输出的两个特征图加权融合反馈至通道-空间联合注意力机制,从而得到细粒度更高的显著图。实验结果表明,该模型在公开的数据集DUTS-TE和SOD上,使用F-measure和平均绝对误差作为评估标准均优于其他同类模型。  相似文献   

19.
一种基于感知物体的场景分析注意机制   总被引:3,自引:0,他引:3       下载免费PDF全文
基于物体的选择性注意在心理学领域正日益为广大研究人员所认可,而计算机视觉领域中现有的注意模型大多数是基于特征的,或者是基于空间的.本文给出了一种基于物体的选择性注意计算模型.该模型将“感知物体”作为引起注意的基本单元,并给出了感知物体及其邻域的定义.该注意模型包括两个步骤:(1)在给定图像中选择第一个注视点;(2)在整幅图像中实现注视点的有效转移.在该注意模型中,感知物体与其邻域之间灰度值的绝对差异--对比度,被作为该感知物体显著性的一种度量,并且注视点在图像中的转移顺序是由每个感知物体的显著度的次序来决定的.该模型的优点有:首先,由于该模型是完全基于感知物体的,使得其输出结果可以很容易地应用到物体识别、图像分割和场景分析中;其次,该模型是多尺度的,也就是说,它可以根据实际任务的需要进行适当的调整.大量的真实图像实验表明,所提出的模型具有一定的合理性.  相似文献   

20.
特定目标情感分析旨在判别评论中不同目标所对应的情感极性。越来越多的研究人员采用基于神经网络的各种方法在特定目标情感分析任务中取得了较好的成绩。但大多数与目标相关的模型只关注目标对上下文建模的影响,而忽略了上下文在目标建模中的作用。为了解决上述问题,提出一种交互注意力网络模型(LT-T-TR),该模型将一条评论分为三个部分:包含目标的上文,目标,包含目标的下文。通过注意力机制进行目标与上下文的交互,学习各自的特征表示,从中捕获目标短语和上下文中最重要的情感特征信息。通过在两个标准数据集上的实验验证了模型的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号