基于多模态特征融合的动态视频摘要算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于多模态特征融合的动态视频摘要算法

引用本文：	乾竞元,高伟,滕国伟.基于多模态特征融合的动态视频摘要算法[J].工业控制计算机,2022(10):81-84.

作者姓名：	乾竞元高伟滕国伟

作者单位：	1. 上海大学通信与信息工程学院;2. 上海文广科技(集团)有限公司

摘要：	技术可以从冗长的原始视频中提取出关键帧或关键镜头，生成简明紧凑的视频摘要，在基本概括了视频主要内容的基础上极大地缩短用户浏览时间。针对目前视频摘要算法普遍忽略视频中的运动信息而导致摘要缺乏逻辑性和故事性的问题，提出了一种基于多模态特征融合的动态视频摘要算法(MFFSN)，采用了有监督的编码器-解码器的网络框架。在编码端通过深度神经网络提取原始视频帧的多尺度空间特征和光流图像的多尺度运动特征，利用运动引导注意力模块(Motion Guided Attention,MGA)进行时空注意力建模，对空间特征和运动特征进行有机融合得到多模态特征；在解码阶段，采用自注意力机制关注数据中的显著特征，再通过回归网络得到帧重要性分数；最后根据背包算法选择关键镜头生成动态摘要。在Sum Me基准数据集上的实验结果证明提出的MFFSN摘要算法优于现有的同类视频摘要算法。
关键词：	视频摘要多模态特征融合光流注意力机制