首页 | 本学科首页   官方微博 | 高级检索  
     

基于全局和局部信息的视频记忆度预测
引用本文:王帅,王维莹,陈师哲,金琴.基于全局和局部信息的视频记忆度预测[J].软件学报,2020,31(7):1969-1979.
作者姓名:王帅  王维莹  陈师哲  金琴
作者单位:中国人民大学信息学院,北京 100872;中国人民大学信息学院,北京 100872;中国人民大学信息学院,北京 100872;中国人民大学信息学院,北京 100872
基金项目:国家自然科学基金(61772535);北京市自然科学基金(4192028);国家重点研发计划(2016YFB1001202)
摘    要:视频的记忆度是一种度量指标,用来表示一段视频能够普遍被人记住的程度.令人记忆深刻而难忘的视频具有很大的潜在价值,因此对能够进行大规模视频记忆度自动预测的模型将会有广大的应用前景和市场,例如视频检索,数字内容推荐,广告设计,教育系统等等.现有的大部分工作都是直接利用深度神经网络学习到的一个全局表示来进行记忆度的预测,没有给予局部的细节足够的重视.本文提出了一个基于全局和局部信息的视频记忆度预测模型,其中包含三个模块:全局性的上下文表示模块,空间布局表示模块和局部的物体注意力模块.在实验结果中,全局性的上下文表示模块和局部的物体注意力模块分别有很好的表现.而空间布局表示模块的预测能力虽不如其他二者,但三个模块的融合是结果有了进一步的提升.最后,我们在MediaEval 2018 Media Memorability PredictionTask的数据集上证明了模型的有效性.

关 键 词:视频记忆度  注意力机制  物体检测  神经网络
收稿时间:2019/6/7 0:00:00
修稿时间:2019/7/11 0:00:00

Video Memorability Prediction Based on Global and Local Information
WANG Shuai,WANG Wei-Ying,CHEN Shi-Zhe,JIN Qin.Video Memorability Prediction Based on Global and Local Information[J].Journal of Software,2020,31(7):1969-1979.
Authors:WANG Shuai  WANG Wei-Ying  CHEN Shi-Zhe  JIN Qin
Affiliation:School of Information, Renmin University of China, Beijing 100872, China,School of Information, Renmin University of China, Beijing 100872, China,School of Information, Renmin University of China, Beijing 100872, China and School of Information, Renmin University of China, Beijing 100872, China
Abstract:Memorability of a video is a metric to describe that how memorable the video is. Memorable videos contain huge values and automatically predicting the memorability of large numbers of videos can be applied in various applications including digital content recommendation, advertisement design, education system and so on. In this paper, we propose a global and local information based framework to predict video memorability. The framework consists of three components, namely global context representation, spatial layout and local object attention. The experimental results of the global context representation and local object attention are remarkable, and the spatial layout also contributes a lot to the prediction. Finally, our model improves the performances of our baseline of MediaEval 2018 Media Memorability Prediction Task.
Keywords:video memorability  attention  object detection  neural network
本文献已被 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号