首页 | 本学科首页   官方微博 | 高级检索  
     

视听相关的多模态概念检测
引用本文:奠雨洁,金琴.视听相关的多模态概念检测[J].计算机研究与发展,2019,56(5):1071-1081.
作者姓名:奠雨洁  金琴
作者单位:中国人民大学信息学院 北京 100872;中国人民大学信息学院 北京 100872
基金项目:国家自然科学基金;国家重点研发计划
摘    要:随着在线视频应用的流行,互联网上的视频数量快速增长.面对互联网上海量的视频,人们对视频检索的要求也越来越精细化.如何按照合适的语义概念对视频进行组织和管理,从而帮助用户更高效、更准确地获取所需视频,成为亟待解决的问题.在大量的应用场景下,需要声音和视觉同时出现才能确定某个视频事件.因此,提出具有视听信息的多模态概念的检测工作.首先,以名词-动词二元组的形式定义多模态概念,其中名词表达了视觉信息,动词表达了听觉信息,且名词和动词具有语义相关性,共同表达语义概念所描述的事件.其次,利用卷积神经网络,以多模态概念的视听相关性为目标训练多模态联合网络,进行端到端的多模态概念检测.实验表明:在多模态概念检测任务上,通过视听相关的联合网络的性能超过了单独的视觉网络和听觉网络.同时,联合网络能够学习到精细化的特征表示,利用该网络提取的视觉特征,在Huawei视频数据集某些特定的类别上超过ImageNet预训练的神经网络特征;联合网络提取的音频特征,在ESC50数据集上,也超过在Youtube8m上训练的神经网络音频特征约5.7%.

关 键 词:多模态信息  语义概念  视频概念检测  视频特征  视频语义理解

Audio-Visual Correlated Multimodal Concept Detection
Dian Yujie,Jin Qin.Audio-Visual Correlated Multimodal Concept Detection[J].Journal of Computer Research and Development,2019,56(5):1071-1081.
Authors:Dian Yujie  Jin Qin
Affiliation:(School of Information, Renmin University of China, Beijing 100872)
Abstract:Dian Yujie;Jin Qin(School of Information, Renmin University of China, Beijing 100872)
Keywords:multimodal information  semantic concepts  video concept detection  video representation  video semantic understanding
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号