视听相关的多模态概念检测 Audio-Visual Correlated Multimodal Concept Detection期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

视听相关的多模态概念检测

引用本文：	奠雨洁,金琴.视听相关的多模态概念检测[J].计算机研究与发展,2019,56(5):1071-1081.

作者姓名：	奠雨洁金琴

作者单位：	中国人民大学信息学院北京 100872;中国人民大学信息学院北京 100872

基金项目：	国家自然科学基金;国家重点研发计划

摘要：	随着在线视频应用的流行,互联网上的视频数量快速增长.面对互联网上海量的视频,人们对视频检索的要求也越来越精细化.如何按照合适的语义概念对视频进行组织和管理,从而帮助用户更高效、更准确地获取所需视频,成为亟待解决的问题.在大量的应用场景下,需要声音和视觉同时出现才能确定某个视频事件.因此,提出具有视听信息的多模态概念的检测工作.首先,以名词-动词二元组的形式定义多模态概念,其中名词表达了视觉信息,动词表达了听觉信息,且名词和动词具有语义相关性,共同表达语义概念所描述的事件.其次,利用卷积神经网络,以多模态概念的视听相关性为目标训练多模态联合网络,进行端到端的多模态概念检测.实验表明:在多模态概念检测任务上,通过视听相关的联合网络的性能超过了单独的视觉网络和听觉网络.同时,联合网络能够学习到精细化的特征表示,利用该网络提取的视觉特征,在Huawei视频数据集某些特定的类别上超过ImageNet预训练的神经网络特征;联合网络提取的音频特征,在ESC50数据集上,也超过在Youtube8m上训练的神经网络音频特征约5.7%.
关键词：	多模态信息语义概念视频概念检测视频特征视频语义理解
Audio-Visual Correlated Multimodal Concept Detection

Dian Yujie,Jin Qin.Audio-Visual Correlated Multimodal Concept Detection[J].Journal of Computer Research and Development,2019,56(5):1071-1081.

Authors:	Dian Yujie Jin Qin

Affiliation:	(School of Information, Renmin University of China, Beijing 100872)

Abstract:	Dian Yujie;Jin Qin(School of Information, Renmin University of China, Beijing 100872)

Keywords:	multimodal information semantic concepts video concept detection video representation video semantic understanding
本文献已被维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏