首页 | 本学科首页   官方微博 | 高级检索  
     

基于深度学习的跨模态检索综述
引用本文:尹奇跃,黄岩,张俊格,吴书,王亮.基于深度学习的跨模态检索综述[J].中国图象图形学报,2021,26(6):1368-1388.
作者姓名:尹奇跃  黄岩  张俊格  吴书  王亮
作者单位:中国科学院自动化研究所, 北京 100190
摘    要:由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。

关 键 词:跨模态检索  跨模态哈希  深度学习  共同表示学习  对抗学习  似然分析  学习排序
收稿时间:2020/12/31 0:00:00
修稿时间:2021/2/3 0:00:00

Survey on deep learning based cross-modal retrieval
Yin Qiyue,Huang Yan,Zhang Junge,Wu Shu,Wang Liang.Survey on deep learning based cross-modal retrieval[J].Journal of Image and Graphics,2021,26(6):1368-1388.
Authors:Yin Qiyue  Huang Yan  Zhang Junge  Wu Shu  Wang Liang
Affiliation:Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
Abstract:
Keywords:cross-modal retrieval  cross-modal hashing  deep learning  common representation learning  adversarial learning  likelihood analysis  learning to rank
点击此处可从《中国图象图形学报》浏览原始摘要信息
点击此处可从《中国图象图形学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号