首页 | 本学科首页   官方微博 | 高级检索  
     

图像—文本多模态指代表达理解研究综述
引用本文:王丽安,缪佩翰,苏伟,李玺,吉娜烨,姜燕冰.图像—文本多模态指代表达理解研究综述[J].中国图象图形学报,2023,28(5):1308-1325.
作者姓名:王丽安  缪佩翰  苏伟  李玺  吉娜烨  姜燕冰
作者单位:浙江大学软件学院, 宁波 315048;浙江大学计算机科学与技术学院, 杭州 310007;浙江传媒学院媒体工程学院, 杭州 310018
基金项目:浙江省科技厅重点研发计划项目(2021C03137);2023年度省“尖兵”“领雁”研发攻关计划项目(2023C01212)
摘    要:指代表达理解(referring expression comprehension,REC)作为视觉—语言相结合的多模态任务,旨在理解输入指代表达式的内容并在图像中定位其所描述的目标对象,受到计算机视觉和自然语言处理两个领域的关注。REC任务建立了人类语言与物理世界的视觉内容之间的桥梁,可以广泛应用于视觉理解系统和对话系统等人工智能设备中。解决该任务的关键在于对复杂的指代表达式进行充分的语义理解;然后利用语义信息对包含多个对象的图像进行关系推理以及对象筛选,最终在图像中唯一地定位目标对象。本文从计算机视觉的视角出发对REC任务进行了综述,首先介绍该任务的通用处理流程。然后,重点对REC领域现有方法进行分类总结,根据视觉数据表征粒度的不同,划分为基于区域卷积粒度视觉表征、基于网格卷积粒度视觉表征以及基于图像块粒度视觉表征的方法;并进一步按照视觉—文本特征融合模块的建模方式进行了更细粒度的归类。此外,本文还介绍了该任务的主流数据集和评估指标。最后,从模型的推理速度、模型的可解释性以及模型对表达式的推理能力3个方面揭示了现有方法面临的挑战,并对REC的发展进行了全面展望。本文希望通过对REC...

关 键 词:视觉定位(VG)  指代表达理解(REC)  视觉与语言  视觉表征粒度  多模态特征融合
收稿时间:2022/10/10 0:00:00
修稿时间:2023/3/13 0:00:00

Multimodal referring expression comprehension based on image and text: a review
Wang Li''an,Miao Peihan,Su Wei,Li Xi,Ji Naye,Jiang Yanbing.Multimodal referring expression comprehension based on image and text: a review[J].Journal of Image and Graphics,2023,28(5):1308-1325.
Authors:Wang Li'an  Miao Peihan  Su Wei  Li Xi  Ji Naye  Jiang Yanbing
Affiliation:School of Software Technology, Zhejiang University, Ningbo 315048, China;College of Computer Science and Technology, Zhejiang University, Hangzhou 310007, China;College of Media Engineering, Communication University of Zhejiang, Hangzhou 310018, China
Abstract:
Keywords:
点击此处可从《中国图象图形学报》浏览原始摘要信息
点击此处可从《中国图象图形学报》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号