首页 | 本学科首页   官方微博 | 高级检索  
     

视觉问答技术研究综述
引用本文:王虞,孙海春.视觉问答技术研究综述[J].计算机科学与探索,2023(7):1487-1505.
作者姓名:王虞  孙海春
作者单位:1. 中国人民公安大学信息网络安全学院;2. 安全防范技术与风险评估公安部重点实验室
基金项目:北京市自然科学基金(4184099)~~;
摘    要:视觉问答(visual question answering,VQA)是融合自然语言处理与计算机视觉技术的图-文跨模态热门任务。该任务以计算机智能识别与检索图像内容并给出准确答案为主要目标,融合应用了目标识别与检测、智能问答、图像属性分类、场景分析等多项技术,能够支撑许多前沿交互式人工智能高层任务,如视觉对话、视觉导航等,具有广泛的应用前景和极高的应用价值。近几年,计算机视觉、自然语言处理及图-文跨模态领域人工智能模型的发展为视觉问答任务的实现提供了许多新的技术和方法。主要对2019—2022年视觉问答领域的主流模型及专业数据集进行总结。首先,依据视觉问答任务实现的模块框架,对关键步骤中的主流技术方法进行综述讨论。其次,按照主流模型采用的技术方法,将该领域内各类模型进行细分,并简要介绍改进重点和局限性。随后,综述视觉问答常用数据集与评价指标,对几类典型模型性能进行对比阐述。最后,对现阶段视觉问答领域内亟待解决的问题进行重点阐述,并对视觉问答领域未来应用及技术发展进行预测和展望。

关 键 词:视觉问答(VQA)  模态融合  视觉对话  智能问答  跨模态技术
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号