基于深度学习的视觉问答研究综述 |
| |
引用本文: | 李祥,范志广,李学相,张卫星,杨聪,曹仰杰.基于深度学习的视觉问答研究综述[J].计算机科学,2023(5):177-188. |
| |
作者姓名: | 李祥 范志广 李学相 张卫星 杨聪 曹仰杰 |
| |
作者单位: | 1. 郑州大学网络空间安全学院;2. 郑州大学河南先进技术研究院 |
| |
基金项目: | 国家自然科学基金面上项目(61972092); |
| |
摘 要: | 视觉问答是计算机视觉和自然语言处理的交叉领域。在视觉问答的任务中,机器首先需要对图像、文本这两种模态数据进行编码,进而学习这两种模态之间的映射,实现图像特征和文本特征的融合,最后给出答案。视觉问答任务考验模型对图像的理解能力以及对答案的推理能力。视觉问答是实现跨模态人机交互的重要途径,具有广阔的应用前景。最近相继涌现出了众多新兴技术,如基于场景推理的方法、基于对比学习的方法和基于三维点云的方法。但是,视觉问答模型普遍存在推理能力不足、缺乏可解释性等问题,值得进一步地探索与研究。文中对视觉问答领域的相关研究和新颖方法进行了深入的调研和总结。首先介绍了视觉问答的背景;其次分析了视觉问答的研究现状并对相关算法的和数据集进行了归纳总结;最后根据当前模型存在的问题对视觉问答的未来研究方向进行了展望。
|
关 键 词: | 视觉问答 跨模态 人机交互 推理能力 可解释性 |
|
|