增强视觉特征的视觉问答任务研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

增强视觉特征的视觉问答任务研究

摘要：	视觉问答是一种涉及计算机视觉和自然语言处理两大领域的学习任务。该任务融合视觉和语言的特征实现问答,是多模态研究的重要任务之一,已经成为人工智能领域的一个研究重点。通过对已有模型的分析,现有方法在进行图像特征表示时,仅仅只采用图像的网格特征、对象特征等整体视觉特征,而忽略了图像中对象本身以及不同对象之间的位置信息。提出在原有视觉特征的基础上,引入图像中每个对象的坐标信息,得到增强的视觉特征,使模型能够更加准确地学习图像中所蕴含的深层语义。在VQA-v2数据集上的对比实验证明,在图像特征中融入对象的坐标信息有效提高了本文模型的性能。
本文献已被 CNKI 等数据库收录！