首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 78 毫秒
1.
《信息与电脑》2022,(1):55-58
随着人工智能的快速发展,对跨模态的研究也渐渐地受到了科研人员的关注。基于深度学习的视觉问答(VisualQuestionAnswering,VQA)模型在数据集上的准确率不断提高,但这些模型也表现出了共同的缺点,即对模态的利用不平衡。本文概述了视觉问答语言先验性领域的多篇论文,对比了各种方法的优缺点,并在现有方法的基础上展望未来缓解视觉问答语言先验性的发展方向。  相似文献   

2.
通过语言给予智能体指示使其完成通用性的任务是人工智能领域的愿景之一。近年来有越多越多的学者试图通过融合计算机视觉与自然语言处理领域的相关技术以期实现此目标。为了及时跟进相关领域的研究,把握视觉与语言融合方向前沿,对于视觉—语言—行为最新进展进行综述。首先简单介绍了融合视觉与语言的弱耦合尝试,之后重点综述了视觉—语言—行为这一最新方向相关的视觉语言导航、具身问答及其相似研究,最后总结了制约此领域发展的关键问题及可能的解决方案。  相似文献   

3.
视觉问答与对话是人工智能领域的重要研究任务,是计算机视觉与自然语言处理交叉领域的代表性问题之一.视觉问答与对话任务要求机器根据指定的视觉图像内容,对单轮或多轮的自然语言问题进行作答.视觉问答与对话对机器的感知能力、认知能力和推理能力均提出了较高的要求,在跨模态人机交互应用中具有实用前景.文中对近年来视觉问答与对话的研究...  相似文献   

4.
徐胜  祝永新 《计算机科学》2020,47(11):226-230
当前对视觉问答(Visual Question Answering,VQA)建模的研究多种多样,但现有的VQA模型有一个共同的缺点:训练和推理较为耗时。研究表明,VQA模型中文本处理部分主要基于长短期记忆网络(Long Short Term Memory,LSTM),而VQA模型的整体性能也受制于文本处理部分的LSTM网络,由于LSTM网络具有循环的特性,LSTM网络中复杂的数据流难以有效利用GPU的并行计算优势来加速计算。针对以上问题,以优化模型的训练速度为目的,提出了一个新模型SCMP(Simple Conv1d MaxPool1d)来代替LSTM网络处理输入模型的自然语言文本。在VQA2.0数据集上的实验结果表明,该模型与现有的模型相比训练速度提高了10倍,并且没有对VQA模型的精度造成损失。此外,文中提出了一种新颖的方法来对VQA2.0数据集中的文本数据进行数据增强。实验结果表明,数据增强可以提高VQA模型的精度,同时加速模型收敛,使用增强后的数据训练的模型(SCMP)在验证集上的评估分数为63.46%,优于目前现存的VQA模型。  相似文献   

5.
在视觉问答(VQA)任务中,“可解释”是指在特定的任务中通过各种方法去解释模型为什么有效。现有的一些VQA模型因为缺乏可解释性导致模型无法保证在生活中能安全使用,特别是自动驾驶和医疗相关的领域,将会引起一些伦理道德问题,导致无法在工业界落地。主要介绍视觉问答任务中的各种可解释性实现方式,并分为了图像解释、文本解释、多模态解释、模块化解释和图解释五类,讨论了各种方法的特点并对其中的一些方法进行了细分。除此之外,还介绍了一些可以增强可解释性的视觉问答数据集,这些数据集主要通过结合外部知识库、标注图片信息等方法来增强可解释性。对现有常用的视觉问答可解释方法进行了总结,最后根据现有视觉问答任务中可解释性方法的不足提出了未来的研究方向。  相似文献   

6.
视觉问答是一项计算机视觉与自然语言处理相结合的任务,需要理解图中的场景,特别是不同目标对象之间的交互关系。近年来,关于视觉问答的研究有了很大的进展,但传统方法采用整体特征表示,很大程度上忽略了所给图像的结构,无法有效锁定场景中的目标。而图网络依靠高层次图像表示,能捕获语义和空间关系,但以往利用图网络的视觉问答方法忽略了关系与问题间的关联在解答过程中的作用。据此提出基于同等注意力图网络的视觉问答模型EAGN,通过同等注意力机制赋予关系边与目标节点同等的重要性,两者结合使回答问题的依据更加充分。通过实验得出,相比于其他相关方法,EAGN模型性能优异且更具有竞争力,也为后续的相关研究提供了基础。  相似文献   

7.
包希港  周春来  肖克晶  覃飙 《软件学报》2021,32(8):2522-2544
视觉问答是计算机视觉领域和自然语言处理领域的交叉方向,近年来受到了广泛关注.在视觉问答任务中,算法需要回答基于特定图片(或视频)的问题.自2014年第一个视觉问答数据集发布以来,若干大规模数据集在近5年内被陆续发布,并有大量算法在此基础上被提出.已有的综述性研究重点针对视觉问答任务的发展进行了总结,但近年来,有研究发现...  相似文献   

8.
针对视觉问答任务中问题语句可能存在的歧义,文中提出基于Yes/No反馈的视觉问答方法,通过Yes/No的反馈机制判断模型第一次得出答案的正误.当用户给出的反馈信息为No时,重新解析该问题,生成多种消歧后的问题,产生不同的候选答案,输出最高置信度的答案作为最终结果.在CLEVR、CLEVR-CoGenT基准数据集上的实验表明文中方法精度较高.  相似文献   

9.
随着深度学习在计算机视觉、自然语言处理领域取得的长足进展,现有方法已经能准确理解视觉对象和自然语言的语义,并在此基础上开展跨媒体数据表达与交互研究.近年来,视觉问答(visual question answering, VQA)是跨媒体表达与交互方向上的研究热点问题.视觉问答旨在让计算机理解图像内容后根据自然语言输入的查询进行自动回答.围绕视觉问答问题,从概念、模型、数据集等方面对近年来的研究进展进行综述,同时探讨现有工作存在的不足;最后从方法论、应用和平台等多方面对视觉问答未来的研究方向进行了展望.  相似文献   

10.
在科技发达和信息爆炸的时代,如何从海量数据中准确地提取所需信息已成为人们研究的目标.问答系统作为解决此问题的重要途径之一,其主要通过对已有数据信息进行检索和分析,并最终返回问题答案或其他相关信息.近年来,深度学习的革命性发展给问答系统带来了长足的进步,序列到序列的模型,端到端的模型以及最近流行的预训练,都给问答系统留下无限的发展空间,但其仍面临许多挑战.本文首先对问答系统的发展进行简要介绍,接着将问答系统按照3个不同角度进行分类,并对相关数据集、评测指标和各类问答系统的主流技术进行阐述,最后对问答系统面临的问题和未来的发展趋势进行讨论.  相似文献   

11.
随着计算机视觉和自然语言处理的日益发展,视觉问答也发展为计算机科学领域的一个重要研究方向.视觉问答需要跨模态的理解与推理能力(图像与文本).由于图中节点和边的高度相关性以及图本身的联通性,图在提高视觉问答模型的推理能力上有一定的潜力,因此提出了一种基于图卷积网络的视觉问答方法.首先使用神经网络分别提取图像和文本特征,再...  相似文献   

12.
传统的基于知识库的问答难以处理具有复杂逻辑关系的自然语言问题,而此类问题在实际应用中广泛存在.为此,该文提出了语义图驱动的 自然语言问答框架.框架核心是用主链、支链、环结构等图形化结构及其拼接,表达领域中的事件及事件之间的语义关系.进一步的,构造语义图的线性编码形式,利用路径生成模型将复杂自然语言问题翻译成语义图的线性...  相似文献   

13.
大量结构无序、内容片面的碎片化信息以文本、图像、视频、网页等不同模态的形式,高度分散存储在不同数据源中,现有的研究通过构建视觉问答系统(visual question answering, VQA),实现对多模态碎片化信息的提取、表达和理解.视觉问答任务给定与图像相关的一个问题,推理相应的答案.在视觉问答任务的基本背景下,以设计出完备的图像碎片化信息问答的框架与算法为目标,重点研究包括图像特征提取、问题文本特征提取、多模态特征融合和答案推理的模型与算法.构建深度神经网络模型提取用于表示图像与问题信息的特征,结合注意力机制与变分推断方法关联图像与问题2种模态特征并推理答案.实验结果表明:该模型能够有效提取和理解多模态碎片化信息,并提高视觉问答任务的准确率.  相似文献   

14.
事件抽取是自然语言处理领域的一项基本任务。以问题回答模式进行事件抽取可以解决传统事件抽取方法存在的无法捕捉到不同事件类型中具有相似性的参数角色的语义信息等问题。目前相关学者以该模式提出的英文事件抽取方法受语言壁垒限制,其提出的问题模板在中文文本上提取效果不理想。为解决此问题,设计了一套符合中文事件抽取的问题模板的生成规则,选择BERT预训练模型作为中文事件抽取的基础模型,将问题回答模式应用到中文事件抽取任务中,并在ACE2005中文数据集进行测试。结果显示,在触发词识别、触发词分类、论元参数识别和论元参数的评价指标上,F1值分别达到77.7%、68.5%、51.5%和48.0%,在一定程度上验证了设计的问题模板的生成规则的有效性以及将问题回答模式应用到中文事件抽取任务中具有良好的抽取性能。  相似文献   

15.
记忆神经网络的研究与发展   总被引:1,自引:0,他引:1  
梁天新  杨小平  王良  张永俊  朱艳丽  许翠 《软件学报》2017,28(11):2905-2924
首先,根据记忆神经网络训练形式的不同,介绍了强监督模型和弱监督模型的结构特征和各自应用场景以及处理方式,总结了两类主要模型的优缺点;随后,对两类模型的发展和应用(包括模型创新和应用创新)进行了简要综述,总结了各类新模型在处理自然语言过程中所起的关键作用;最后梳理了记忆神经网络处理自然语言所面临的复杂性挑战,并预测了记忆神经网络未来的发展方向.  相似文献   

16.
随着社交媒体和人机交互技术的快速发展,视频、图像以及文本等多模态数据在互联网中呈爆炸式增长,因此多模态智能研究受到关注。其中,视觉问答与推理任务是跨模态智能研究的一个重要组成部分,也是人类实现人工智能的重要基础,已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先,介绍了视觉问答与推理的定义,并简述了当前该任务面临的挑战;其次,从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳;然后,全面介绍了视觉问答与推理常用公开数据集,并对相关数据集上的已有算法进行详细分析;最后,对视觉问答与推理任务的未来方向进行了展望。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号