首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 453 毫秒
1.
视觉问答是计算机视觉和自然语言处理的交叉领域。在视觉问答的任务中,机器首先需要对图像、文本这两种模态数据进行编码,进而学习这两种模态之间的映射,实现图像特征和文本特征的融合,最后给出答案。视觉问答任务考验模型对图像的理解能力以及对答案的推理能力。视觉问答是实现跨模态人机交互的重要途径,具有广阔的应用前景。最近相继涌现出了众多新兴技术,如基于场景推理的方法、基于对比学习的方法和基于三维点云的方法。但是,视觉问答模型普遍存在推理能力不足、缺乏可解释性等问题,值得进一步地探索与研究。文中对视觉问答领域的相关研究和新颖方法进行了深入的调研和总结。首先介绍了视觉问答的背景;其次分析了视觉问答的研究现状并对相关算法的和数据集进行了归纳总结;最后根据当前模型存在的问题对视觉问答的未来研究方向进行了展望。  相似文献   

2.
视觉问答与对话是人工智能领域的重要研究任务,是计算机视觉与自然语言处理交叉领域的代表性问题之一。视觉问答与对话任务要求机器根据指定的视觉图像内容,对单轮或多轮的自然语言问题进行作答。视觉问答与对话对机器的感知能力、认知能力和推理能力均提出了较高的要求,在跨模态人机交互应用中具有实用前景。文中对近年来视觉问答与对话的研究进展进行了综述,对数据集和算法进行了归纳,对研究挑战和问题进行了总结,最后对视觉问答与对话的未来发展趋势进行了讨论。  相似文献   

3.
随着社交媒体和人机交互技术的快速发展,视频、图像以及文本等多模态数据在互联网中呈爆炸式增长,因此多模态智能研究受到关注。其中,视觉问答与推理任务是跨模态智能研究的一个重要组成部分,也是人类实现人工智能的重要基础,已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先,介绍了视觉问答与推理的定义,并简述了当前该任务面临的挑战;其次,从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳;然后,全面介绍了视觉问答与推理常用公开数据集,并对相关数据集上的已有算法进行详细分析;最后,对视觉问答与推理任务的未来方向进行了展望。  相似文献   

4.
基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。  相似文献   

5.
文本阅读能力差和视觉推理能力不足是现有视觉问答(visual question answering, VQA)模型效果不好的主要原因,针对以上问题,设计了一个基于图神经网络的多模态推理(multi-modal reasoning graph neural network, MRGNN)模型。利用图像中多种形式的信息帮助理解场景文本内容,将场景文本图片分别预处理成视觉对象图和文本图的形式,并且在问题自注意力模块下过滤多余的信息;使用加入注意力的聚合器完善子图之间相互的节点特征,从而融合不同模态之间的信息,更新后的节点利用不同模态的上下文信息为答疑模块提供了更好的功能。在ST-VQA和TextVQA数据集上验证了有效性,实验结果表明,相比较此任务的一些其他模型,MRGNN模型在此任务上有明显的提升。  相似文献   

6.
目的 现有视觉问答模型的研究主要从注意力机制和多模态融合角度出发,未能对图像场景中对象之间的语义联系显式建模,且较少突出对象的空间位置关系,导致空间关系推理能力欠佳。对此,本文针对需要空间关系推理的视觉问答问题,提出利用视觉对象之间空间关系属性结构化建模图像,构建问题引导的空间关系图推理视觉问答模型。方法 利用显著性注意力,用Faster R-CNN (region-based convolutional neural network)提取图像中显著的视觉对象和视觉特征;对图像中的视觉对象及其空间关系结构化建模为空间关系图;利用问题引导的聚焦式注意力进行基于问题的空间关系推理。聚焦式注意力分为节点注意力和边注意力,分别用于发现与问题相关的视觉对象和空间关系;利用节点注意力和边注意力权重构造门控图推理网络,通过门控图推理网络的信息传递机制和控制特征信息的聚合,获得节点的深度交互信息,学习得到具有空间感知的视觉特征表示,达到基于问题的空间关系推理;将具有空间关系感知的图像特征和问题特征进行多模态融合,预测出正确答案。结果 模型在VQA (visual question answering) v2数据集上进行训练、验证和测试。实验结果表明,本文模型相比于Prior、Language only、MCB (multimodal compact bilinear)、ReasonNet和Bottom-Up等模型,在各项准确率方面有明显提升。相比于ReasonNet模型,本文模型总体的回答准确率提升2.73%,是否问题准确率提升4.41%,计数问题准确率提升5.37%,其他问题准确率提升0.65%。本文还进行了消融实验,验证了方法的有效性。结论 提出的问题引导的空间关系图推理视觉问答模型能够较好地将问题文本信息和图像目标区域及对象关系进行匹配,特别是对于需要空间关系推理的问题,模型展现出较强的推理能力。  相似文献   

7.
经典的视觉注意力模型缺乏视觉对象间空间关系的推理能力,忽略了图像和问题文本之间的密集语义交互,导致在预测答案过程中对噪声的处理能力不足。针对上述问题,提出了一种基于门控图卷积网络和协同注意力的视觉问答模型。该模型基于图像中视觉对象之间的相对空间位置构建空间关系图;同时以问题为引导,在图卷积网络的基础上增加门控机制,能够动态控制具有不同空间关系的邻居对节点的贡献程度;然后将问题的词特征和带有空间关系感知能力的视觉特征输入双向引导的协同注意力模块,共同学习它们之间的密集语义交互。在VQA2.0数据集进行实验,结果表明:该模型具有较强的显式关系推理能力,在test-std测试集的总体准确率为70.90%,优于该数据集上的经典模型,有效地提升了视觉问答的准确率。  相似文献   

8.
针对当前主流视觉问答(visual question answering,VQA)任务使用区域特征作为图像表示而面临的训练复杂度高、推理速度慢等问题,提出一种基于复合视觉语言的卷积网络(composite visionlinguistic convnet,CVlCN)来对视觉问答任务中的图像进行表征.该方法将图像特征和问题语义通过复合学习表示成复合图文特征,然后从空间和通道上计算复合图文特征的注意力分布,以选择性地保留与问题语义相关的视觉信息.在VQA-v2数据集上的测试结果表明,该方法在视觉问答任务上的准确率有明显的提升,整体准确率达到64.4%.模型的计算复杂度较低且推理速度更快.  相似文献   

9.
视觉问答是一项计算机视觉与自然语言处理相结合的任务,需要理解图中的场景,特别是不同目标对象之间的交互关系。近年来,关于视觉问答的研究有了很大的进展,但传统方法采用整体特征表示,很大程度上忽略了所给图像的结构,无法有效锁定场景中的目标。而图网络依靠高层次图像表示,能捕获语义和空间关系,但以往利用图网络的视觉问答方法忽略了关系与问题间的关联在解答过程中的作用。据此提出基于同等注意力图网络的视觉问答模型EAGN,通过同等注意力机制赋予关系边与目标节点同等的重要性,两者结合使回答问题的依据更加充分。通过实验得出,相比于其他相关方法,EAGN模型性能优异且更具有竞争力,也为后续的相关研究提供了基础。  相似文献   

10.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。  相似文献   

11.
基于JSP分页技术的研究   总被引:1,自引:0,他引:1  
电子商务应用中的数据量往往非常大,甚至会达到几十万到几千万条记录的规模,将如此大量的数据显示在一个页面里困难大、效率低。在这种情况下就需要采用分页显示技术将数据库中符合条件的数据逐页显示给用户。对JSP分页技术进行比较,在分析JSP分页技术特点的基础上,提出一种有效的分页解决方案,同时对分页技术的优化进行阐述。  相似文献   

12.
汤雷  ;张勇  ;徐宇婷 《微机发展》2014,(12):238-240
科研院所设计研究中各类异构软件应用系统并存,数据和信息在各个应用系统中同步和共享成为现代企业信息化的瓶颈。针对这种现状,文中采用Java技术,通过建立异构系统底层的消息通讯机制,构建连接异构系统的ESB,实现各个异构系统通过ESB进行通讯,最终达到EAI的目的。实际中,基于该ESB构建了船舶设计行业应用软件系统集成平台,在数据集成、应用集成和业务流程集成中取得了较好的效果,肯定了文中成果的可行性。文中重点叙述了所构建的ESB结构图、ESB内部通讯原理及实现中所使用的数据结构,并给出了以该ESB为核心纽带设计的相关EAI平台架构。  相似文献   

13.
该文通过对移动agent技术和传统的视频点播系统的研究,提出了一种基于移动agent的分布式视频点播系统的设计和构造,具体地阐述了系统的工作流程,并着重讨论了实现该系统所要考虑的关键问题。移动agent的引入有效地减少了网络传输负载,实现了高速响应点播请求、高质量的影音效果,从而更好地满足更多用户的需求。  相似文献   

14.
基于FPGA的立方星可重构星载处理系统研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为了以最小代价提高立方星可重构星载计算机的可靠性,提出了一种基于FPGA的立方星可重构星载处理系统架构。首先,在对国内外微纳卫星星载计算机设计特点进行分析的基础上,分别采用基于SRAM架构和基于Flash架构的FPGA作为核心处理模块与外部表决接口模块,兼顾了系统的运算速度与可靠性。其次,针对可重构星载处理系统中所涉及的可重构策略、在线重构技术以及系统同步技术进行了详细设计。最终,基于所设计硬件系统上进行的测试以及在轨的实测数据验证了该架构的可靠性和有效性。  相似文献   

15.
空间信息的存储和处理问题是地理信息系统(GIS)的核心问题.对空间数据和属性数据的统一存储管理已成为必然趋势.本文通过对GIS中海量数据的存储方式进行研究,指出对象-关系型的数据库存储方式是空间数据库的发展方向.在此基础上讨论了Hibernate技术与GIS数据库的结合,使用Hibernate技术将关系数据库中空间数据和属性数据进行封装,屏蔽了数据库底层操作,使得程序员可以用面向对象的思想随意操纵数据库,在利用了关系数据库的快速检索、查询能力的同时也增强了数据的一致性和可移植性.  相似文献   

16.
Elastos是具有中国自主知识产权的面向服务的新型嵌入式网络操作系统。目前主要用嵌入式设备,多款基于Elastos的3G手机已经面世,一款基于Elastos的电子书也即将进入量产。本文提出了基于Elastos的ContentProvider,这是一种易于使用和扩展的应用程序数据访问模式,解决了在需求多变的市场背景下,手机应用程序如何方便的访问数据的问题。  相似文献   

17.
面向性能的软件再工程研究   总被引:1,自引:0,他引:1  
将提高遗产系统性能作为软件再工程的一大目标加以考虑,提出了一种基于反模式的再工程方法。这种方法通过对一些反模式的特征进行识别,在遗产系统中发现对于系统性能有不良影响的设计并通过一定的方法加以消除,从而达到改善遗产系统性能的目的。  相似文献   

18.
集成电路芯片工艺的发展已可使一个系统或一个子系统集成在一个芯片上 ,称为系统集成芯片。本文综述了系统集成芯片的硬件构造、超长指令 (VLIW )结构、芯片嵌入软件及软硬件协同设计方法。  相似文献   

19.
E1astos是具有中国自主知识产权的面向服务的新型嵌入式网络操作系统。目前主要用嵌入式设备,多款基于Elastos的3G手机已经面世.一款基于Elastos的电子书也即将进入量产。本文提出了基于Elastos的Content Provider,这是一种易于使用和扩展的应用程序数据访问模式.解决了在需求多变的市场背景下,手机应用程序如何方便的访问数据的问题。  相似文献   

20.
AADL模型的测试方法研究   总被引:2,自引:1,他引:1  
王庚  周兴社  张凡  董云卫 《计算机科学》2009,36(11):127-130
近几年来,MDA开发方式的应用使得如何保证模型质量成为研究的热点.以基于模型的测试为研究对象,研究了对AADL模型进行模型测试的方法,并提出了结合马尔可夫链对AADL模型进行测试的框架以及实施方法.最后,通过示例进一步说明了该方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号