首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
随着社交媒体和人机交互技术的快速发展,视频、图像以及文本等多模态数据在互联网中呈爆炸式增长,因此多模态智能研究受到关注。其中,视觉问答与推理任务是跨模态智能研究的一个重要组成部分,也是人类实现人工智能的重要基础,已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先,介绍了视觉问答与推理的定义,并简述了当前该任务面临的挑战;其次,从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳;然后,全面介绍了视觉问答与推理常用公开数据集,并对相关数据集上的已有算法进行详细分析;最后,对视觉问答与推理任务的未来方向进行了展望。  相似文献   

2.
基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点之一,其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度学习的飞速发展及其在计算机视觉和自然语言处理领域的广泛应用,基于视觉和语言的跨媒体问答与推理也取得了较快的发展。文中首先系统地梳理了当前基于视觉和语言的跨媒体问答与推理的相关工作,具体介绍了基于图像的视觉问答与推理、基于视频的视觉问答与推理以及基于视觉常识推理模型与算法的研究进展,并将基于图像的视觉问答与推理细分为基于多模态融合、基于注意力机制和基于推理3类,将基于视觉常识推理细分为基于推理和基于预训练2类;然后总结了目前常用的问答与推理数据集,以及代表性的问答与推理模型在这些数据集上的实验结果;最后展望了基于视觉和语言的跨媒体问答与推理的未来发展方向。  相似文献   

3.
针对大多数视频问答(VideoQA)模型将视频和问题嵌入到同一空间进行答案推理所面临的多模态交互困难、视频语义特征保留能力差等问题,提出了一种视频描述机制来获得视频语义特征的文本表示,从而避免了多模态的交互.提出方法将视频特征通过描述机制得到相应的视频描述文本,并将描述文本特征与问题特征进行阅读理解式的交互与分析,最后推理出问题的答案.在MSVD-QA以及MSRVTT-QA数据集上的测试结果显示,提出问答模型的回答准确率较现有模型均有不同程度的提升,说明所提方法能更好地完成视频问答任务.  相似文献   

4.
随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对特定模态特征提取时引入其它模态的噪声特征,使得模型难以关注到不同模态医学影像中的关键特征.针对上述问题,本文提出一种基于多模态特征提取的医学视觉问答方法.首先,对医学影像进行模态识别,根据模态标签指导输入参数不共享的特征提取网络以获得不同模态影像的差异性特征;然后,设计了一种面向Med-VQA的卷积降噪模块以降低医学影像不同模态特征的噪声信息;最后,采用空间与通道注意力模块进一步增强不同模态差异性特征的关注度.在Med-VQA公共数据集Slake上得到的实验结果表明,本文提出方法能有效提高Med-VQA的准确率.  相似文献   

5.
在科技发达和信息爆炸的时代,如何从海量数据中准确地提取所需信息已成为人们研究的目标.问答系统作为解决此问题的重要途径之一,其主要通过对已有数据信息进行检索和分析,并最终返回问题答案或其他相关信息.近年来,深度学习的革命性发展给问答系统带来了长足的进步,序列到序列的模型,端到端的模型以及最近流行的预训练,都给问答系统留下无限的发展空间,但其仍面临许多挑战.本文首先对问答系统的发展进行简要介绍,接着将问答系统按照3个不同角度进行分类,并对相关数据集、评测指标和各类问答系统的主流技术进行阐述,最后对问答系统面临的问题和未来的发展趋势进行讨论.  相似文献   

6.
多语言问答是自然语言处理领域的研究热点之一,其目的是给定不同语种的问题和文本,模型能够返回正确的答案。随着机器翻译技术的快速发展及多语言预训练技术在自然语言处理领域中的广泛应用,多语言问答也取得了较快的发展。文中首先系统地梳理了当前多语言问答方法的相关工作,并将多语言问答方法分为基于特征的方法、基于翻译的方法、基于预训练的方法和基于双重编码的方法,分别介绍了每类方法的使用和特点;然后系统地探讨了当前多语言问答任务的相关工作,将多语言问答任务分为基于文本的多语言问答任务和基于多模态的多语言问答任务,并分别给出每个多语言问答任务的基本定义;接着总结了这些任务中的数据集统计、评价指标,以及涉及的问答方法;最后展望了多语言问答的未来发展方向。  相似文献   

7.
大数据时代,随着多源异构数据的爆炸式增长,多模态数据融合问题备受研究者的关注,其中视觉问答因需要图文协同处理而成为当前多模态数据融合研究的热点。视觉问答任务主要是对图像和文本两类模态数据进行特征关联与融合表示,最后进行推理学习给出结论。传统的视觉问答模型在特征融合时容易缺失模态关键信息,且大多数方法停留在数据之间浅层的特征关联表示学习,较少考虑深层的语义特征融合。针对上述问题,提出了一种基于图文特征跨模态深度交互的视觉问答模型。该模型利用卷积神经网络和长短时记忆网络分别获取图像和文本两种模态数据特征,然后利用元注意力单元组合建立的新型深度注意力学习网络,实现图文模态内部与模态之间的注意力特征交互式学习,最后对学习特征进行多模态融合表示并进行推理预测输出。在VQA-v2.0数据集上进行了模型实验和测试,结果表明,与基线模型相比,所提模型的性能有明显提升。  相似文献   

8.
问答系统研究综述   总被引:6,自引:0,他引:6  
近年来,问答系统被大量广泛地研究。问答系统的目标是给定一个问题,能够得到简短、精确的答案。根据处理数据的不同,将问答系统分为三类:基于结构化数据的问答系统、基于自由文本的问答系统、基于问题答案对的问答系统。对这三大类系统的特点、面临的问题和相关的研究分别进行了叙述和总结。最后,讨论了问答系统未来可能的研究方向。  相似文献   

9.
问答系统是信息检索的高级形式,也是该领域的研究重点和热点。该文首先给出问答系统的定义,然后对现有各类问答系统进行了介绍,并对其核心技术、测评标准进行了分析,最后对问答系统的发展方向进行了展望。  相似文献   

10.
视觉问答作为人工智能完备性和视觉图灵测试的重要呈现形式,加上其具有潜在的应用价值,受到了计算机视觉和自然语言处理两个领域的广泛关注。知识在视觉问答中发挥着重要作用,特别是在处理复杂且开放的问题时,推理知识和外部知识对获取正确答案极为关键。蕴含知识的问答机制被称为知识型视觉问答,目前还没有针对知识型视觉问答的系统性调查。面向视觉问答中的知识参与方式和表达形式的研究能够有效填补知识型视觉问答体系中在文献综述方面存在的缺口。文中对知识型视觉问答的各组成单元进行了调查,对知识的存在形态进行了研究,提出了知识层级概念。进一步地,针对视觉特征提取、语言特征提取和多模态融合过程中的知识参与方式和表达形式进行了归纳和总结,并对未来发展趋势及研究方向进行了探讨。  相似文献   

11.
问答系统可以针对用户提出的自然语言问题给出精准的答案,是自然语言处理领域中一个重要的研究方向。对于具有复杂语义结构和句法结构的多跳问题,模型需要强大的自然语言理解能力。问题分解作为问题理解的一种技术,有着不可估量的作用。阐述了问题分解的研究背景与意义;根据问题特征提取的方式,将现有的方法分为传统机器学习方法和深度学习方法两大类,传统机器学习方法以规则模板匹配和基于分割的方法为主,深度学习方法以基于Transformer、图神经网络、注意力机制、查询图和强化学习为主,并分别从模型架构、优势、劣势等方面进行分析。结合目前研究的动态,初步展望了未来的研究方向。  相似文献   

12.
罗玲    李硕凯    何清    杨骋骐  王宇洋恒  陈天宇 《智能系统学报》2021,16(4):819-826
传统信息检索技术已经不能满足人们对信息获取效率的要求,智能问答系统应运而生,并成为自然语言处理领域一个非常重要的研究热点。本文针对中文的冬奥问答领域,提出了基于知识图谱、词频-逆文本频率指数 (term frequency-inverse document frequency,TF-IDF)和自注意力机制的双向编码表示(bidirectional encoder representation from transformers,BERT)的3种冬奥问答系统模型。本文首次构建了冬奥问答数据集,并将上述3种方法集成在一起,应用于冬奥问答领域,用户可以使用本系统来快速准确地获取冬奥内容相关的问答知识。进一步,对3种模型的效果进行了测评,测量了3种模型各自的回答可接受率。实验结果显示BERT模型的整体效果略优于知识图谱和TDIDF模型,BERT模型对3类问题的回答可接受率都超过了96%,知识图谱和TDIDF模型对于复合统计问答对的回答效果不如BERT模型。  相似文献   

13.
遥感视觉问答(remote sensing visual question answering,RSVQA)旨在从遥感图像中抽取科学知识.近年来,为了弥合遥感视觉信息与自然语言之间的语义鸿沟,涌现出许多方法.但目前方法仅考虑多模态信息的对齐和融合,既忽略了对遥感图像目标中的多尺度特征及其空间位置信息的深度挖掘,又缺乏对尺度特征的建模和推理的研究,导致答案预测不够全面和准确.针对以上问题,本文提出了一种多尺度引导的融合推理网络(multi-scale guided fusion inference network,MGFIN),旨在增强RSVQA系统的视觉空间推理能力.首先,本文设计了基于Swin Transformer的多尺度视觉表征模块,对嵌入空间位置信息的多尺度视觉特征进行编码;其次,在语言线索的引导下,本文使用多尺度关系推理模块以尺度空间为线索学习跨多个尺度的高阶群内对象关系,并进行空间层次推理;最后,设计基于推理的融合模块来弥合多模态语义鸿沟,在交叉注意力基础上,通过自监督范式、对比学习方法、图文匹配机制等训练目标来自适应地对齐融合多模态特征,并辅助预测最终答案.实验结果表明,本文提出的模型在两个公共RSVQA数据集上具有显著优势.  相似文献   

14.
问答系统作为信息检索的一种高阶形式,能够迅速、精准地为用户提供所需的信息服务,在给定一个问题后,会相应地给出准确的答案,这使得它在自然语言处理领域成为一个越发受人关注的研究方向。问句分类作为问答系统中的问题分析和处理的首要环节,是问答系统中尤为重要的一部分,其分类精度会直接影响到问答系统的性能。近些年来,机器学习和深度学习等技术的快速发展极大地促进了问句分类的研究和发展,其在问句分类上具有较强的可行性和优越性。为此就问句分类的国内外研究现状、问句分类标准体系、问句特征抽取、传统的机器学习分类方法和近来流行的深度学习分类方法进行总结和分析,阐述了问句分类当前所面临的一些研究难点,并对未来的研究和发展方向做了初步展望。  相似文献   

15.
孙霞  洪华  王欣 《计算机应用研究》2009,26(6):2288-2290
针对网络答疑具体任务,提出答疑本体概念,构建答疑本体,并提出一种基于答疑本体的答案匹配方法和相似度计算公式。公式不仅考虑词之间的相似度,还考虑问题答案对(QAp)在本体中的位置。该位置信息隐含了句子结构上的语义和词的语义扩展。实验结果表明提出的答疑本体能够有效表示QAp,易于答疑系统的检索匹配。  相似文献   

16.
基于深度学习的语言模型研究进展   总被引:1,自引:0,他引:1  
王乃钰  叶育鑫  刘露  凤丽洲  包铁  彭涛 《软件学报》2021,32(4):1082-1115
语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.本文围绕语言模型基本原理和不同应用方向,以神经概率语言模型与预训练语言模型作为深度学习与自然语言处理结合的切入点,从语言模型的基本概念和理论出发,介绍了神经概率与预训练模型的应用情况和当前面临的挑战,对现有神经概率、预训练语言模型及方法进行对比和分析.我们又从新型训练任务和改进网络结构两方面对预训练语言模型训练方法进行详细阐述,并对目前预训练模型在规模压缩、知识融合、多模态和跨语言等研究方向进行概述和评价.最后总结语言模型在当前自然语言处理应用中的瓶颈,对未来可能的研究重点做出展望.  相似文献   

17.
近年来,随着知识图谱的发展,利用给定的知识图谱数据自动得出人类自然语言问题的答案成为了时下的研究热点,诸如Siri和小爱同学的问答系统已经广泛投入使用.得益于深度学习的引入,该领域的各子课题虽然有所突破,但依然存在需要攻克的难点,例如多跳推理和策略组合等.本文从主流的构建方法为切入点,归纳总结该领域研究现状以及所面临的...  相似文献   

18.
Online information seekers make heavy use of websites that accept their natural language questions. This study compared the three types of such websites: social question and answer (Q&A), digital reference services, and ask-an-expert services. Questions reflecting daily life, research, and crisis situations were posed to high use websites of all three types. The resulting answers’ characteristics were analyzed in terms of speed, transparency, formality, and intimacy. The results indicate that social Q&A websites excel in speed, ask-an-expert websites in intimacy, and digital reference services in transparency and formality.  相似文献   

19.
Video question answering aims to pinpoint answers in response to user’s specified questions. However, most question answering technologies involve in integrating rich specific external knowledge such as syntactic parsers, which are often unavailable for many languages. In this paper, we present a new string pattern matching-based passage ranking algorithm for extending traditional text Q/A toward videoQ/A. Users interact with our videoQ/A system through natural language questions whereas our system returns three sentence-length passages with corresponding video clips as answers. We collect 45 GB Discovery videos and 253 Chinese questions for evaluation. The experimental results showed that our method outperformed six top-performed ranking models. It is 7.39% better than the second best method (language model-based) in relatively MRR score and 6.12% in precision rate. Besides, we also show that the use of a trained Chinese word segmentation tool did decrease the overall videoQ/A performance where most ranking algorithms dropped at least 10% in relatively MRR, precision, and answer pattern recall rates.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号