期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

顾迎捷桂小林李德福沈毅廖东《软件学报》2020,31(7):2095-2126

机器阅读理解的目标是使机器理解自然语言文本并能够正确回答与文本相关的问题,由于数据集规模的制约,早期的机器阅读理解方法大多基于人工特征以及传统机器学习方法进行建模.近年来,随着知识库、众包群智的发展,研究者们陆续提出了高质量的大规模数据集,为神经网络模型以及机器阅读理解的发展带来了新的契机.本文对基于神经网络的机器阅读理解相关的最新研究成果进行了详尽的归纳.首先,概述了机器阅读理解的发展历程、问题描述以及评价指标;然后,针对当前最流行的神经阅读理解模型架构,包括嵌入层、编码层、交互层和输出层中所使用的相关技术进行了全面的综述,同时阐述了最新的BERT预训练模型及其优势;之后,本文归纳了近年来机器阅读理解数据集和神经阅读理解模型的研究进展,同时详细比较分析了最具有代表性的数据集以及神经网络模型;最后,本文展望了机器阅读理解研究的挑战和未来的研究方向. 相似文献

2.

2018机器阅读理解技术竞赛总体报告

刘凯刘璐刘璟吕雅娟佘俏俏张倩时迎超《中文信息学报》2018,32(10):118-129

机器阅读理解是自然语言处理和人工智能领域的前沿课题,“2018机器阅读理解技术竞赛”旨在推动相关技术研究和应用的发展。竞赛发布了最大规模的中文阅读理解数据集,提供了先进的开源基线系统,采用改进的自动评价指标,吸引了国内外千余支队伍参与,参赛系统效果提升显著。该文详细介绍技术竞赛的总体情况、竞赛设置、组织流程、评价结果,并对参赛系统结果进行了分析。相似文献

3.

会话式机器阅读理解综述

李堃李艳玲林民《计算机科学与探索》2021,15(9):1607-1618

机器阅读理解(MRC)是一个受数据集推动的研究领域,其目标是让机器在理解文章内容的基础上能够正确回答相关问题.早期受数据集限制,机器阅读理解任务大多局限于单轮问答,问答对之间缺少依赖关系.而会话问答(ConvQA)是使机器在帮助人类获取信息时可以进行连续主题的人机交互过程.近年来,随着机器阅读理解数据集和深度神经网络的发展,研究人员将机器阅读理解与会话问答结合,形成更为复杂真实的会话式机器阅读理解(CMC),这极大地推动了机器阅读理解领域的发展.对近几年会话式机器阅读理解相关最新研究进展从三方面归纳总结:首先阐述该任务的定义、所面临的挑战以及相关数据集的特性;然后归纳总结当前最新模型的架构及其研究进展,着重介绍会话历史嵌入表示以及会话推理所使用的相关技术方法;最后梳理分析当前会话式机器阅读理解模型,并对未来研究重点和研究方法进行展望. 相似文献

4.

选择式机器阅读理解综述

贺吉飞徐行健孟繁军《计算机应用研究》2022,39(6)

机器阅读理解是自然语言处理领域的研究热点之一,对提升机器阅读能力和智能水平有着重要意义,为跟进相关领域的研究进展对其进行综述。首先,介绍机器阅读理解的发展历程及主要任务;其次,重点梳理当前选择式机器阅读理解基于深度学习方法的相关工作,并从语义匹配、预训练模型、语义推理、外部知识四个方面展开叙述;归纳总结了相关数据集以及评价指标;最后,对选择式机器阅读理解的未来发展趋势进行了展望。相似文献

5.

基于预训练模型的机器阅读理解研究综述

下载免费PDF全文

张超然裘杭萍孙毅王中伟《计算机工程与应用》2020,56(11):17-25

近年来深度学习技术不断进步,随着预训练模型在自然语言处理中的应用与发展,机器阅读理解不再单纯地依靠网络结构与词嵌入相结合的方法。预训练语言模型的发展推动了机器阅读理解的进步,在某些数据集上已经超越了人类的表现。简要介绍机器阅读理解以及预训练语言模型的相关概念,综述当下基于预训练模型的机器阅读理解研究进展,对目前预训练模型在相关数据集上的性能进行分析,总结了目前存在的问题并对未来进行展望。相似文献

6.

抽取式机器阅读理解研究综述

下载免费PDF全文

包玥李艳玲林民《计算机工程与应用》2021,57(12):25-36

机器阅读理解要求机器能够理解自然语言文本并回答相关问题,是自然语言处理领域的核心技术,也是自然语言处理领域最具挑战性的任务之一。抽取式机器阅读理解是机器阅读理解任务中一个重要的分支,因其更贴合实际情况,更能够反映机器的理解能力,成为当前学术界和工业界的研究热点。对抽取式机器阅读理解从以下四个方面进行了全面地综述：介绍了机器阅读理解任务及其发展历程;介绍了抽取式机器阅读理解任务以及其现阶段存在的难点;对抽取式机器阅读理解任务的主要数据集及方法进行了梳理总结;讨论了抽取式机器阅读理解的未来发展方向。相似文献

7.

神经机器阅读模型综述

下载免费PDF全文

骆丹张鹏马路王斌王丽宏《信息安全学报》2024,9(2):122-139

近年来,随着互联网的高速发展,网络内容安全问题日益突出,是网络治理的核心任务之一。文本内容是网络内容安全最为关键的研究对象,然而自然语言本身固有的模糊性和灵活性给网络舆情监控和网络内容治理带来了很大的困难。因此,如何准确地理解文本内容,是网络内容治理的关键问题。目前,文本内容理解的核心支撑技术是基于自然语言处理的方法。机器阅读理解作为自然语言处理领域中的一项综合性任务,可以深层次地分析、全面地理解网络内容,在网络舆论监测和网络内容治理上发挥着重要作用。近年来,深度学习技术已在图像识别、文本分类、自然语言处理等多个领域中取得显著成果,基于深度学习的机器阅读理解方法也被广泛研究。特别是近年来各种大规模数据集的公开,加快了神经机器阅读理解的发展,各种结合不同神经网络的机器阅读模型被相继提出。本文旨在对神经机器阅读模型进行综述。首先介绍机器阅读理解的发展历史和研究现状;然后阐述机器阅读理解的任务定义,并列举出有代表性的数据集以及神经机器阅读模型;再介绍四种新趋势目前的研究进展;最后提出神经机器阅读模型当前存在的问题,并且分析机器阅读理解如何应用于网络内容治理问题以及对未来的发展趋势进行展望。相似文献

8.

基于自注意力机制的阅读理解模型

张浩宇张鹏飞李真真谭庆平《中文信息学报》2018,32(12):125-131

机器阅读理解是自然语言处理领域一项得到广泛关注与研究的任务。该文针对中文机器阅读理解数据集DuReader,分析其数据集的特点及难点,设计了一种基于循环神经网络和自注意力机制的抽取式模型Mixed Model。通过设计段落融合等策略,该文提出的模型在DuReader测试集上达到了54.2的Rouge-L得分和49.14的Bleu-4得分。相似文献

9.

基于BiDAF多文档重排序的阅读理解模型

杨志明时迎成王泳潘昊杰毛金涛《中文信息学报》2018,32(11):117-127

随着互联网的兴起和发展,数据规模急速增长,如何利用机器阅读理解技术对海量的非结构化数据进行解析,从而帮助用户快速、准确地查找到满意答案,是目前自然语言理解领域中的一个热门课题。该文通过对机器阅读理解中的深度神经网络模型进行研究,构建了RBiDAF模型。首先,通过对DuReader数据集进行数据探索,并对数据进行预处理,从中提取出有利于模型训练的特征。其次在BiDAF模型的基础上提出了基于多文档重排序的RBiDAF机器阅读理解模型,该模型在BiDAF模型四层网络框架的基础上添加了ParaRanking层。其中在ParaRanking层,该文提出了多特征融合的ParaRanking算法,此外在答案预测层,提出了基于先验知识的多答案交叉验证算法,进而对答案进行综合预测。在“2018机器阅读理解技术竞赛”的最终评测中,该模型表现出了不错的效果。相似文献

10.

基于多篇章多答案的阅读理解系统

刘家骅韦琬陈灏杜彦涛《中文信息学报》2018,32(11):103-111

机器阅读理解任务一直是自然语言处理领域的重要问题。2018机器阅读理解技术竞赛提供了一个基于真实场景的大规模中文阅读理解数据集,对中文阅读理解系统提出了很大的挑战。为了应对这些挑战,我们在数据预处理、特征表示、模型选择、损失函数的设定和训练目标的选择等方面基于以往的工作做出了对应的设计和改进,构建出一个最先进的中文阅读理解系统。我们的系统在正式测试集ROUGE-L和BLEU-4上分别达到了63.38和59.23,在105支提交最终结果的队伍里面取得了第一名。相似文献

11.

多跳机器阅读理解研究进展

苏珂黄瑞阳张建朋余诗媛胡楠《计算机工程》2021,47(9):1-17

与常规的单跳机器阅读理解相比,多跳机器阅读理解（MHMRC）需要在多个相关文档段落中进行多跳推理以实现对复杂问题的理解和回答,其更接近于人类的语言推理能力,具有广阔的应用前景但也极具挑战性。阐述MHMRC的研究背景,将现有方法根据适用场景分为封闭集合问答和开放域问答两类,主要包括基于问题分解的方法、基于图神经网络的方法、改进检索的方法、基于推理路径的方法等,分别从模型架构、特点、优劣等方面进行分析。介绍用于多跳推理的非结构化文本数据集和评测指标,对比各模型的性能表现。在此基础上,分析目前MHMRC研究的热点与难点,指出未来发展方向。相似文献

12.

N-Reader:基于双层Self-attention的机器阅读理解模型

梁小波任飞亮刘永康潘凌峰侯依宁张熠李妍《中文信息学报》2018,32(10):130-137

机器阅读理解是自然语言处理和人工智能领域的重要前沿课题,近年来受到学术界和工业界的广泛关注。为了提升机器阅读理解系统在多文档中文数据集上的处理能力,我们提出了N-Reader,一个基于神经网络的端到端机器阅读理解模型。该模型的主要特点是采用双层self-attention机制对单个文档以及所有输入文档进行编码。通过这样的编码,不仅可以获取单篇文档中的关键信息,还可以利用多篇文档中的相似性信息。另外,我们还提出了一种多相关段落补全算法来对输入文档进行数据预处理。这种补全算法可以帮助模型识别出具有相关语义的段落,进而预测出更好的答案序列。使用N-Reader模型,我们参加了由中国中文信息学会、中国计算机学会和百度公司联手举办的“2018机器阅读理解技术竞赛”,取得了第3名的成绩。相似文献

13.

基于深度学习的机器阅读理解研究综述

下载免费PDF全文

杜永萍赵以梁阎婧雅郭文阳《智能系统学报》2022,17(6):1074-1083

机器阅读理解任务在近年来备受关注,它赋予计算机从文本数据中获取知识和回答问题的能力。如何让机器理解自然语言是人工智能领域长期存在的挑战之一,近年来大规模高质量数据集的发布和深度学习技术的运用,使得机器阅读理解取得了快速发展。基于神经网络的端到端的模型结构,基于预训练语言模型以及推理技术的应用,其性能在大规模评测数据集上有很大提升,但距离真正的理解语言还有较大差距。本文对机器阅读理解任务的研究现状与发展趋势进行了综述,主要包括任务划分、机器阅读理解模型与相关技术的分析,特别是基于知识推理的机器阅读理解技术,总结并讨论了该领域的发展趋势。相似文献

14.

MCA-Reader:基于多重联结机制的注意力阅读理解模型

张禹尧蒋玉茹毛腾张仰森《中文信息学报》2019,33(10):73-80

机器阅读理解是当下自然语言处理的一个热门任务,其内容是: 在给定文本的基础上,提出问题,机器要在给定文本中寻找并给出最终问题的答案。片段抽取式阅读理解是当前机器阅读理解研究的一个典型的方向,机器通过预测答案在文章中的起始和结束位置来定位答案。在此过程中,注意力机制起着不可或缺的作用。该文为了更好地解决片段抽取式机器阅读理解任务,提出了一种基于多重联结机制的注意力阅读理解模型。该模型通过多重联结的方式,更有效地发挥了注意力机制在片段抽取式机器阅读理解任务中的作用。利用该模型,在第二届“讯飞杯”中文机器阅读理解评测(CMRC2018)的最终测试集上EM值为71.175,F₁值为88.090,排名第二。相似文献

15.

基于多任务联合训练的法律文本机器阅读理解模型

李芳芳任星凯毛星亮林中尧刘熙尧《中文信息学报》2021,35(7):109

随着裁判文书等司法大数据不断积累,如何将人工智能与法律相结合成为了法律智能研究的热点。该文针对2020中国法研杯司法人工智能挑战赛(CAIL2020)的机器阅读理解任务,提出了一种基于多任务联合训练的机器阅读理解模型。该模型将阅读理解任务划分为四个子模块: 文本编码模块、答案抽取模块、答案分类模块和支持句子判别模块。此外,该文提出了一种基于TF-IDF的“问题-文章句子”相似度匹配的数据增强方法。该方法对中国法研杯2019的训练集进行重新标注,实现数据增强。通过以上方法,最终该集成模型在2020中国法研杯机器阅读理解任务中联合F₁值为74.49,取得全国第一名。相似文献

16.

面向鲁棒性增强的多任务机器阅读理解

谭红叶行覃杰《计算机工程与科学》2023,(2):363-369

目前抽取式机器阅读理解已经取得了很好的成果。然而，许多研究工作表明，机器阅读理解模型在过敏感性、过稳定性等方面的鲁棒性还有待提高。为了解决该问题，提出了一种面向鲁棒性增强的多任务抽取式阅读理解模型，加强模型在篇章和问题2方面的理解能力。通过多任务学习方式，将答案抽取作为主要任务，证据句判断和问题分类作为辅助任务，实现编码器之间的信息共享。在鲁棒性测试集上的实验结果表明，所提模型对比基线模型有明显的性能提升。相似文献

17.

一种基于数据重构和富特征的神经网络机器阅读理解模型

尹伊淳张铭《中文信息学报》2018,32(11):112-116

该文描述了ZWYC团队在“2018机器阅读理解技术竞赛”上提出的机器理解模型。所提出模型将机器阅读理解问题建模成连续文本片段抽取问题,提出基于富语义特征的神经交互网络模型。为了充分使用答案标注信息,模型首先对数据进行细致的重构,让人工标注的多个答案信息都能融合到数据中。通过特征工程,对每个词构建富语义表征。同时提出一种简单有效的问题和文档交互的方式,得到问题感知的文档表征。基于多个文档串接的全局表征,模型进行答案文本预测。在最终测试集上,该模型获得了目前先进的结果,在105支队伍中排名第2。相似文献

18.

片段抽取型机器阅读理解算法研究

叶俊民赵晓丽《计算机应用研究》2021,38(11):3268-3273

针对现有的机器阅读理解模型主要使用循环模型处理文本序列信息,这容易导致训练和预测速度慢且模型预测准确性不高等问题,提出了一种片段抽取型机器阅读理解算法QA-Reader.该算法利用大型预训练语言模型RoBERTa-www-ext获取问题和上下文的词嵌入表示;使用深度可分离卷积和多头自注意力机制进行编码;计算上下文和问题的双向注意力及上下文的自注意力,以融合上下文和问题之间的关联信息,拼接得到最终的语义表征;经过模型编码器预测得到答案,模型针对不可回答的问题计算了其不可回答的概率.在中文片段抽取型机器阅读理解数据集上进行了实验,结果表明QA-Reader模型与基线模型相比,其性能方面EM和F1值分别提高了3.821％、2.740％,训练速度提高了0.089％. 相似文献

19.

面向阅读理解的多对一中文文本蕴含问题研究

陈千陈夏飞郭鑫王素格《中文信息学报》2018,32(4):87-94

机器阅读理解作为一种微阅读模式近年来在自动问答领域受到广泛关注,针对机器阅读理解中多对一的文本蕴含问题,该文首先构造了8 000级别的多句—单句中文文本蕴含语料M2OCTE,其次采用了层级神经网络模型,有效融合多个句子之间的语义信息,将多对一的蕴含对表达成统一的形式,实现端到端的输出。该方法在高考现代文阅读理解蕴含数据集上的准确率为58.92%,比将多句—单句的文本蕴含转换为单句—单句之后进行处理的准确率要高。同时也在英文数据集上进行了测试,实验结果验证了该方法的有效性。相似文献

20.

长短答案分类指导的机器阅读理解方法

杨建喜向芳悦李韧李东蒋仕新张露伊肖桥《中文信息学报》2023,(5):112-121

针对现有机器阅读理解模型存在长答案不完整、短答案冗余，即模型对答案的边界信息捕捉能力有待提升问题，该文基于“问题分类+答案预测联合学习”的流水线式策略，提出了一种通过答案长短特征分类指导机器阅读理解的神经网络模型。该方法采用预训练语言模型对问题和文章进行语义表示，并以待预测答案的长短类型对相应问题进行分类，然后将问题分类的结果用于指导阅读理解中的答案预测模块，最终以多任务学习的方式得到全部答案的开始位置和结束位置。实验结果表明，该模型在CMRC2018数据集上的EM平均值为67.4%,F₁平均值为87.6%,相比基线模型，分别提升了0.9%和1.1%。在自建的中文桥梁检测问答数据集上的EM平均值为89.4%、F₁平均值为94.7%,相比基线模型，分别提升了1.2%和0.5%。在更少训练集规模的CMRC2018和中文繁体数据集DRCD上，该文方法也优于基线模型。相似文献