首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
机器阅读理解任务要求机器根据篇章文本回答相关问题。该文以抽取式机器阅读理解为例,重点考察当问题的线索要素与答案在篇章文本中跨越多个标点句时的阅读理解问题。该文将小句复合体结构自动分析任务与机器阅读理解任务融合,利用小句复合体中跨标点句话头-话体共享关系,来降低机器阅读理解任务的难度;并设计与实现了基于小句复合体的机器阅读理解模型。实验结果表明,在问题线索要素与答案跨越多个标点句时,答案抽取的精确匹配率(EM)相对于基准模型提升了3.49%,模型整体的精确匹配率提升了3.26%。  相似文献   

2.
当前,突发热点事件的传播日益迅猛与广泛.如何通过事件抽取准确快速地抽取出事件触发词及其事件元素,有助于决策者分析舆情态势、引导社会舆论.针对现有事件抽取方法多是从单个句子中抽取事件元素,而突发热点事件的事件元素往往分布在多个句子当中的问题,提出了一种基于图注意力网络的突发热点事件联合抽取方法,该方法分为三个阶段:基于TextRank的事件句抽取、基于图注意力网络的篇章级事件联合抽取、突发热点事件补全.在抽取出新闻主旨事件以后对整篇新闻做事件抽取,利用候选事件与新闻主旨事件的事件向量相似度以及事件论元相似度对该新闻主旨事件进行补全.实验结果表明,该方法在DUEE1.0数据集上进行触发词抽取和论元角色抽取任务时的F1指标分别达到83.2%、59.1%;在中文突发事件语料库上进行触发词抽取和论元角色抽取任务时的F1指标分别达到82.7%、58.7%,验证了模型的合理性和有效性.  相似文献   

3.
赵旭剑  王崇伟 《计算机应用》2021,41(11):3139-3144
微博作为人们获取和传播新闻事件的主要平台,隐藏着丰富的事件信息。从微博数据中抽取故事线能为用户提供一种直观的方式来准确理解事件演化,然而微博数据稀疏和上下文缺乏的特点为故事线抽取带来了挑战。因此,通过两个连续的任务从微博数据中自动抽取故事线:1)基于微博传播影响力对事件进行建模,并提取出首要事件;2)基于事件特征建立异构事件图,提出事件图卷积网络(E-GCN)模型来提升对事件间隐式关系的学习能力,从而实现事件的故事分支预测并链接事件。在真实数据集上从故事分支和故事线两个角度进行评测,结果表明所提方法在故事分支生成测评中,相较于贝叶斯模型、斯坦纳树和故事森林在F1值上,在Dataset1上分别高出28个百分点、20个百分点和27个百分点,在Dataset2上分别高出19个百分点、12个百分点和22个百分点;而在故事线抽取评测中,相较于故事时间线、斯坦纳树和故事森林在正确的边准确率上,在Dataset1上分别高出33个百分点、23个百分点和17个百分点,在Dataset2上分别高出12个百分点、3个百分点和9个百分点。  相似文献   

4.
《计算机工程》2017,(8):219-224
为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句。实验结果表明,该方法的抽取效果优于基于词频-逆文档概率和新闻标题的主题句抽取方法。  相似文献   

5.
随着知识图谱技术的兴起,利用金融事件大数据中的实体关系来构建金融事件的精准画像成为一个重要的研究方向.通过对金融事件大数据信息进行精准画像,人们可以详细分析金融事件大数据中的属性关系,全面了解金融事件的发展态势,从而分析金融市场发展趋势与规律.然而金融事件大数据存在文本数据噪音多、中文语义复杂以及实体关系抽取不准确等研究难点,导致金融事件大数据画像不精准.针对以上问题,提出一种基于多重注意力的金融事件大数据实体关系抽取算法(REMA)来进行实体关系的抽取,然后利用抽取的实体关系信息结合知识图谱技术进行金融事件大数据的精准画像.实验结果表明:在不使用外部资源的情况下,该算法在金融事件大数据中实体关系抽取的准确率、召回率以及F1值比其他对比算法均有所提升,其中准确率提升了5.6个百分点,召回率提升了4.6个百分点,F1值提升了5个百分点.  相似文献   

6.
事件抽取是信息抽取的重要任务之一,在知识图谱构建、金融行业分析、内容安全分析等领域均有重要应用。现有中文事件抽取方法一般为实体识别、关系抽取、实体分类等任务的级联。将事件抽取转化为阅读理解任务,可为模型引入问题所含的先验信息。提出一种基于预训练模型的机器阅读理解式中文事件抽取方法(Chinese event extraction by machine reading comprehension,CEEMRC),将中文事件抽取简化为两个问答模型的级联。首先对事件触发词抽取、事件类型判定、属性抽取构建相应的问答任务问题。以RoBERTa为基础构建触发词抽取和事件类型识别联合模型、事件属性抽取两个问答模型,并融入触发词先验特征、分词信息、触发词相对位置等信息来提升模型效果。最后以模型预测回答的起始和结束位置完成所需的抽取。实验使用DuEE中文事件数据集,触发词抽取和属性抽取的F1值均优于同类方法,验证了该方法的有效性。  相似文献   

7.
事件抽取(event extraction)是自然语言处理(natural language processing,NLP)中的一个重要且有挑战性的任务,以完成从文本中识别出事件触发词(trigger)以及触发词对应的要素(argument)。对于一个句子中有多个事件的多事件抽取任务,提出了一种注意力机制的变种——动态掩蔽注意力机制(dynamic masked attention network,DyMAN),与常规注意力机制相比,动态掩蔽注意力机制能够捕捉更丰富的上下文表示并保留更有价值的信息。在ACE 2005数据集上进行的实验中,对于多事件抽取任务,与之前最好的模型JRNN相比,DyMAN模型在触发词分类任务上取得了9.8%的提升,在要素分类任务上取得了4.5%的提升,表明基于DyMAN的事件抽取模型在多事件抽取上能够实现领先的效果。  相似文献   

8.
李康康  张静 《计算机应用》2021,41(9):2504-2509
图像描述任务是图像理解的一个重要分支,它不仅要求能够正确识别图像的内容,还要求能够生成在语法和语义上正确的句子。传统的基于编码器-解码器的模型不能充分利用图像特征并且解码方式单一。针对这些问题,提出一种基于注意力机制的多层次编码和解码的图像描述模型。首先使用Faster R-CNN(Faster Region-based Convolutional Neural Network)提取图像特征,然后采用Transformer提取图像的3种高层次特征,并利用金字塔型的融合方式对特征进行有效融合,最后构建3个长短期记忆(LSTM)网络对不同层次特征进行层次化解码。在解码部分,利用软注意力机制使得模型能够关注当前步骤所需要的重要信息。在MSCOCO大型数据集上进行实验,利用多种指标(BLEU、METEOR、ROUGE-L、CIDEr)对模型进行评价,该模型在指标BLEU-4、METEOR和CIDEr上相较于Recall(Recall what you see)模型分别提升了2.5个百分点、2.6个百分点和8.8个百分点;相较于HAF(Hierarchical Attention-based Fusion)模型分别提升了1.2个百分点、0.5个百分点和3.5个百分点。此外,通过可视化生成的描述语句可以看出,所提出模型所生成的描述语句能够准确反映图像内容。  相似文献   

9.
马春明  李秀红  李哲  王惠茹  杨丹 《计算机应用》2022,42(10):2975-2989
将用户感兴趣的事件从非结构化信息中提取出来,然后以结构化的方式展示给用户,这就是事件抽取。事件抽取在信息收集、信息检索、文档合成、信息问答等方面有着广泛应用。从全局出发,事件抽取算法可以分为基于模式匹配的算法、触发词法、基于本体的算法以及前沿联合模型方法这四类。在研究过程中根据相关需求可使用不同评价方法和数据集,而不同的事件表示方法也与事件抽取研究有一定联系;以任务类型区分,元事件抽取和主题事件抽取是事件抽取的两大基本任务。其中,元事件抽取有基于模式匹配、基于机器学习和基于神经网络这三种方式,而主题事件抽取有基于事件框架和基于本体两种方式。事件抽取研究在中英等单语言上均已取得了优秀成果,而跨语言事件抽取依然面临着许多问题。最后,总结了事件抽取的相关工作并提出未来研究方向,以期为后续研究提供参考。  相似文献   

10.
机器阅读理解任务需要机器理解篇章并回答相关问题,是许多应用系统中的一项核心任务。该文面向高考语文中的现代文阅读理解文本语义表示、候选句抽取、鉴赏分析等关键技术展开研究,针对选择题、问答题等构建了相应的答题引擎,并在高考真题及测试题上,对系统进行了实验验证与错误分析,实验结果表明,该文所构建的系统能够在一定程度上解答问题。未来将围绕语义表示、知识的统一表征与知识聚合、迁移学习等前沿技术,提升阅读理解系统的复杂综合推理能力、概括分析能力、语言鉴赏能力。  相似文献   

11.
公安警情领域存在大量警情文本数据,如何从不同源、不同格式的警情文本中抽取出案情相关信息是公安情报信息处理工作的一个重要内容。基于公安警情领域数据特点,该文提出了一种结合无触发词事件识别和基于阅读理解的事件论元角色分类的事件抽取方法。该方法首先采用无触发词方法实现事件识别;在事件识别结果的基础上,通过阅读理解方式实现对事件论元角色的分类。实验表明,该文提出的方法在不标注触发词情况下在警情领域数据中能更好地实现事件信息抽取。  相似文献   

12.
预训练语言模型在机器阅读理解领域具有较好表现,但相比于英文机器阅读理解,基于预训练语言模型的阅读理解模型在处理中文文本时表现较差,只能学习文本的浅层语义匹配信息。为了提高模型对中文文本的理解能力,提出一种基于混合注意力机制的阅读理解模型。该模型在编码层使用预训练模型得到序列表示,并经过BiLSTM处理进一步加深上下文交互,再通过由两种变体自注意力组成的混合注意力层处理,旨在学习深层语义表示,以加深对文本语义信息的理解,而融合层结合多重融合机制获取多层次的表示,使得输出的序列携带更加丰富的信息,最终使用双层BiLSTM处理输入输出层得到答案位置。在CMRC2018数据集上的实验结果表明,与复现的基线模型相比,该模型的EM值和F1值分别提升了2.05和0.465个百分点,能够学习到文本的深层语义信息,有效改进预训练语言模型。  相似文献   

13.
案情阅读理解是机器阅读理解在司法领域的具体应用。案情阅读理解通过计算机阅读裁判文书,并回答相关问题,是司法智能化的重要应用之一。当前机器阅读理解的主流方法是采用深度学习模型对文本词语进行编码,并由此获得文本的向量表示。模型建立的核心问题是如何获得文本的语义表示,以及问题与上下文的匹配。考虑到句法信息有助于模型学习句子主干信息,以及中文字符具有潜在的语义信息,提出了融合句法指导与字符注意力机制的案情阅读理解方法。通过融合句法信息及中文字符信息,提升模型对案情文本的编码能力。在法研杯2019阅读理解数据集上的实验结果表明,所提出的方法与基线模型相比EM值提升了0.816,F1值提升了1.809%。  相似文献   

14.
机器阅读理解作为自然语言理解的关键任务,受到国内外学者广泛关注。针对多项选择型阅读理解中无线索标注且涉及多步推理致使候选句抽取困难的问题,该文提出一种基于多模块联合的候选句抽取模型。首先采用部分标注数据微调预训练模型;然后通过TF-IDF递归式抽取多跳推理问题中的候选句;最后结合无监督方式进一步筛选模型预测结果降低冗余性。该文在高考语文选择题及RACE数据集上进行验证,在候选句抽取中,该方法相比于最优基线模型F1值提升3.44%,在下游答题任务中采用候选句作为模型输入较全文输入时准确率分别提高3.68%和3.6%,上述结果证实该文所提方法的有效性。  相似文献   

15.
信息抽取是自然语言处理工作中的重要任务之一。针对由于自然语言的多样性、歧义性和结构性而导致的信息抽取困难的问题,提出了一种面向金融事件信息抽取的层次化词汇-语义模式方法。首先,定义了一个金融事件表示模型;然后应用基于深度学习的词向量方法来实现自动生成同义概念词典;最后采用基于有限状态机驱动的层次化词汇-语义规则模式实现了对各类金融事件信息自动抽取的目标。实验结果表明,所提方法可以从金融新闻文本中准确地抽取出各类金融事件信息,并且对26类金融事件的微平均识别准确率达到93.9%,微平均召回率达到86.9%,微平均F1值达到90.3%。  相似文献   

16.
王元龙 《计算机应用》2017,37(6):1741-1746
阅读理解任务需要综合运用文本的表示、理解、推理等自然语言处理技术。针对高考语文中文学作品阅读理解的选项题问题,提出了基于分层组合模式的句子组合模型,用来实现句子级的语义一致性计算。首先,通过单个词和短语向量组成的三元组来训练一个神经网络模型;然后,通过训练好的神经网络模型来组合句子向量(两种组合方法:一种为递归方法;另一种为循环方法),得到句子的分布式向量表示。句子间的一致性利用两个句子向量之间的余弦相似度来表示。为了验证所提方法,收集了769篇模拟材料+13篇北京高考语文试卷材料(包括原文与选择题)作为测试集。实验结果表明,与传统最优的基于知网语义方法相比,循环方法准确率在高考材料中提高了7.8个百分点,在模拟材料中提高了2.7个百分点。  相似文献   

17.
针对现有的机器阅读理解模型主要使用循环模型处理文本序列信息,这容易导致训练和预测速度慢且模型预测准确性不高等问题,提出了一种片段抽取型机器阅读理解算法QA-Reader.该算法利用大型预训练语言模型RoBERTa-www-ext获取问题和上下文的词嵌入表示;使用深度可分离卷积和多头自注意力机制进行编码;计算上下文和问题的双向注意力及上下文的自注意力,以融合上下文和问题之间的关联信息,拼接得到最终的语义表征;经过模型编码器预测得到答案,模型针对不可回答的问题计算了其不可回答的概率.在中文片段抽取型机器阅读理解数据集上进行了实验,结果表明QA-Reader模型与基线模型相比,其性能方面EM和F1值分别提高了3.821%、2.740%,训练速度提高了0.089%.  相似文献   

18.
阅读理解因果关系类选项是指存在因果线索词的选项,此类选项需要根据原文中的因果关系表征进行作答。基于高考阅读理解任务构建因果关系网络,提出融合因果关系表征的因果关系类选项判断方法。采用模式匹配方法抽取原文的因果句对,根据文章因果句对抽取出因果关系词对,并通过点互信息计算因果关系词对之间的因果关联强度,从而构建因果关系网络来表征原文的因果关系。在此基础上,将因果关系表征融入到BERT模型中,预测因果关系选项和原文是否一致。同时,根据高考阅读理解大纲结合语料库发现错误类型分为因果颠倒、强加因果、偷换原因或结果、其他类型等4类,根据每一种错误类型的特点结合预测结果确定选项的错误类型,并提供一个错误解释,以增强方法的可解释性。选用近15年全国高考试题及模拟题中的4 071个科技类阅读理解因果选项进行实验,结果显示F1值达到62.09%,验证了该方法的有效性。  相似文献   

19.
以往机器阅读理解模型中存在文本特征提取单一, 文本和问题的交互信息不全面等问题, 导致模型不能充分对文本进行理解, 本文提出了一种多层次信息融合的机器阅读理解模型. 通过在不同位置使用不同方法, 对文本信息进行多种层次的获取. 使用膨胀卷积网络捕捉文本的全局信息, 采用双向注意力机制和自注意力机制融合文本和问题之间的交互信息, 通过指针网络预测答案及其对应的支撑句. 该模型在CAIL2019和CAIL2020阅读理解数据集上训练的联合F1值分别达到50.09%和58.44%, 相比于其他基线模型取得了明显的性能提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号