首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 72 毫秒
1.
事件抽取是自然语言处理中信息抽取的关键任务之一.事件检测是事件抽取的第一步,事件检测的目标是识别事件中的触发词并为其分类.现有的中文事件检测存在由于分词造成的误差传递,导致触发词提取不准确.将中文事件检测看作序列标注任务,提出一种基于预训练模型与条件随机场相结合的事件检测模型,采用BIO标注方法对数据进行标注,将训练数...  相似文献   

2.
信息抽取技术用于从非结构化文本数据中提取关注度较高的信息。事件抽取技术是信息抽取研究领域中具有挑战的研究方向。事件抽取的目的是从非结构化文本数据中抽取描述事件的关键元素,并以结构化的方式呈现。事件抽取被看作序列标注任务,首先采用ALBERT预训练模型学习特征,其次引入条件随机场CRF模型提高序列标注性能,最后完成事件类型以及事件要素的识别分类。在ACE2005标准语料库上的实验结果表明,与现有模型相比,ALBERT-CRF模型在触发词识别和分类任务上的召回率和F值均有所提高。  相似文献   

3.
李劲  张华  辜希武 《计算机科学》2012,39(7):154-160
个人简历(Curriculum Vitae,Vita)通常包含了丰富的数据,如个人信息、教育背景以及工作经历等。从大量的个人简历中抽取出有用的信息并提供检索服务,可以提供更加全面和完整的个人资料。个人简历中包含的信息可以看成是按时间排序的事件序列。进一步地,可以从不同的个人简历所包含的事件中挖掘出事件之间的关联关系。提出了一个从个人简历中提取并检索事件的框架,它可以自动地从互联网上搜索并下载个人简历文档,并从中提取出感兴趣的事件保存在数据库里,以进一步查询和检索事件。所完成的工作包括:(1)提出了一个事件表示模型,用于描述事件的基本属性及检索事件;(2)基于条件随机场提出了一个概率模型,用于从个人简历中自动提取事件;(3)通过挖掘事件属性之间的共现性,提出了基于事件的检索方法。  相似文献   

4.
面向法律文本的实体关系联合抽取技术对于案情关键信息的智能提取至关重要,是智慧司法领域应用中的重要环节。目前的联合抽取方法虽然已经在特定罪名案件的数据集上取得了较好的效果,但是由于模型在训练时只关注了特定罪名类型文本数据的特点,使得模型的泛化能力有限,在应用到多罪名案件的情况下常常使得模型的效果下降。因此引入多任务学习的方法对多罪名情形下的实体关系联合抽取进行了研究,以涉毒类案件和盗窃类案件两大类罪名的文书数据为基础,构建了一个罪名分类任务作为联合抽取的辅助任务,通过基于特征筛选的动态加权多任务模型同时对两个任务进行学习,在单任务模型的基础上整体F1值提升了2.4个百分点,在涉毒类案件和盗窃类案件上的F1值分别提升了1.6和3.2个百分点。  相似文献   

5.
生物医学实体关系抽取是生物医学文本挖掘领域的一项重要任务,它可以自动从生物医学文本中挖掘实体间的相互关系。目前,生物医学实体关系抽取方法一般只针对某一特定任务(如药物关系,蛋白质交互关系抽取等)训练单任务模型进行抽取,忽略了多个任务之间的相关性。因此,该文使用基于神经网络的多任务学习方法对多个生物医学关系抽取任务间的关联性进行了探索。首先构建了全共享模型和私有共享模型,然后在此基础上提出了一种基于Attention机制的主辅多任务模型。在生物医学领域关系抽取的5个公开数据集上的实验结果表明,该文的多任务学习方法可以有效地在学习任务之间共享信息,使得任务间互相促进,获得了比单任务方法更好的关系抽取结果。  相似文献   

6.
基于概率模型的Web信息抽取   总被引:1,自引:0,他引:1  
针对Web网页的二维结构和内容的特点,提出一种树型结构分层条件随机场(TH-CRFs)来进行Web对象的抽取。首先,从网页结构和内容两个方面使用改进多特征向量空间模型来表示网页的特征;第二,引入布尔模型和多规则属性来更好地表示Web对象结构与语义的特征;第三,利用TH-CRFs来进行Web对象的信息提取,从而找出相关的招聘信息并优化模型训练的效率。通过实验并与现有的Web信息抽取模型对比,结果表明,基于TH-CRFs的Web信息抽取的准确率已有效改善,同时抽取的时间复杂度也得到降低。  相似文献   

7.
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系。针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法。该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系。第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界。实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85。3%。  相似文献   

8.
随着互联网的快速发展,网络信息的事件抽取已然成为研究热点。针对微博中的开放域事件抽取问题进行深入研究,实现一个事件抽取和分类系统。主要通过序列标记方法提取微博语句中的命名实体和事件短语表征相应事件,利用非监督分类方法对事件进行分类,将每个日期下各类别的事件根据重要性排序之后,以日历的形式展现出来。其中,运用条件随机场模型完成事件抽取中的序列标记任务,非监督分类方法选用了LDA主题模型。实验证明方法有效可行,命名实体识别和事件短语抽取均取得较高的准确率和召回率。  相似文献   

9.
事件抽取是项重要的信息抽取任务,旨在抽取文本中的事件信息。目前基于多任务学习的事件联合抽取方法大多基于硬参数共享,此类方法往往会导致跷跷板现象的出现,即一项任务的性能往往通过损害另一项任务的性能来提高。为了解决这一问题,提出了一种基于软参数共享的事件联合抽取方法,该方法明确地分离了共享参数和任务特定参数,并通过双层门控网络增强模型提取和筛选语义知识的能力,使模型能同时为两个任务学习到合适的特征表示,实现了更高效的信息共享和联合表示学习。在DuEE1.0公共数据集上进行了实验,使用准确率、召回率、F1值作为评价指标,并通过对比实验和消融实验验证了方法的有效性。对比基于硬参数共享的联合抽取模型事件识别任务F1值提高了2.0%,论元角色分类任务F1值提高了0.9%,有效地缓解了跷跷板现象的出现,验证了方法的有效性。  相似文献   

10.
文本信息抽取是处理海量文本数据的手段,事件信息抽取是其中最具挑战性的任务之一.提出了一种基于条件随机场的语义角色标注方法,该方法以浅层句法分析为基础,把短语或命名实体作为标注的基本单元,将条件随机场用于句子中谓词的语义角色标注.应用该方法对"职务变动"和"会见"两类事件的事件要素及其语义角色进行标注,在各自的测试集上分别获得了77.3%和74.2%的综合指标F值.  相似文献   

11.
事件检测任务的目标是从文本中自动获取结构化的事件信息。目前基于表示学习的神经事件检测方法能够有效利用潜在语义信息,但人工标注数据集的语义知识含量有限,制约了神经网络模型的认知广度。相对地,多任务表示学习框架,有助于模型同时学习不同任务场景中的语义知识,从而提升其认知广度。BERT预训练模型得益于大规模语言资源的充沛语义信息,具有高适应性(适应不同任务)的语义编码能力。因此,该文提出了一种基于BERT的多任务事件检测模型。该方法将BERT已经包含的语义知识作为基础,进一步提升多任务模型的表示、学习和语义感知能力。实验表明,该方法有效提高了事件检测的综合性能,其在ACE2005语料集上事件分类的F1值达到了76.7%。此外,该文在实验部分对多任务模型的训练过程进行了详解,从可解释性的层面分析了多任务架构对事件检测过程的影响。  相似文献   

12.
事件抽取是从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息, 并以结构化的形式表示出来. 事件抽取是自然语言处理与理解中的重要方向, 在政府公共事务管理、金融业务、生物医学等不同领域有着很高的应用价值. 根据对人工标注数据的依赖程度, 目前基于深度学习的事件抽取方法主要分为两类: 有监督和远程监督学习方法. 对当前深度学习中事件抽取技术进行了全面的综述. 围绕有监督中CNN、RNN、GAN、GCN与远程监督等方法, 系统地总结了近几年的研究情况, 并对不同的深度学习模型的性能进行了详细对比与分析. 最后, 对事件抽取面临的挑战进行了分析, 针对研究趋势进行了展望.  相似文献   

13.
基于语义的中文事件触发词抽取联合模型   总被引:1,自引:0,他引:1  
中文事件触发词抽取是一项具有挑战性的任务.针对中文事件触发词抽取中存在的事件论元语义信息难以获取以及部分贫信息事件实例难以抽取的问题,提出了基于语义的中文事件触发词抽取联合学习模型.首先,根据中文句子结构灵活和句法成分多省略的特点,提出了基于模式匹配的核心论元和辅助论元抽取方法,这两类论元可以较好地表示论元语义,进一步提高中文事件触发词抽取性能;其次,根据同一文档中关联事件实例间存在的高度一致性,构造了一个关联事件语义驱动的中文事件触发词识别和类型分配二维联合模型,用于抽取贫信息事件实例.在ACE 2005中文语料上的实验结果表明:与现有最好的中文事件抽取系统相比,所提出方法的性能得到了明显提升.  相似文献   

14.
事件抽取旨在从非结构化的文本中抽取出事件的信息,并以结构化的形式予以呈现。监督学习作为基础的事件抽取方法往往受制于训练语料规模小、类别分布不平衡和质量参差不齐的问题。同时,传统基于特征工程的事件抽取方法往往会产生错误传递的问题,且特征工程较为复杂。为此,该文提出了一种联合深度学习和主动学习的事件抽取方法。该方法将RNN模型对触发词分类的置信度融入在主动学习的查询函数中,以此在主动学习过程中提高语料标注效率,进而提高实验的最终性能。实验结果显示,这一联合学习方法能够辅助事件抽取性能的提升,但也显示,联合模式仍有较高的提升空间,有待进一步思考和探索。  相似文献   

15.
事件抽取是信息抽取领域中一项十分重要且具有挑战性的任务,在事理图谱构建、舆情监控、态势感知等方面起着举足轻重的作用。目前研究较多的是句子级事件抽取,而面对“论元分散”和“多事件”的挑战,基于深度学习的篇章级事件抽取陆续展开。总结了篇章级事件抽取的定义、主要任务和面临的挑战,分别从获取词语、句子和文档三种不同粒度的语义信息,捕获文档结构特征建模不同的图结构,融合语义信息和结构特征,以及将事件抽取转化为阅读理解、智能问答等其他任务解决方案等四个不同的维度,详细讨论了近年来篇章级事件抽取相关的模型和方法,在此基础上归纳了常用数据集,并对典型方法的抽取效果进行了评估和对比。展望了篇章级事件抽取的研究趋势。  相似文献   

16.
针对现有事件因果关系抽取方法关系边界识别能力弱和文本语义表征不足的问题,提出一种基于双层CNN-BiGRU-CRF深度学习模型的事件因果关系抽取方法。将因果关系抽取任务转换为两次序列标注任务分别由两层CNN-BiGRU-CRF模型完成,上层模型用于识别事件因果关系语义角色词,其标注结果作为特征输入下层模型划分因果关系边界。在每层模型中,采用突发事件样本数据对BERT模型进行微调,形成文本表示模型以获取语义特征向量矩阵,利用卷积神经网络和双向门控循环单元分别提取局部和全局深层特征,并将上述特征在每个时间序列步进行线性加权融合以增强语义表征能力,最终基于残差思想将高区分度特征输入CRF模型解码完成序列标注任务。在中文突发事件语料集上的实验结果表明,与BiLSTM-Att-规则特征、GAN-BiGRU-CRF等因果关系抽取方法相比,该方法的事件因果关系抽取效果更好,F值达到91.81%,能有效实现事件因果关系的准确抽取。  相似文献   

17.
实现古诗和对联的自动生成是极具挑战性的任务。该文提出了一种新颖的多任务学习模型用于古诗和对联的自动生成。模型采用编码-解码结构并融入注意力机制,编码部分由两个BiLSTM组成,一个BiLSTM用于关键词输入,另一个BiLSTM用于古诗和对联输入;解码部分由两个LSTM组成,一个LSTM用于古诗的解码输出,另一个LSTM用于对联的解码输出。在中国的传统文学中,古诗和对联具有很多的相似特征,多任务学习模型通过编码器参数共享,解码器参数不共享,让模型底层编码部分兼容古诗和对联特征,解码部分保留各自特征,增强模型泛化能力,表现效果大大优于单任务模型。同时,该文在模型中创新性地引入关键词信息,让生成的古诗及对联表达内容与用户意图一致。最后,该文采用自动评估和人工评估两种方式验证了方法的有效性。  相似文献   

18.
并行多任务分配是多agent系统中极具挑战性的课题, 主要面向资源分配、灾害应急管理等应用需求, 研究如何把一组待求解任务分配给相应的agent联盟去执行. 本文提出了一种基于自组织、自学习agent的分布式并行多任务分配算法, 该算法引入P学习设计了单agent寻找任务的学习模型, 并给出了agent之间通信和协商策略. 对比实验说明该算法不仅能快速寻找到每个任务的求解联盟, 而且能明确给出联盟中各agent成员的实际资源承担量, 从而可以为实际的控制和决策任务提供有价值的参考依据.  相似文献   

19.
针对糖尿病视网膜病变(DR)图像,提出了一种基于多任务学习的图像多分类分割方法.首先,通过Otsu阈值算法将大部分无病灶信息像素去除;其次,通过滑动窗口切割的方法将图像切分为若干小尺寸的图像,以解决医学图像分辨率过大以及病灶在图像中占比较小的问题;再次,将不存在病灶的子图剔除,以增大含病灶子图的比例;最后,利用UNet++多任务学习属性,并且用转置卷积代替传统上采样,进行多输出多病灶的图像分割.通过在国际公开的IDRID和DDR数据集上进行验证,在IDRi D上取得0.713 1的m AUPR,在DDR上取得0.569 1的m AUPR.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号