首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
现有实体关系联合抽取方法未充分考虑中文句子中实体关系的复杂结构特征,为此,提出一种基于图卷积神经网络(GCN)的中文实体关系联合抽取方法。在双向长短时记忆网络抽取序列特征的基础上,利用GCN编码依存分析结果中的语法结构信息,借鉴改进的实体标注策略构建端到端的中文实体关系联合抽取模型。实验结果表明,该方法的F值可达61.4%,相比LSTM-LSTM模型提高了4.1%,GCN能有效编码文本的先验词间关系并提升实体关系抽取性能。  相似文献   

2.
基于核函数中文关系自动抽取系统的实现   总被引:14,自引:0,他引:14  
实体关系抽取是信息抽取的重要组成部分.基于核函数的中文实体关系自动抽取系统应用改进的语义序列核函数,结合KNN机器学习算法构造分类器来分类并标注关系的类型.通过对ACE评测定义的三大类6子类实体关系的抽取,关系抽取的平均精度可以达到88%,明显高于基于特征向量和传统的序列核函数方法,该方法适合小训练集,易于学习新的实体关系.系统由8个独立的模块构成,便于维护和升级.系统既可以独立运行,也可以嵌入在开放的文本处理平台GATE环境.为了更好地利用关系抽取的结果,系统扩展传统的二元关系,抽取关系的同时,抽取该关系的描述,形成完整的中文实体关系抽取系统.  相似文献   

3.
关系抽取任务是要在实体识别的基础上确定无结构文本中实体对间的关系类别,即判断实体间的关系.针对目前中文关系抽取精度不足以及静态词向量无法很好地解读文本的问题,本文提出一种融合ERNIE预训练模型和注意力机制的TEXTCNN中文关系抽取模型.ERNIE词向量针对中文的特点以词组为单位做掩盖进行模型训练,实现了对中文文本更好的语义表达,再通过TEXTCNN模型对输入数据进行特征提取,融合注意力机制聚焦于影响最终结果的关键特征,从而实现特征优化提取.本文在百度发布的SKE数据集上进行实验,重点探索ERNIE模型结合注意力机制对中文文本的特征表达效果,结果表明本文模型可以更好地学习中文文本中的特征并用于关系抽取,有效提高关系抽取任务的准确率.  相似文献   

4.
实体关系抽取解决了原始文本中目标实体之间的关系分类问题,同时也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。由于中文句式和语法结构复杂,并且汉语有更多歧义,会影响中文实体关系分类的效果。该文提出了基于多特征自注意力的实体关系抽取方法,充分考虑词汇、句法、语义和位置特征,使用基于自注意力的双向长短期记忆网络来进行关系预测。在中文COAE 2016 Task 3和英文SemEval 2010 Task 8 数据集上的实验表明该方法表现出了较好的性能。  相似文献   

5.
电子病历是诊疗过程中记录患者健康状况的档案, 文本中分布着大量的医学实体, 其中蕴含着丰富的医学信息. 目前医学领域的关系抽取模型主要是通过关系分类的方法识别两个给定医学实体之间的语义关系. 中文电子病历具有实体高密度分布的特点. 针对这个问题, 本文提出了一种基于条件提示与序列标注的关系三元组识别方法, 将关系三元组识别任务转换为序列标注任务. 关系三元组中的头实体和关系类型作为条件提示信息, 通过序列标注方法识别电子病历文本中与条件提示信息有关联的尾实体. 在中文电子病历数据集上的实验证明本文方法能有效识别中文电子病历中的关系三元组.  相似文献   

6.
在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。 该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。  相似文献   

7.
针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络(bidirectional long short term memory)与CRF(conditional random field)结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。  相似文献   

8.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.  相似文献   

9.
针对在采用支持核函数的机器学习算法进行基于特征的中文领域实体关系抽取中,不同核函数对不同中文领域关系抽取在效果上存在差异性的问题,该文提出一种基于凸组合核函数的中文领域实体关系抽取方法。首先,选取实体上下文的词、词性等信息,短语句法树信息及依存信息作为特征,然后通过以径向基核函数,Sigmoid核函数及多项式核函数组成的不同组合比例的凸组合核函数将特征矩阵映射成为不同的高维矩阵,利用支持向量机训练这些高维矩阵构建不同分类模型后测试抽取性能,以确定最优组合比例的凸组合核函数。在收集600篇旅游领域语料上进行关系抽取,实验结果表明最优凸组合核函数能增加实体关系抽取效果, F值达到62.9。  相似文献   

10.
开放关系抽取从海量数据中获取知识,是自然语言处理的一个关键技术。开放关系抽取可以实现多种关系的抽取,由于中文领域可供训练的标注数据较少且语义句式较为复杂,面向中文的开放关系抽取存在较多困难。现有的中文开放关系抽取方法存在实体识别覆盖率较低且抽取关系种类单一的问题,无法满足知识图谱扩展等应用需求。该文提出了多策略的开放关系抽取方法,该方法综合利用知识图谱提高了实体识别的覆盖度,依靠实体上下文信息实现了实体对关系的抽取,根据依存句法分析抽取得到全要素三元组,并实现了从文本中抽取实体属性的方法。实验证明,该文的抽取方法准确率高,抽取关系种类多样,可以服务于知识图谱扩展等任务。  相似文献   

11.
基于合一句法和实体语义树的中文语义关系抽取   总被引:1,自引:0,他引:1  
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。  相似文献   

12.
基于 Deep Belief Nets 的中文名实体关系抽取   总被引:6,自引:0,他引:6  
陈宇  郑德权  赵铁军 《软件学报》2012,23(10):2572-2585
关系抽取是信息抽取的一项子任务,用以识别文本中实体之间的语义关系.提出一种利用DBN(deepbelief nets)模型进行基于特征的实体关系抽取方法,该模型是由多层无监督的RBM(restricted Boltzmann machine)网络和一层有监督的BP(back-propagation)网络组成的神经网络分类器.RBM网络以确保特征向量映射达到最优,最后一层BP网络分类RBM网络的输出特征向量,从而训练实体关系分类器.在ACE04语料上进行的相关测试,一方面证明了字特征比词特征更适用于中文关系抽取任务;另一方面设计了3组不同的实验,分别使用正确的实体类别信息、通过实体类型分类器得到实体类型信息和不使用实体类型信息,用以比较实体类型信息对关系抽取效果的影响.实验结果表明,DBN非常适用于基于高维空间特征的信息抽取任务,获得的效果比SVM和反向传播网络更好.  相似文献   

13.
命名实体关系抽取算法的改进   总被引:1,自引:1,他引:0       下载免费PDF全文
李妩可  郭赛球  尹艳 《计算机工程》2010,36(24):289-290,F0003
现有命名实体关系抽取算法没有考虑关系特征序列的模式差异。针对该不足,提出一种改进的命名实体关系抽取算法。在语料库中识别出所有命名实体,利用最短依存路径以及与实体本身关系密切的词对实体关系特征进行提取,基于核函数计算关系特征序列的相似度,输出候选命名实体关系对及其关系。实验结果表明,改进算法具有较好的查全率与查准率,其调和平均值可达78%。  相似文献   

14.
实体关系自动抽取   总被引:36,自引:7,他引:36  
实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法,Winnow 和支持向量机(SVM) ,在2004 年ACE(Automatic Content Extraction) 评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow和SVM算法的加权平均F-Score 分别为73108 %和73127 %。可见在使用相同的特征集,不同的学习算法进行实体关系的识别时,最终性能差别不大。因此使用自动的方法进行实体关系抽取时,应当集中精力寻找好的特征。  相似文献   

15.
依据实体造型的特点,从模型空间的特征层入手,搜寻模型空间中的简单形状特征,并根据造型特点获取单个特征在零件模型上的几何拓扑关系,从而实现形状特征的自动识别.通过分析特征实体造型,提出一种基于实体模型的产品形状特征识别方法,并结合微波器件产品开发特征参数提取模块,实现复杂零件模型形状特征的自动识别与提取.该方法为快速建立企业零件库提供途径,也为网络环境下的协同设计和数据共享奠定基础.  相似文献   

16.
周晶 《计算机工程》2010,36(24):192-194
针对信息抽取领域中存在的抽取结果难以满足需要的问题,给出基于条件随机域模型的方法,以解决组块标注和实体关系抽取问题。通过定义中文组块和实体关系的标注方式,选择比较通用的《人民日报》语料,训练出效率较高的二阶模板来抽取文本中的实体关系。实验结果表明,该方法可以获得更好的抽取效果。  相似文献   

17.
姚博文  曾碧卿  蔡剑  丁美荣 《计算机应用》2021,41(12):3637-3644
关系抽取任务旨在从文本中抽取实体对之间的关系,是当前自然语言处理(NLP)领域的热门方向之一。针对中文人物关系抽取语料中语法结构复杂,无法有效学习文本语义特征的问题,提出一个基于预训练和多层次信息的中文人物关系抽取模型(CCREPMI)。该模型首先利用预训练模型较强的语义表征能力生成词向量,并将原始句子分成句子层次、实体层次和实体邻近层次分别进行特征提取,最终融合句子结构特征、实体含义以及实体与邻近词的依赖关系等信息进行关系分类预测。在中文人物关系数据集上的实验结果表明,该模型的精度达到81.5%,召回率达到82.3%,F1值达到81.9%,相比BERT和BERT-LSTM等基线模型有所提升。此外,该模型在SemEval2010-task8英文数据集上的F1值也达到了81.2%,表明它对英文语料具有一定的泛化能力。  相似文献   

18.
命名实体识别和关系抽取是自然语言处理和知识图谱构建中两个十分重要的子任务。针对关系抽取过程中容易出现的错误传递和实体共享的缺陷,提出了一种融合自注意力机制的实体关系抽取级联标记框架Att-CasRel,不仅解决了级联错误,还能够解决同一个句子中多个关系三元组共享相同实体的问题。在Bert模型的基础上,使用CMeIE数据集的文本进行再训练得到适用于中文医疗领域的CB-Bert,并在尾实体识别阶段融入自注意力机制来增强头实体编码向量的特征表达,提高了模型的特征提取能力。在CMeIE数据集上的实验结果表明,该标记框架相较于独立抽取的模型以及其他联合抽取模型取得了更好的效果。  相似文献   

19.
实体关系抽取是信息抽取领域的重要研究内容,对知识库的自动构建起着至关重要的作用。针对非结构化文本实体关系抽取存在上下文环境信息难以准确表征,致使现有抽取模型准确率不能满足实际应用需求的问题,该文提出了一种新型的实体关系抽取模型BiGRU-Att-PCNN。该模型是基于混合神经网络,首先,构建双向门控循环单元(BiGRU)以更好地获取文本序列中的上下文语序的相关信息;然后,采用注意力(Attention)机制来达到自动关注对关系影响力高的序列特征的目的;最后,通过采用分段卷积神经网络(PCNN),从调整后的序列中较好地学习到了相关的环境特征信息来进行关系抽取。该模型在公开的英文数据集SemEval 2010 Task 8上取得了86.71%的F1值,实验表明,该方法表现出了较好的性能,为信息抽取领域实体关系的自动获取提供了新的方法支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号