首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对文档级关系抽取中文本处理复杂性过高,难以提取高效实体关系的问题,提出了一种基于路径标签的文档级关系抽取方法,抽取选择关键的证据句子。首先,引入路径(Path)标签代替实体句子作为处理过的文本数据集进行数据预处理;同时,结合语义分割的U-Net模型,利用输入端的编码模块捕获文档实体的上下文信息,并通过图像风格的U-Net语义分割模块捕获实体三元组之间的全局依赖性;最后,引入Softmax函数减少文本抽取时的噪声。理论分析和仿真结果表明,与基于图神经网络的RoBERTa(RoBERTa-ATLOP)关系抽取算法相比,Path+U-Net在基于文档级别的实体关系抽取数据集(DocRED)上的开发和测试的F1值分别提高了1.31、0.54个百分点,在化学疾病反应(CDR)数据集上的开发和测试的F1值分别提高了1.32、1.19个百分点;并且Path+U-Net在保证实体间的相关性与原始数据集的相关性一致的同时,对数据集的抽取成本更低、对文本的抽取精度更高。实验结果表明,所提出的基于路径标签的抽取方法能够有效提高长文本抽取效率。  相似文献   

2.
针对目前文档级别关系抽取主要关注实体间的逻辑推理,未充分利用实体间的层次语义信息问题,提出一种基于实体层次结构的文档级别关系抽取模型。考虑多句文本中实体间的交互,将实体构建为文档图并使用图卷积神经进行信息传播;通过实体间的上下位关联构建实体层次树,使用注意力机制将层次语义信息融入实体;为降低模型对实体表面信息的关注,使用实体类型对实体词进行替换。实验结果表明,在大规模文档级别关系抽取数据集上实体语义信息增强的方案能够有效提高文档级别关系抽取的效果。  相似文献   

3.
从生物医学文献中提取化学物质诱导疾病关系对疾病治疗和药物开发具有重要意义,然而现有化学物质诱导疾病关系抽取方法忽略了整篇文档里不同句子的实体语义信息,因此不足以捕获完整的文档级语义信息,导致抽取效果不佳。该文揭示一种结合标题、摘要和最短依赖路径的交互自注意力机制,提出基于语义信息交互学习的化学物质诱导疾病关系抽取方法。该方法可增强文档的语义表示,并通过语义信息交互获取文档的完整语义。在CDR语料上的实验结果表明,采用交互自注意力学到的交互语义信息对于抽取文档级化学物质诱导疾病关系具有较好的促进作用。  相似文献   

4.
文档的内部语义依赖和逻辑结构远远比句子的复杂,传统的实体关系抽取模型未能充分考虑文档中的多个不连续句子间差异化的关系,导致文档级实体关系抽取任务中模型抽取的关系特征不精确.为此,提出融合双向简单循环网络与胶囊网络的文档级实体关系抽取模型.双向简单循环网络实现多个句子间关系融合表示,同时优化对时间步的依赖,提高并行化效率...  相似文献   

5.
陈肖宇  王伟 《计算机应用》2022,42(8):2386-2393
针对科技领域文档语义信息获取不充分的问题,提出一套基于规则的数学领域相关文本的语义抽取方法。首先从文本中提取领域概念并实现数学实体与领域概念之间的语义映射;然后对数学符号的上下文进行分析,获取数学符号的实体指代或文字描述,进而抽取其语义;最后基于已抽取的数学符号语义实现表达式的语义分析。以线性代数文本为研究实例,构建了一个语义标注数据集并进行实验,实验结果表明所提方法对标识符、线性代数实体以及表达式的语义抽取具有93%以上的精确率和91%以上的召回率。  相似文献   

6.
季元叶 《福建电脑》2010,26(6):78-79
实体间语义关系抽取是信息抽取中的重要环节,其目的是从文本中找出实体对之间的语义关系并对它们进行分类。本文主要通过发掘有效的词汇特征、实体特征、基本短语块特征等基本语言学特征,采用基于支持向量机的学习方法,来提高中文实体间语义关系抽取的性能,使得关系抽取的准确率和召回率得到提高,最终提高关系探测、大类抽取和子类抽取的F值。  相似文献   

7.
地理信息与数据是客观知识世界的重要组成部分。研究如何从大量非结构化的信息中自动抽取地理实体位置关系具有重要意义。提出一种基于语义文法的地理实体位置关系获取方法,该方法可准确地从网页文本中获取多个地理实体之间的复合位置关系。首先,设计一种反映地理实体位置关系的语义文法GeoRSG。GeoRSG反映了地理实体位置关系的层次分类关系,并采用基于规则的方式刻画地理实体位置关系在文本中的语言表达方式。然后,实现地理实体位置关系解析器GeoRSG Parser。该解析器利用GeoRSG对文本进行解析,获得谓词表达形式的位置关系知识。实验结果显示,该方法从1000条语句中获取了81条三元和816条二元地理实体位置关系,并且取得了88.85%的正确率。  相似文献   

8.
杨肖  肖蓉 《中文信息学报》2024,(2):109-120+131
传统的文档级关系抽取方法在特征表示的有效性和噪声消除方面存在局限,不能准确地找出证据句子和实体对的关系。为了进一步提升文档级关系抽取和证据句子抽取的准确性,该文提出了一种使用小波变换对预训练语言模型生成的文本向量进行特征提取、清洗和去噪处理的方法。首先利用预训练语言模型对文档进行编码,将得到的初始文本向量应用小波变换出更精确的特征,其次引入多头注意力机制对小波变换的数据进行加权处理,以凸显与实体对关系相关的重要特征。为了充分利用原始数据和清洗后的数据,采用残差连接的方式将它们进行融合。在DocRED数据集上对模型进行了实验,结果表明,该文所提模型能够更好地抽取实体对的关系。  相似文献   

9.
王勇超 《计算机应用研究》2021,38(4):1004-1007,1021
针对现有实体和关系联合抽取方法中存在的实体与关系依赖建模不足、实体发生重叠难以抽取其所涉及的多个关系的问题,设计了基于深度学习的联合抽取框架。首先针对依赖建模不足问题,从预训练语料中提取实体共现特征,建模了实体间的潜在语义关系和实体与关系之间的依赖关系。其次提出了新颖的指针标注方法,该标注方法可以通过指针表示关系类别,由于任一实体可以被多个指针指向,所以可以在一段文本中标注重叠的实体并抽取多个实体—关系三元组结果。最后,为了有效利用单词的丰富语义和指针之间依赖的信息,设计了一个标签感知注意力机制,融合了包括来自编码层的字词信息、相关的共现语义信息。与研究中前沿的联合提取方法相比,该方法在百度DuIE测试集上实现了F1值的增加。通过实验结果表明指针标注方法在一定程度上可以解决实体重叠问题。  相似文献   

10.
事件抽取旨在从非结构化的文本中抽取出人们感兴趣的事件信息并对其进行结构化表示。事件抽取具有广泛的应用,包括自动问答、机器翻译、推荐系统、信息检索、知识图谱构建等。现有的事件抽取研究综述,主要围绕句子级的事件抽取任务和实现方法展开。但事件的描述、事件元素和元素角色通常分布在整篇文档的多个句子中,更完整的事件抽取应从文档层面进行,即进行文档级事件抽取。近年来,随着深度学习技术的发展和多个文档级事件抽取数据集的公开发布,使文档级事件抽取受到了广泛的关注。该文对文档级事件抽取的相关研究进行了全面的综述:首先介绍了文档级事件抽取任务的定义和常用数据集,然后对典型方法进行了梳理和分析,最后对未来的研究方向进行了展望。  相似文献   

11.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

12.
深度学习实体关系抽取研究综述   总被引:3,自引:0,他引:3  
实体关系抽取作为信息抽取、自然语言理解、信息检索等领域的核心任务和重要环节,能够从文本中抽取实体对间的语义关系.近年来,深度学习在联合学习、远程监督等方面上的应用,使关系抽取任务取得了较为丰富的研究成果.目前,基于深度学习的实体关系抽取技术,在特征提取的深度和模型的精确度上已经逐渐超过了传统基于特征和核函数的方法.围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系抽取研究进展,并对未来可能的研究方向进行了探讨和展望.  相似文献   

13.
通过自动摘要技术对生物医学概念进行摘要抽取,能够提高研究人员查阅和分析相关资料的效率.利用生物医学语义关系抽取多文档摘要,旨在从语义层面比较全面地覆盖查询概念的多方面内容,帮助研究人员快速掌握查询概念的主要信息.从生物医学文本中挖掘出了概念的重要语义关系,并利用语义关系作为衡量句子重要性的特征,生成查询概念的摘要.分析...  相似文献   

14.
随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。  相似文献   

15.
实体关系抽取作为信息抽取领域内的重要研究方向,其目的是把无结构或半结构的自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。人物关系抽取是实体关系抽取的细粒度分支,以往的实体关系抽取研究多针对来自新闻或百科的英文短句语料,对于中文文学作品的人物关系抽取的研究刚刚起步。该文针对中长篇中文文学作品的特点,首先引入对抗性学习框架来训练句子级的噪声分类器以降低数据集中人物关系数据噪声,并在此基础上构建了人物关系的分类模型MF-CRC。分类模型首先基于预训练模型BERT抽取文本内容的基本语义特征,并采用BiLSTM模型进行深层语义特征的获取,然后根据中文用语习惯抽取了中文人物姓氏、性别与关系指示特征并进行嵌入表示,最后基于多维特征融合完成了人物关系分类模型的训练。该文选用名著《平凡的世界》《人生》和《白鹿原》为研究对象,首次构建了三个通用的面向中文文学作品的人物关系标签数据集,并在这些数据集上进行对比实验及消融实验。结果表明,该文MF-CFC模型效果高于其他对比模型,分别在Micro-F1和Macro-F1指标上比SOTA模型高出1.92...  相似文献   

16.
陆亮  孔芳 《计算机科学》2022,(5):200-205
实体关系抽取旨在从文本中抽取出实体之间的语义关系.该任务在新闻报道、维基百科等规范文本上的研究相对丰富,并取得了一定的成果,但面向对话文本的相关研究还处于起始阶段.目前用于实体关系抽取的对话语料规模较小且信息密度低,有效特征难以捕获;深度学习模型无法像人一样进行知识联想,单纯依靠加大标注数据量和增强计算力难以精细深度地...  相似文献   

17.
关系抽取是信息抽取研究的重要方向,已逐步从句子级扩展到了文档级。与句子相比,文档通常蕴含更多的关系事实,可为知识库构建、信息检索和语义分析等提供更多的信息支持。然而,文档级关系抽取复杂度更高,难度更大,目前缺乏较为系统全面的梳理和总结。为更好地促进文档级关系抽取的深入研究与发展,文中对已有技术和方法进行了综合深入分析,从数据预处理方式和核心算法角度,将已有文档级关系抽取研究大致分为基于树、基于序列和基于图3种类别;在此基础上,分析描述了各类研究中的部分典型方法、最新进展以及存在的不足;同时,介绍了现有研究中部分常用数据集和性能评价指标,并列出了已有部分典型方法的具体性能;最后,对现有文档级关系抽取研究存在的问题进行了分析和总结,指出了未来可能的发展趋势及可进一步深入关注的研究方向。  相似文献   

18.
黄晨 《福建电脑》2009,25(6):45-46
命名实体语义关系抽取是信息抽取中的主要任务之一,本文对现有的语义关系抽取系统构建方法进行了分类和介绍,并对这些方法进行了讨论和比较,回顾语义关系抽取研究的历史,总结语义关系抽取技术的现状,将有助语义关系抽取技术研究工作的向前发展。  相似文献   

19.
传统的实体关系抽取方法主要针对语义信息较为完整的文本,基于抽取模式抽取文本中的实体关系,并采用启发式算法或者概率模型来选择抽取出的候选关系.而对于半结构化的页面,由于没有成句的实体信息展示,导致这些方法不能很好适用.论文提出的实体关系抽取系统能较好地处理半结构化的页面.该系统主要包括数据抽取规则学习、数据抽取、实体间关系计算等核心功能模块,并为用户提供了关系库查询接口.用户输入关键词和选定匹配类型,系统将根据关键词及匹配类型查询实体信息库,然后用满足条件的实体再去查询实体关系库,将包含这些实体的关系返回给用户.  相似文献   

20.
当前广为研究的在单个句子范围内的事件抽取方法,难以扩展到从分布在一篇文章里的多个句子中抽取同一事件的完整论元.对此,提出了一种基于深度学习的文档级事件抽取联合模型.首先,利用基于多头自注意力机制的实体识别模块逐句识别文档中的实体并输出其类型.然后,通过定义不同论元角色对事件类型的重要度训练事件类型检测模块,实现在无触发词条件下定位事件表述中心句并判断事件类型.最后,事件论元抽取模块通过在实体语义向量中嵌入实体的类型信息和实体到事件中心句的距离信息,并输入Transformer网络与上下文交换信息,实现在文档范围内抽取全部事件论元.通过对上述三个子模块进行联合训练,进一步实现了端到端的事件抽取,避免了管道式方法的误差传递.在公开数据集上的实验结果表明:在单事件条件下,该模型取得了86.3%的F1值,优于当前最佳的文档级事件抽取方法,并且具有优秀的模型训练速度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号