首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 81 毫秒
1.
语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。  相似文献   

2.
关系抽取作为信息抽取的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义,一直以来受到人们的关注。远程监督关系抽取技术通过外部知识库作为监督源,自动对语料库进行标注,能够大量节省人工标注成本,因而受到了研究者们的重视。该文针对远程监督关系抽取技术做了较为系统性的梳理,将已有方法分为基于概率图的、基于矩阵补全的和基于嵌入的三大类,并且对其当前面临的挑战进行了探讨,最后总结并展望了远程监督关系抽取技术未来的发展。  相似文献   

3.
远程监督关系抽取作为关系抽取中常用的方法之一,其目的是通过远程监督自动构建大量数据进行文本的关系抽取,因此该项技术对降低人工标注数据成本从而提取更多文本信息有重要研究意义.针对传统的手工特征方法难以解决关系抽取的复杂语义问题,提出了大量基于深度学习的关系抽取方法,极大地推动了远程监督关系抽取的发展.为了进一步了解利用深...  相似文献   

4.
在远程监督人物关系抽取算法中,训练集的构造是利用知识库对齐自由文本的方式完成的。这一过程会产生部分共现句无法表达当前实体对关系的情况。分析此问题产生的原因,结合词法、句法两个方面,提出一种利用句子模式聚类及模式评分对远程监督人物关系抽取过程训练集进行去噪的方法。该方法首先利用词向量生成特定关系描述候选词,其次针对关系描述候选词提取句子模式并进行模式聚类,最后对模式聚类结果进行评分。通过筛选评分较低模式对应句子去掉对关系描述能力不强甚至无法描述关系的句子,得到过滤后的训练集。实验证明,利用该方法对不同语料库进行远程监督原始训练集句子过滤能够在保证召回率的情况下取得3%~5%准确率提升。  相似文献   

5.
远程监督关系抽取旨在从无结构化的文本当中发现关系事实,它对许多下游任务有着非常重要的意义.虽然远程监督可以自动地生成大量带标签的训练样本,但是自动标注的过程不可避免地会遇到噪声数据的问题.当前的许多研究工作主要把关注点放在降噪的过程当中,尝试通过选择出正确的句子来生成更有效的包级别特征表示.但是在文本语料之外,还存在着大量与实体相关的外部知识没有被充分利用,而这些知识能够帮助模型更好地理解实体之间的关系.基于这一观察,提出了一种新颖的远程监督关系抽取方法,该方法通过利用外部知识图谱当中的结构化知识和文本语料中的语义知识,设计了一种实体知识感知的词嵌入表示方法,来丰富句子级别的特征表达能力.实验结果表明,在2个版本的大规模“纽约时报”基准数据集上,该方法都明显优于其他方法.此外,还通过对比实验进一步探索了2个版本的数据集所存在的差异,其中无实体交集的数据集能够更有效地反映模型性能.  相似文献   

6.
7.
关系抽取是信息抽取的主要任务之一,远程监督作为关系抽取中的一种有效的方法,已成功地应用于包含上千关系的大型语料库.然而,远程监督造成的错误标注会影响关系抽取的性能.为了缓解这一问题,现有的远程监督关系抽取方法选择每个实体对中一个最好的句子或通过注意力机制赋予每个句子不同的权重.但这些方法并不能完全解决错误标注的问题.本...  相似文献   

8.
针对基于机器学习的人物关系抽取需要人工选取特征的问题,提出一种基于卷积神经网络的中文人物关系抽取方法。采用搜狗实验室公开的中文全网新闻语料库来训练Word2vec模型,得到基于分布式表示的词向量表达,并完成了对百度百科数据集的词向量转化工作。设计一种基于经典CNN模型的中文人物关系抽取系统方案,用CNN模型自动提取特征并进行人物关系的分类,实现了5类常见人物关系的提取,准确率达到92.87%,平均召回率达到86.92%。实验结果表明,该方法无需人工构建复杂特征即可得到较好的人物关系抽取效果。  相似文献   

9.
远程监督可以为关系抽取任务自动构建数据集,缓解了人工构建数据集的压力和成本,为自动关系抽取的实现奠定基础,然而使用远程监督方法构建的数据集存在错误标注以及长尾问题,严重影响关系抽取性能.目前,远程监督关系抽取任务的主要研究方向为关系模型的降噪手段以及对长尾关系的处理方法.近年来,随着深度学习技术的发展,这两个领域的研究...  相似文献   

10.
《计算机科学与探索》2016,(9):1310-1319
实体关系抽取是指从无结构的自然语言文本中抽取实体之间的语义关系,并以结构化的形式表示出来。传统的实体关系抽取方法只注重一种特定类型的数据源,并需要标注大量的训练数据来训练抽取模型,人工成本高。因此提出了一种综合多种数据源,并结合规则推理引擎的实体关系抽取方法,准确地说就是综合结构化和非结构化两种数据源,在结构化数据提供少量种子的情况下用规则推理引擎推理出更多的实体关系。然后使用远程监督学习方法从无结构的文本中抽取实体关系,通过多次迭代获得最终的实体关系。实验结果证明了该方法的有效性。  相似文献   

11.
该文使用同义词词林语义资源库,以词林中编码信息为基础构建新的特征,使用条件随机场模型,研究了汉语框架语义角色的自动标注。该文在先前的基于词、词性、位置、目标词特征的基础上,在模型中加入不同的词林信息特征,以山西大学的汉语框架语义知识库为实验语料,研究了各词林信息特征分别对语义角色边界识别与分类的影响。实验结果表明,词林信息特征可以显著提高语义角色标注的性能,并且主要作用在语义角色分类上。  相似文献   

12.
知网与同义词词林的信息融合研究   总被引:6,自引:0,他引:6  
本文主要探讨了将知网(HowNet) 和同义词词林进行信息融合的方法。我们针对知网对词的概念描述和同义词词林对词的语义分类的特点,提出了一种词典信息融合的方法:首先为词林的每个词集确定一个与知网中DEF 类似的概念描述,在此基础上对两部词典中同时收录且均只有一个义项的词语进行双向意义联结,最后根据分类算法对两部词典中同时收录非单一义项的词语进行双向意义联结。实验表明,本文提出的处理策略达到了93 %的信息融合正确率,融合后形成的新词典兼有词林的分类学信息和知网的概念描述信息。  相似文献   

13.
于东  刘春花  田悦 《计算机应用》2016,36(2):455-459
针对从非结构化文本中抽取指定人物职衔履历属性问题,提出一种基于远距离监督和模式匹配的属性抽取方法。该方法从字符串模式和依存模式两个层面描述人物职衔履历特征,将问题分为两阶段。首先利用远距离监督知识和人工标注知识,挖掘具有高覆盖度的模式库,用于发现职衔履历属性和抽取候选集;其次利用职衔机构等属性间的文字接续关系,以及特定人物与候选属性的依存关系,设计候选集的过滤规则对候选项进行筛选,实现高准确度的属性抽取。实验结果显示,所提方法在CLP2014-PAE测试集上的F值达到55.37%,显著高于评测最好成绩(F值34.38%)和基于条件随机场(CRF)的有监督序列标注方法(F值43.79%),表明该方法能高覆盖度挖掘并抽取非结构化文档中的职衔履历属性。  相似文献   

14.
词汇语义信息对中文实体关系抽取影响的比较   总被引:1,自引:0,他引:1  
提出一种将《同义词词林》和《知网》的语义信息融合到基于树核函数的中文关系抽取方法,并比较和分析了两种语义信息对中文实体关系抽取的影响,同时探讨了这两种语义信息与实体类型信息之间的相互关系。实验结果表明,该方法能在一定程度上提高中文关系抽取的性能;同时,《同义词词林》能补充实体类型信息的不足,因而无论是否加入实体类型信息,其语义信息都能大幅度地提高大部分关系类型的抽取性能;而《知网》则和实体类型信息存在冲突,因此在已知实体类型信息的前提下,仅能提高个别关系类型的抽取性能。  相似文献   

15.
薛露  宋威 《计算机应用》2020,40(6):1601-1606
针对远程监督数据集的关系抽取研究方法存在着大量标签噪声的问题,提出了一种作用于分层注意力机制关系抽取模型的动态标签方法。首先,提出了一种根据关系类别相似性生成动态标签的概念。由于相同的关系标签包含相似的特征信息,计算特征信息的关系类别相似性有助于生成与特征信息相对应的动态标签。其次,利用动态标签方法的评分函数来评价远程监督标签是否为噪声,以决定是否需要生成新的标签代替远程监督标签,通过调整远程监督标签来抑制标签噪声对模型的影响。最后,根据动态标签来更新分层注意力机制以关注有效实例,重新学习每个有效实例的重要性,进一步抽取关键的关系特征信息。实验结果表明,相较于原始的分层注意力机制关系抽取模型,所提方法在Micro和Macro分数上分别有1.3个百分点和1.9个百分点的提升,实现了噪声标签的动态纠正,提升了模型的关系抽取能力。  相似文献   

16.
从定量数据到定性概念的转换必然涉及到样本数据的划分问题,当样本数据维数较高时,对其合理划分是从中提取定性规则的难点问题。针对此问题,改进了尺度云变换算法,提出二维尺度云变换算法,使之可以处理二维数据。还给出了二维T-S型云控制器的设计,并结合一组实例数据,验证了算法的有效性。仿真结果表明,该算法可以较好地实现对原始数据空间的划分,提取的定性规则数量少,易于理解;由该方法提取的规则构建的T-S型云控制器能较好地复现原始数据分布,误差较小。  相似文献   

17.
.基于规则提取量的Web日志关联规则挖掘方法*   总被引:2,自引:0,他引:2  
引入规则提取量的度量标准,提出一种基于免疫多克隆遗传策略的Web日志关联规则挖掘方法。该算法在遗传算法的基础上引入免疫多克隆算子,有效地克服了遗传算法容易陷入局部最优的缺点,具有更强的全局与局部搜索能力。实验结果表明,该算法能高效地解决Web日志关联规则挖掘问题。  相似文献   

18.
随着深度学习的发展,越来越多的深度学习模型被运用到了关系提取的任务中,但是传统的深度学习模型无法解决长距离依赖问题;同时,远程监督将会不可避免地产生错误标签。针对以上两个问题,提出一种基于GRU(gated recurrent unit)和注意力机制的远程监督关系抽取方法,首先通过使用GRU神经网络来提取文本特征,解决长距离依赖问题;接着在实体对上构建句子级的注意力机制,减小噪声句子的权重;最后在真实的数据集上,通过计算准确率、召回率并绘出PR曲线证明该方法与现有的一些方法相比,取得了比较显著的进步。  相似文献   

19.
针对传统地理信息系统(GIS)结构化或半结构化属性查询方法对查询语句输入的精度及查询范围的限制,提出了以哈尔滨工业大学《同义词词林》扩展版文本相关度计算为核心的非结构化文本数据GIS描述性查询方法。基本过程是根据描述性查询语句计算其与地理要素所关联的文本的相关度,进而以相关度值得出概括性查询结果。对比实验结果表明,描述性查询方法不但支持查询语句输入的多样化,而且能够有效地得出与输入的描述性查询相关联的地理要素。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号