首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 943 毫秒
1.
实体消歧作为自然语言处理的关键问题,旨在将文本中出现的歧义实体指称映射到知识库中的目标实体。针对现有方法存在仅实现单实体指称消歧、忽略了实体影响力及候选实体间相似度对消歧结果的影响以及冗余图节点增加图计算复杂性等问题,提出了一种融合多特征图及实体影响力的领域实体消歧方法,以金融领域为例,提取CN-Dbpedia中金融类别相关关键词三元组,构建金融领域知识库;针对金融活动类文本,提取待消歧实体指称,融合字符串及语义的相似特征,筛选出候选实体,利用知识库三元组信息获取候选实体间2-hop内的关系,同时计算候选实体间相似度作为边权值,进而将多特征信息充分融合到图模型当中,完成多特征图构建;采用动态决策策略,利用PageRank算法,并结合实体影响力计算多特征图中候选实体的综合评分,进而获得可信度较高的消歧结果。实验结果验证了提出方法在特定领域实体消歧的精确度及效率。  相似文献   

2.
该文针对中文实体消歧中的特征项部分匹配和协同消歧问题,提出基于特征加权重叠度的中文实体协同消歧方法。该方法利用实体指称上下文中多种特征的加权重叠度计算实体指称相似度,针对实体链接与消歧聚类约束,分类定义实体指称相似度计算方法,构建待消歧实体相似度矩阵,采用近邻传播聚类算法实现中文实体协同链接与消歧。基于CLP-2012评测数据的实验表明,提出的方法取得了较好的消歧效果,准确率、召回率和F值分别达到了84.01%、87.75%和85.65%。  相似文献   

3.
在语义标注过程中,为了消除文本中给定的命名实体与知识库中实体映射过程中出现的歧义问题,提出了一种基于上下文信息相似度值排序的命名实体消歧方法。消岐方法包括实体表示预处理、候选实体列表构建和相似度值排序算法三部分。针对命名实体指称多样性问题,使用实体表示预处理方法抽取标准实体。然后利用中文在线百科构建语义知识库,得到标准实体的语义列表。同时提出利用相似度值排序方法解决标准实体与语义列表映射的指称歧义性问题,对于在知识库中未找到语义的实体采用HAC聚类算法进行消岐处理。实验结果表明,本文提出的方法能够有效的把中文网页真实数据集中文本的实体映射到知识库中对应无歧义的实体上。  相似文献   

4.
实体链接技术是将文本中的实体指称项正确链接到知识库中实体对象的过程,对知识库扩容起着关键作用。针对传统的实体链接方法主要利用上下文相似度等表层特征,而且忽略共现实体间的语义相关性,提出一种融合多特征的集成实体链接方法。首先结合同义词表、同名词表产生候选实体集,然后从多角度抽取语义特征,并将语义特征融合到构建的实体相关图中,最后对候选实体排序,选取top1实体作为链接目标。在NLP&CC2013中文微博实体链接评测数据集上进行实验,获得90.97%的准确率,与NLP&CC2013中文微博实体链接评测的最优系统相比,本文系统具有一定的优势。  相似文献   

5.
实体链接是指将文本中具有歧义的实体指称项链接到知识库中相应实体的过程。该文首先对实体链接系统进行了分析,指出实体链接系统中的核心问题—实体指称项文本与候选实体之间的语义相似度计算。接着提出了一种基于图模型的维基概念相似度计算方法,并将该相似度计算方法应用在实体指称项文本与候选实体语义相似度的计算中。在此基础上,设计了一个基于排序学习算法框架的实体链接系统。实验结果表明,相比于传统的计算方法,新的相似度计算方法可以更加有效地捕捉实体指称项文本与候选实体间的语义相似度。同时,融入了多种特征的实体链接系统在性能上获得了达到state-of-art的水平。  相似文献   

6.
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优.  相似文献   

7.
实体链接是指给定实体指称项和它所在的文本,将其链接到给定知识库中的目标实体上。由于微博内容存在特征稀疏、用语不规范的特点,使用传统的方法效果较差,为了准确地对微博中给定的实体进行链接,提出一种基于词向量的中文微博实体链接方法。首先,对知识库进行扩展,并从中文维基百科抽取同义词构建同义词表;然后,利用词向量解决错别字和外来人名音译的问题;最后,通过词向量计算实体指称项和候选实体的语义相似度来进行实体链接。实验结果表明,该方法在NLP&CC2013评测数据上的微平均准确率达到了91.4%。  相似文献   

8.
实体链接是指对于文本中提到的实体指称,在知识图谱中找到它所对应的真实实体的过程.利用实体链接技术可以把网络数据和知识库链接起来,在对数据进行处理时就能运用知识库中的结构化信息,很大地促进了自然语言处理领域的发展.论文提出一种将局部消歧和全局消歧相结合的实体消歧方法.在局部消歧方面,利用BiLSTM+Attention模型捕获文本中实体指称的上下文信息,与知识库中的实体信息进行相似性计算得到候选实体的局部消歧得分.在全局消歧方面,构造候选实体之间的关联图,将实体的局部消歧得分作为每个实体节点的初始得分,利用PageRank算法逐步完成整个文档中所有指称项的消歧过程.实验结果表明论文的方法拥有较好的消歧效果.  相似文献   

9.
命名实体消歧是将自然语言文本中具有歧义的实体指称正确地映射到知识库中相应实体上的过程。现有命名实体消歧技术大多采用集体消歧,以利用更多的语义信息达到更高的精度,但存在效率偏低的问题。为此,提出一种基于领域的命名实体消歧方法,通过引入领域的概念来丰富特征集合,并利用特征集构建实体指称-候选实体的依赖图以实现集体消歧。在构建依赖图的过程中,在现有构造方法的基础上,利用实体指称间的关系在实体指称侧建立联系,进而完善整个依赖图的结构并间接地优化算法处理顺序。在真实评测数据集上的实验结果表明,这种方法比其他同类的方法具有更高的效率和准确度。  相似文献   

10.
问答系统应用于人工智能、自然语言处理和信息检索领域获得了较好的效果,知识图谱问答(KBQA)作为其中的重要组成部分,是一项极具挑战性的自然语言处理任务。然而,目前常见的中文KBQA系统对于实体链接的实体消歧部分并没有给出很好的解决方法。提出一种基于多特征实体消歧的中文KBQA系统,通过结合实体自身的知名度特征、问句与实体关系的语义相似度特征、问句与实体的字符相似度特征和语义相似度特征,构建多特征实体消歧模型,提高实体链接准确率,为系统的问句分类和最优路径选取部分提供更准确的主题实体,从而提升系统性能。实验结果表明,该系统在CCKS2019-CKBQA评测数据的验证集上平均F1值为72.08%,其中采用多特征消歧模型的实体链接准确率达到90.84%,较使用知名度消歧模型和评测大赛第1名分别提升6.35和0.11个百分点。  相似文献   

11.
与传统的以网页页面集合的方式呈现搜索结果不同,实体搜索的结果是实体或实体集合,其优点是无需用户在纷杂的网页里面进行二次查找,更能提升用户的搜索体验.实体搜索的任务可以分为相关实体搜索和相似实体搜索.本文对近年来这两类任务的实体搜索技术进行综述.首先给出了实体搜索的形式化的定义,并介绍了常用的评测指标;然后对两种不同形式的实体搜索任务在两类数据源(非结构化数据集和结构化数据集)上的主要研究方法进行详细阐述和对比;最后对未来的研究内容和发展方向进行了探讨和展望.  相似文献   

12.
融合实体知识描述的实体联合消歧方法   总被引:1,自引:0,他引:1  
实体消歧(entity disambiguation)是指将文档中识别出的实体指称(entity mention)链向其在特定知识库中相应条目的过程。该文结合主流的基于深度学习的实体消歧方法并融合实体知识描述展开了实验性研究。实验结果表明,融合实体知识描述的实体消歧方法在公开数据集上取得了与已有最好算法相当的F1性能。  相似文献   

13.
冯兴杰  彭洲  张成豪  冯小荣 《计算机应用研究》2023,40(4):1052-1058+1064
实体链接的相关研究主要集中于医疗、生物和新闻领域,但在民航领域的研究较少。因此针对民航领域实体链接任务进行了研究,发现在实体链接中存在实体变体多、歧义少等问题。为解决上述问题,提出了一种基于语义推断的实体链接框架以及一种用于增强框架鲁棒性的负采样策略。在民航领域数据集上进行了对比实验,结果表明所提框架链接效果优于现有基准框架,并通过消融实验,验证了负采样策略的有效性。在负采样策略的作用下,该实体链接框架的Acc@top1高达0.875。  相似文献   

14.
针对实体关系抽取任务中的三元组重叠问题,基于编码器-解码器结构的联合抽取方法能够通过序列生成的方式加以解决。但现有方法没有充分利用实体类别信息,而实体类别信息对于构建更丰富的语义特征并进一步优化关系模型的效果具有重要意义。在使用编码器-解码器结构的基础上,融合实体类别信息构建实体关系联合抽取模型FETI。编码器采用经典Bi-LSTM结构,解码器采用树状解码替代传统的一维线性解码。同时,在解码阶段增加头尾实体类别的预测,并通过辅助损失函数进行约束,使模型能够更有效地利用实体类别信息。在百度公开的中文数据集DuIE上进行实验,结果表明,FETI的F1值达到0.758,相对于CopyMTL、WDec、MHS、Seq2UMTree模型提升了2.02%~9.86%,验证了融合实体类别信息对于提升实体关系抽取模型性能的有效性。此外,基于不同解码顺序和不同权重损失函数的实验结果表明,解码顺序对模型性能影响较大,而对主要任务的损失函数赋予较高权重,能够保证辅助任务为主要任务提供有效的背景知识,同时限制噪声的影响。  相似文献   

15.
当前医学语料库实体及实体关系的分类体系难以满足精准医学发展需求的问题,该文针对儿科疾病开展研究。在医学领域专家的指导下制定了适合儿科学的命名实体和实体关系的标注体系及详细标注规范;融合国内外相关医学标准资源,利用标注工具对298余万字儿科医学文本中实体及实体关系进行机器预标注、人工标注及人工校对,构建了面向儿科疾病的医学实体及关系语料库。所构建的语料库包含504种儿科常见疾病,共标注命名实体23 603个,实体关系36 513个,多轮标注一致性分别为0.85和0.82。基于该语料库构建了儿科医学知识图谱,并开发了基于知识图谱的儿科医学知识问答系统。  相似文献   

16.
实体抽取是自然语言处理中的一项基础任务,基于实体抽取的医疗领域实体分类是医疗知识图谱构建的基础,现有的实体抽取方法鲜有基于字符级的特征.文中提出了KBLCC方法,一种融合实体关键字特征的医疗领域实体分类方法.通过对医疗领域文本的语言特点进行分析与总结,发现医疗领域实体通常包含一些明显的关键字特征,能够辅助实体分类任务....  相似文献   

17.
中文实体关系抽取中的特征选择研究   总被引:9,自引:4,他引:9  
命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测  相似文献   

18.
传统的实体关系抽取方法主要针对语义信息较为完整的文本,基于抽取模式抽取文本中的实体关系,并采用启发式算法或者概率模型来选择抽取出的候选关系.而对于半结构化的页面,由于没有成句的实体信息展示,导致这些方法不能很好适用.论文提出的实体关系抽取系统能较好地处理半结构化的页面.该系统主要包括数据抽取规则学习、数据抽取、实体间关系计算等核心功能模块,并为用户提供了关系库查询接口.用户输入关键词和选定匹配类型,系统将根据关键词及匹配类型查询实体信息库,然后用满足条件的实体再去查询实体关系库,将包含这些实体的关系返回给用户.  相似文献   

19.
命名实体识别和歧义消解是自然语言理解的重要研究内容。针对提供实体知识库情况下的命名实体识别和歧义消解任务,该文提出了一种基于多步聚类的方法。首先通过两轮聚类将命名实体与知识库实体定义链接,然后通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于K-Means聚类的结果调整。在CLP-2012的汉语命名实体识别和歧义消解评测数据上的实验表明,该文的方法表现出良好的性能,在测试集上的F值高出评测参赛队伍最好水平6.46%,达到86.68%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号