首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
实体链接技术是将文本中的实体指称表述项正确链接到知识库中实体的过程。其中,命名实体消歧的准确性直接影响实体链接的准确性。针对中文实体链接中命名实体的消歧,提出一种融合多种特征的解决方案。首先,以中文维基百科为知识库支撑,从实体指称表述项的上下文和候选实体在维基百科的内容描述两个方面,抽取多种语义特征并计算语义相似度;然后将语义相似度融合到构建的图模型中,基于PageRank算法计算该图模型的最终平稳分布;最后对候选实体排序,选取Top1实体作为消歧后的实体链接结果。实验通过与仅仅围绕名称表述特征进行消歧的基线系统相比,F值提升了9%,并且高于其他实体链接技术实验的F值,表明该方法在解决中文实体链接技术的命名实体消歧问题上,取得了较好的整体效果。  相似文献   

2.
实体消歧作为自然语言处理的关键问题,旨在将文本中出现的歧义实体指称映射到知识库中的目标实体。针对现有方法存在仅实现单实体指称消歧、忽略了实体影响力及候选实体间相似度对消歧结果的影响以及冗余图节点增加图计算复杂性等问题,提出了一种融合多特征图及实体影响力的领域实体消歧方法,以金融领域为例,提取CN-Dbpedia中金融类别相关关键词三元组,构建金融领域知识库;针对金融活动类文本,提取待消歧实体指称,融合字符串及语义的相似特征,筛选出候选实体,利用知识库三元组信息获取候选实体间2-hop内的关系,同时计算候选实体间相似度作为边权值,进而将多特征信息充分融合到图模型当中,完成多特征图构建;采用动态决策策略,利用PageRank算法,并结合实体影响力计算多特征图中候选实体的综合评分,进而获得可信度较高的消歧结果。实验结果验证了提出方法在特定领域实体消歧的精确度及效率。  相似文献   

3.
传统词向量训练模型仅考虑词共现而未考虑词序,语义表达能力弱。此外,现有实体消歧方法没有考虑实体的局部特征。综合实体的全局特征和局部特征,该文提出一种基于上下文词向量和主题模型的实体消歧方法。首先,在传统词向量模型上增加上下文方向向量,用于表征语序,并利用该模型与主题模型训练主题词向量;其次,分别计算实体上下文相似度、基于实体上下文主题的类别主题相似度以及基于主题词向量的实体主题相似度;最后,融合三种相似度,选择相似度最高的实体作为最终消歧实体。实验结果表明,相比于现有的主流消歧方法,新方法是有效的。  相似文献   

4.
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优.  相似文献   

5.
该文针对中文实体消歧中的特征项部分匹配和协同消歧问题,提出基于特征加权重叠度的中文实体协同消歧方法。该方法利用实体指称上下文中多种特征的加权重叠度计算实体指称相似度,针对实体链接与消歧聚类约束,分类定义实体指称相似度计算方法,构建待消歧实体相似度矩阵,采用近邻传播聚类算法实现中文实体协同链接与消歧。基于CLP-2012评测数据的实验表明,提出的方法取得了较好的消歧效果,准确率、召回率和F值分别达到了84.01%、87.75%和85.65%。  相似文献   

6.
基于词向量语义分类的微博实体链接方法   总被引:1,自引:0,他引:1  
微博实体链接是把微博中给定的指称链接到知识库的过程,广泛应用于信息抽取、自动问答等自然语言处理任务(Natural language processing,NLP). 由于微博内容简短,传统长文本实体链接的算法并不能很好地用于微博实体链接任务. 以往研究大都基于实体指称及其上下文构建模型进行消歧,难以识别具有相似词汇和句法特征的候选实体. 本文充分利用指称和候选实体本身所含有的语义信息,提出在词向量层面对任务进行抽象建模,并设计一种基于词向量语义分类的微博实体链接方法. 首先通过神经网络训练词向量模板,然后通过实体聚类获得类别标签作为特征,再通过多分类模型预测目标实体的主题类别来完成实体消歧. 在NLPCC2014公开评测数据集上的实验结果表明,本文方法的准确率和召回率均高于此前已报道的最佳结果,特别是实体链接准确率有显著提升.  相似文献   

7.
王伟  赵尔平  崔志远  孙浩 《计算机应用》2021,41(8):2193-2198
针对目前词向量表示低频词质量差,表示的语义信息容易混淆,以及现有的消歧模型对多义词不能准确区分等问题,提出一种基于词向量融合表示的多特征融合消歧方法。该方法将使用知网(HowNet)义原表示的词向量与Word2vec生成的词向量进行融合来补全词的多义信息以及提高低频词的表示质量。首先计算待消歧实体与候选实体的余弦相似度来获得二者的相似度;其次使用聚类算法和知网知识库来获取实体类别特征相似度;然后利用改进的潜在狄利克雷分布(LDA)主题模型来抽取主题关键词以计算实体主题特征相似度,最后通过加权融合以上三类特征相似度实现多义词词义消歧。在西藏畜牧业领域测试集上进行的实验结果表明,所提方法的准确率(90.1%)比典型的图模型消歧方法提高了7.6个百分点。  相似文献   

8.
实体消歧是自然语言理解的重要研究内容,旨在解决文本信息中普遍存在的命名实体歧义问题,在信息抽取、知识工程和语义网络等领域有广泛的应用价值。实体链接是实体消歧的一种重要方法,该方法将具有歧义的实体指称项链接到给定的知识库中从而实现实体歧义的消除[1]。传统的实体链接方法主要利用上下文的词语匹配等表层特征,缺乏深层语义信息,针对这一问题,该文提出的实体链接方法利用了多种特征,从不同的维度捕获语义信息。为了更好地融合各个维度的特征,该文利用了基于排序学习框架的实体链接方法,与传统的方法相比,节省了人工对大量的模型参数选择和调节的工作,与基于分类的方法相比,能更好地利用到候选之间的关系信息。在TAC-KBP-2009的实体链接评测数据上的实验表明,该文提出的特征和方法表现出良好的性能,在评测指标上高出参赛队伍最好水平2.21%,达到84.38%。  相似文献   

9.
赵畅  李慧颖 《中文信息学报》2019,33(11):125-133
面向知识库问答的实体链接是指将自然语言问句中实体指称链接到知识库中实体的方法。目前主要面临两个问题: 第一是自然语言问句短,实体指称上下文不充分;第二是结构化知识库中实体的文本描述信息少。因此,该文提出了分别利用候选实体的类别、关系和邻近实体作为候选实体表示的方法,弥补知识库实体描述信息不足的问题。同时,通过语料训练得到问句指称的相似实体指称作为其背景知识。最后,结合实体流行度,共同作为实体消歧的特征。实验结果表明,上述提到所有特征的线性组合在数据集上高于单个特征的结果,表现最佳。  相似文献   

10.
在语义标注过程中,为了消除文本中给定的命名实体与知识库中实体映射过程中出现的歧义问题,提出了一种基于上下文信息相似度值排序的命名实体消歧方法。消岐方法包括实体表示预处理、候选实体列表构建和相似度值排序算法三部分。针对命名实体指称多样性问题,使用实体表示预处理方法抽取标准实体。然后利用中文在线百科构建语义知识库,得到标准实体的语义列表。同时提出利用相似度值排序方法解决标准实体与语义列表映射的指称歧义性问题,对于在知识库中未找到语义的实体采用HAC聚类算法进行消岐处理。实验结果表明,本文提出的方法能够有效的把中文网页真实数据集中文本的实体映射到知识库中对应无歧义的实体上。  相似文献   

11.
实体消歧和谓词匹配是中文知识库问答系统(CKBQA)中的两个核心任务。针对开放域知识库中实体和谓词数量巨大,且中文问句与知识库知识在表现形式上存在差异的问题,提出一种基于特征增强的BERT的流水线式问答系统(BERT-CKBQA),改进了上述两个子任务。采用BERT-CRF模型识别问句中提及的实体,得到候选实体集合。将问题和拼接谓词特征的候选实体输入BERT-CNN模型进行实体消歧。根据实体生成候选谓词集合,提出通过注意力机制引入答案实体谓词特征的BERT-BiLSTM-CNN模型进行谓词匹配。结合实体和谓词的得分确定查询路径来检索最终答案。该方法设计了一个中文简单问题的开放域知识库问答系统,引入预训练模型与谓词特征增强子任务特征以提升其性能,并在NLPCC-ICCPOL-2016KBQA数据集上取得了88.75%的平均F1值,提高了系统的回答准确率。  相似文献   

12.
实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。  相似文献   

13.
实体链接任务是识别文本中潜在的实体指称,并将其链接到给定知识库中无歧义的实体上。在绝大多数情况下,实体链接可能存在中文短文本缺乏有效上下文信息,导致存在一词多义的歧义现象;同时候选链接过程中,候选实体的不确定相关性也影响候选实体链接精确性。针对上述两个问题,提出深度神经网络与关联图相结合的实体链接模型。模型添加字符特征、上下文、信息深层语义来增强指称和实体表示,并进行相似度匹配。利用Fast-newman算法将图谱知识库聚类划分不同类型实体簇,将相似度计算得分最高候选实体所属实体簇映射到关系平面,构建聚类实体关联图。利用偏向随机游走算法考查候选实体之间语义相关度,计算指称与候选实体的匹配程度,输入链接实体。该模型可以实现短文本到知识图谱目标实体的准确链接。  相似文献   

14.
基于双向语义的中文实体关系联合抽取方法   总被引:1,自引:0,他引:1  
禹克强  黄芳  吴琪  欧阳洋 《计算机工程》2023,49(1):92-99+112
现有中文实体关系抽取方法通常利用实体间的单向关系语义特征进行关系抽取,然而仅靠单向语义特征并不能完全利用实体间的语义关系,从而使得实体关系抽取的有效性受到影响。提出一种基于双向语义的中文实体关系联合抽取方法。利用RoBERTa预训练模型获取具有上下文信息的文本字向量表征,通过首尾指针标注识别句子中可能存在关系的实体。为了同时利用文本中的双向关系语义信息,将实体分别作为关系中的主体与客体来建立正负关系,并利用两组全连接神经网络构建正负关系映射器,从而对每一个输入实体同时从正关系与负关系的角度构建候选关系三元组。将候选关系三元组分别在正负关系下的概率分布序列与实体位置嵌入特征相结合,以对候选三元组进行判别,从而确定最终的关系三元组。在DuIE数据集上进行对比实验,结果表明,该方法的精确率与召回率优于MultiR、CoType等基线模型,其F1值达到0.805,相较基线模型平均提高了12.8%。  相似文献   

15.
Entity linking is a fundamental task in natural language processing. The task of entity linking with knowledge graphs aims at linking mentions in text to their correct entities in a knowledge graph like DBpedia or YAGO2. Most of existing methods rely on hand‐designed features to model the contexts of mentions and entities, which are sparse and hard to calibrate. In this paper, we present a neural model that first combines co‐attention mechanism with graph convolutional network for entity linking with knowledge graphs, which extracts features of mentions and entities from their contexts automatically. Specifically, given the context of a mention and one of its candidate entities' context, we introduce the co‐attention mechanism to learn the relatedness between the mention context and the candidate entity context, and build the mention representation in consideration of such relatedness. Moreover, we propose a context‐aware graph convolutional network for entity representation, which takes both the graph structure of the candidate entity and its relatedness with the mention context into consideration. Experimental results show that our model consistently outperforms the baseline methods on five widely used datasets.  相似文献   

16.
Semantic entities carry the most important semantics of text data. Therefore, the identification and the relationship integration of semantic entities are very important for applications requiring semantics of text data. However, current strategies are still facing many problems such as semantic entity identification, new word identification and relationship integration among semantic entities. To address these problems, a two-phase framework for semantic entity identification with relationship integration in large scale text data is proposed in this paper. In the first semantic entities identification phase, we propose a novel strategy to extract unknown text semantic entities by integrating statistical features, Decision Tree (DT), and Support Vector Machine (SVM) algorithms. Compared with traditional approaches, our strategy is more effective in detecting semantic entities and more sensitive to new entities that just appear in the fresh data. After extracting the semantic entities, the second phase of our framework is for the integration of Semantic Entities Relationships (SER) which can help to cluster the semantic entities. A novel classification method using features such as similarity measures and co-occurrence probabilities is applied to tackle the clustering problem and discover the relationships among semantic entities. Comprehensive experimental results have shown that our framework can beat state-of-the-art strategies in semantic entity identification and discover over 80% relationship pairs among related semantic entities in large scale text data.  相似文献   

17.
实体链接是加强语义理解和连接知识信息与文本的有效方法,但目前多数模型对上下文语境的精准理解受限于文本长度,面向短文本的实体链接任务存在实体边界识别错误和实体语义理解错误的问题。针对中文短文本的实体链接任务,构建基于局部注意力机制的实体链接模型。在实体消歧的过程中,通过对待消歧文本与实体的知识描述文本进行拼接,将短文本转换为长文本,同时引入局部注意力机制,缓解长距离依赖问题并强化局部的上下文信息。实验结果表明,相比于传统加入BIO标注方法的模型,该模型在CCKS2019和CCKS2020数据集上的F1值分别提升了4.41%和1.52%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号