首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
实体链接技术是将文本中的实体指称表述项正确链接到知识库中实体的过程。其中,命名实体消歧的准确性直接影响实体链接的准确性。针对中文实体链接中命名实体的消歧,提出一种融合多种特征的解决方案。首先,以中文维基百科为知识库支撑,从实体指称表述项的上下文和候选实体在维基百科的内容描述两个方面,抽取多种语义特征并计算语义相似度;然后将语义相似度融合到构建的图模型中,基于PageRank算法计算该图模型的最终平稳分布;最后对候选实体排序,选取Top1实体作为消歧后的实体链接结果。实验通过与仅仅围绕名称表述特征进行消歧的基线系统相比,F值提升了9%,并且高于其他实体链接技术实验的F值,表明该方法在解决中文实体链接技术的命名实体消歧问题上,取得了较好的整体效果。  相似文献   

2.
实体链接是加强语义理解和连接知识信息与文本的有效方法,但目前多数模型对上下文语境的精准理解受限于文本长度,面向短文本的实体链接任务存在实体边界识别错误和实体语义理解错误的问题。针对中文短文本的实体链接任务,构建基于局部注意力机制的实体链接模型。在实体消歧的过程中,通过对待消歧文本与实体的知识描述文本进行拼接,将短文本转换为长文本,同时引入局部注意力机制,缓解长距离依赖问题并强化局部的上下文信息。实验结果表明,相比于传统加入BIO标注方法的模型,该模型在CCKS2019和CCKS2020数据集上的F1值分别提升了4.41%和1.52%。  相似文献   

3.
现有中文短文本实体消歧模型在消歧过程中大多只考虑指称上下文与候选实体描述的语义匹配特征,对同一查询文本中候选实体间的共现特征以及候选实体与实体指称类别相似特征等有效的消歧特征考虑不足。针对这些问题,本文首先利用预训练语言模型获得指称上下文与候选实体描述的语义匹配特征;然后,针对实体嵌入和指称类别嵌入提出共现特征与类别特征;最后,通过融合上述特征实现基于多特征因子融合实体消歧模型。实验结果表明本文提出的共现特征及类别特征在实现实体消歧中的可行性和有效性,以及本文提出的基于多特征因子融合的实体消歧方法能够取得更好的消歧效果。  相似文献   

4.
针对现有很多基于人物属性特征的人名消歧方法不适用于文本本身特征稀疏的问题,提出一种基于句义结构分析中文人名消歧方法。通过句义结构分析提取人物关系特征词,根据提取关系特征构建社会关系图,并以人名实体的职业和所在单位等人物属性作为辅助特征,结合实体的特征信息进行关系聚类,将聚类的结果映射到文本中以实现人名消歧。通过句义结构分析提高了人物关系特征以及人物属性特征的准确率,实验结果表明,该方法可有效地提高中文人名消歧准确率。  相似文献   

5.
实体消歧作为自然语言处理的关键问题,旨在将文本中出现的歧义实体指称映射到知识库中的目标实体。针对现有方法存在仅实现单实体指称消歧、忽略了实体影响力及候选实体间相似度对消歧结果的影响以及冗余图节点增加图计算复杂性等问题,提出了一种融合多特征图及实体影响力的领域实体消歧方法,以金融领域为例,提取CN-Dbpedia中金融类别相关关键词三元组,构建金融领域知识库;针对金融活动类文本,提取待消歧实体指称,融合字符串及语义的相似特征,筛选出候选实体,利用知识库三元组信息获取候选实体间2-hop内的关系,同时计算候选实体间相似度作为边权值,进而将多特征信息充分融合到图模型当中,完成多特征图构建;采用动态决策策略,利用PageRank算法,并结合实体影响力计算多特征图中候选实体的综合评分,进而获得可信度较高的消歧结果。实验结果验证了提出方法在特定领域实体消歧的精确度及效率。  相似文献   

6.
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优.  相似文献   

7.
随着计算机技术深度融入社会生活,越来越多的短文本信息遍布在网络平台上。针对短文本的数据稀疏问题,文中构建了一个鲁棒的异质信息网框架(HTE)来建模短文本,该框架可集成任何类型的附加信息并捕获它们之间的关系,以解决数据稀疏问题。基于该框架利用不同外部知识设计了6种短文本扩充方法,引入Wikipedia知识库和Freebase知识库的实体、实体类别、实体间关系等实体信息和文本主题等文本信息,以丰富短文本特征。最后使用相似性度量结果来验证所提出的短文本特征扩充方法的效果。通过与传统的3种相似性度量方法的6种文本扩充方法以及目前主流的短文本匹配算法在两个短文本数据集上进行比较,结果表明,所提的6种短文本扩充方法均有所提升,最佳方法的相似度度量结果与BERT相比提升了5.97%,证明了所提框架具有鲁棒性,可以包含多种类型的外部知识,能够解决短文本的数据稀疏性问题,以无监督的方式高精度地对短文本进行相似性度量。  相似文献   

8.
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。  相似文献   

9.
问答系统应用于人工智能、自然语言处理和信息检索领域获得了较好的效果,知识图谱问答(KBQA)作为其中的重要组成部分,是一项极具挑战性的自然语言处理任务。然而,目前常见的中文KBQA系统对于实体链接的实体消歧部分并没有给出很好的解决方法。提出一种基于多特征实体消歧的中文KBQA系统,通过结合实体自身的知名度特征、问句与实体关系的语义相似度特征、问句与实体的字符相似度特征和语义相似度特征,构建多特征实体消歧模型,提高实体链接准确率,为系统的问句分类和最优路径选取部分提供更准确的主题实体,从而提升系统性能。实验结果表明,该系统在CCKS2019-CKBQA评测数据的验证集上平均F1值为72.08%,其中采用多特征消歧模型的实体链接准确率达到90.84%,较使用知名度消歧模型和评测大赛第1名分别提升6.35和0.11个百分点。  相似文献   

10.
针对知识库中存在单条实体定义特征稀疏和人工设置相似度阈值适用性不强的问题,本文提出了一种基于分步聚类的人名消歧算法。首先,将知识库中人名实体定义的人物属性特征作为查询特征,利用文本检索的方式实现基于知识库的初次聚类,弥补了知识库中单条实体定义中特征稀疏的问题;然后,利用初次聚类的结果,采用基于自适应阈值的凝聚层次聚类算法实现知识库人名消歧;最后,采用条件随机场进行Other类识别,利用基于自适应阈值的凝聚层次聚类完成S类聚类,从而实现非知识库人名消歧。在CLP2012的中文人名消歧评测语料上进行实验,结果表明本文的算法能够有效地对人名进行消歧。  相似文献   

11.
段宗涛  李菲  陈柘 《控制与决策》2021,36(5):1025-1039
实体消歧是将文本中出现的命名实体映射到一个已知的无歧义的结构化知识库中的技术.实体消歧是自然语言处理中的关键问题,对自然语言的发展起到重要作用.实体消歧对知识图谱构建、语义搜索、知识问答、推荐系统等应用有着重要的意义.对此,从实体消歧的定义、分类和相关研究基础出发,对实体消歧技术进行全面的解析.首先,对实体消歧的五元组定义进行说明,并给出实体消歧的常用分类以及相关研究基础;然后,分别对基于聚类的实体消歧、基于实体链接的实体消歧的研究内容以及研究现状进行详细综述;最后,对实体消歧的应用以及评测进行总结,并对未来研究方向进行了展望.  相似文献   

12.
王伟  赵尔平  崔志远  孙浩 《计算机应用》2021,41(8):2193-2198
针对目前词向量表示低频词质量差,表示的语义信息容易混淆,以及现有的消歧模型对多义词不能准确区分等问题,提出一种基于词向量融合表示的多特征融合消歧方法。该方法将使用知网(HowNet)义原表示的词向量与Word2vec生成的词向量进行融合来补全词的多义信息以及提高低频词的表示质量。首先计算待消歧实体与候选实体的余弦相似度来获得二者的相似度;其次使用聚类算法和知网知识库来获取实体类别特征相似度;然后利用改进的潜在狄利克雷分布(LDA)主题模型来抽取主题关键词以计算实体主题特征相似度,最后通过加权融合以上三类特征相似度实现多义词词义消歧。在西藏畜牧业领域测试集上进行的实验结果表明,所提方法的准确率(90.1%)比典型的图模型消歧方法提高了7.6个百分点。  相似文献   

13.
实体链接是明确文本中实体指称的重要手段,也是构建知识图谱的关键技术,在智能问答、信息检索等领域中具有重要作用,但由于短文本的上下文语境不丰富、表达不正式、语法结构不完整等特点,现有的短文本实体链接方法准确率较低。提出一种新的短文本实体链接方法,将多任务学习方法引入短文本实体链接过程中,从而增强短文本实体链接方法的效果。在此基础上,构建多任务学习模型,将短文本实体链接作为主任务,并引入实体分类作为辅助任务,促使模型学习到更加通用的底层表达,提高模型的泛化能力,优化模型在短文本实体链接任务中的表现。在CCKS2020测评任务2提供的数据集上的实验结果表明,辅助任务的引入能够缓解短文本实体链接过程中信息不充分的问题,且该多任务学习模型的F值为0.894 9,优于基于BERT编码器的单任务实体链接模型。  相似文献   

14.
基于领域知识的图模型词义消歧方法   总被引:1,自引:0,他引:1  
鹿文鹏  黄河燕  吴昊 《自动化学报》2014,40(12):2836-2850
对领域知识挖掘利用的充分与否,直接影响到面向特定领域的词义消歧(Word sense disambiguation, WSD)的性能.本文提出一种基于领域知识的图模型词义消歧方法,该方法充分挖掘领域知识,为目标领域收集文本领域关联词作为文本领域知识,为目标歧义词的各个词义获取词义领域标注作为词义领域知识;利用文本领域关联词和句子上下文词构建消歧图,并根据词义领域知识对消歧图进行调整;使用改进的图评分方法对消歧图的各个词义结点的重要度进行评分,选择正确的词义.该方法能有效地将领域知识整合到图模型中,在Koeling数据集上,取得了同类研究的最佳消歧效果.本文亦对多种图模型评分方法做了改进,进行了详细的对比实验研究.  相似文献   

15.
实体链接任务是识别文本中潜在的实体指称,并将其链接到给定知识库中无歧义的实体上。在绝大多数情况下,实体链接可能存在中文短文本缺乏有效上下文信息,导致存在一词多义的歧义现象;同时候选链接过程中,候选实体的不确定相关性也影响候选实体链接精确性。针对上述两个问题,提出深度神经网络与关联图相结合的实体链接模型。模型添加字符特征、上下文、信息深层语义来增强指称和实体表示,并进行相似度匹配。利用Fast-newman算法将图谱知识库聚类划分不同类型实体簇,将相似度计算得分最高候选实体所属实体簇映射到关系平面,构建聚类实体关联图。利用偏向随机游走算法考查候选实体之间语义相关度,计算指称与候选实体的匹配程度,输入链接实体。该模型可以实现短文本到知识图谱目标实体的准确链接。  相似文献   

16.
针对小样本短文本分类过程中出现的语义稀疏与过拟合问题,在异构图卷积网络中利用双重注意力机制学习不同相邻节点的重要性和不同节点类型对当前节点的重要性,构建小样本短文本分类模型HGCN-RN。利用BTM主题模型在短文本数据集中提取主题信息,构造一个集成实体和主题信息的短文本异构信息网络,用于解决短文本语义稀疏问题。在此基础上,构造基于随机去邻法和双重注意力机制的异构图卷积网络,提取短文本异构信息网络中的语义信息,同时利用随机去邻法进行数据增强,用于缓解过拟合问题。在3个短文本数据集上的实验结果表明,与LSTM、Text GCN、HGAT等基准模型相比,该模型在每个类别只有10个标记样本的情况下仍能达到最优性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号