首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。  相似文献   

2.
实体链接是明确文本中实体指称的重要手段,也是构建知识图谱的关键技术,在智能问答、信息检索等领域中具有重要作用,但由于短文本的上下文语境不丰富、表达不正式、语法结构不完整等特点,现有的短文本实体链接方法准确率较低。提出一种新的短文本实体链接方法,将多任务学习方法引入短文本实体链接过程中,从而增强短文本实体链接方法的效果。在此基础上,构建多任务学习模型,将短文本实体链接作为主任务,并引入实体分类作为辅助任务,促使模型学习到更加通用的底层表达,提高模型的泛化能力,优化模型在短文本实体链接任务中的表现。在CCKS2020测评任务2提供的数据集上的实验结果表明,辅助任务的引入能够缓解短文本实体链接过程中信息不充分的问题,且该多任务学习模型的F值为0.894 9,优于基于BERT编码器的单任务实体链接模型。  相似文献   

3.
实体链接是指对于文本中提到的实体指称,在知识图谱中找到它所对应的真实实体的过程.利用实体链接技术可以把网络数据和知识库链接起来,在对数据进行处理时就能运用知识库中的结构化信息,很大地促进了自然语言处理领域的发展.论文提出一种将局部消歧和全局消歧相结合的实体消歧方法.在局部消歧方面,利用BiLSTM+Attention模型捕获文本中实体指称的上下文信息,与知识库中的实体信息进行相似性计算得到候选实体的局部消歧得分.在全局消歧方面,构造候选实体之间的关联图,将实体的局部消歧得分作为每个实体节点的初始得分,利用PageRank算法逐步完成整个文档中所有指称项的消歧过程.实验结果表明论文的方法拥有较好的消歧效果.  相似文献   

4.
陈明  刘蓉  张晔 《计算机工程》2023,(6):314-320
医疗实体识别是从医疗文本中识别疾病、症状、药物等多种类型的医疗实体,能够为知识图谱、智慧医疗等下游任务的发展提供支持。针对现有命名实体识别模型提取语义特征较单一、对医疗文本语义理解能力不足的问题,提出一种基于多重注意力机制的神经网络模型MANM。为捕获文本中更丰富的语义特征,在模型输入中引入医疗词汇先验知识,通过自注意力机制获取医疗文本的全局语义特征,并利用双线性注意力机制获取词汇和字符层面的潜在语义特征,得到包含字词间依赖关系的特征向量。为提高模型的上下文信息捕捉能力,采用改进的长短时记忆网络提取文本时序特征,同时设计多头自注意力机制获取词语间隐含的关联语义特征。最后融合上述多层次语义特征,利用条件随机场进行实体识别。在公开数据集CMeEE、CCKS2019、CCKS2020上进行对比实验,实验结果表明,MANM模型在3个数据集上的F1值分别达到64.29%、86.12%、90.32%,验证了所提方法在医疗实体识别中的有效性。  相似文献   

5.
短文本实体链接由于缺乏主题信息,只能依靠局部短文本信息和知识库。现有方法主要通过计算局部短文本和候选实体之间的相似度完成候选实体集的排序,但并未显式地考虑局部短文本和候选实体在文本交互上的关联性。针对上述问题,该文提出短文本交互图(STIG)的概念和一个双步训练方案,利用BERT提取局部短文本和候选实体间的多粒度特征,并在短文本交互图上使用图卷积机制。此外,为了缓解均值池化使图卷积发生退化的问题,该文提出一个将交互图中各节点特征和边信息压缩成稠密向量的方法。在CCKS2020短文本实体链接数据集上的实验验证了所提方法的有效性。  相似文献   

6.
问句实体链接不仅需要大量的数据处理和特征选择工作,而且容易形成错误累积,降低链接效果.针对这种情况,文中提出基于注意力机制的编码器-解码器问句实体链接模型.模型使用双向的长短期记忆网络编码问句,经过注意力机制解码,生成对应的实体指称和消歧信息输出,最后链接到知识库实体.在有关汽车领域车系产品问句和实体数据集上的实验表明,文中模型仅利用较少的上下文信息便可取得良好效果.  相似文献   

7.
现有中文短文本实体消歧模型在消歧过程中大多只考虑指称上下文与候选实体描述的语义匹配特征,对同一查询文本中候选实体间的共现特征以及候选实体与实体指称类别相似特征等有效的消歧特征考虑不足。针对这些问题,本文首先利用预训练语言模型获得指称上下文与候选实体描述的语义匹配特征;然后,针对实体嵌入和指称类别嵌入提出共现特征与类别特征;最后,通过融合上述特征实现基于多特征因子融合实体消歧模型。实验结果表明本文提出的共现特征及类别特征在实现实体消歧中的可行性和有效性,以及本文提出的基于多特征因子融合的实体消歧方法能够取得更好的消歧效果。  相似文献   

8.
问答系统应用于人工智能、自然语言处理和信息检索领域获得了较好的效果,知识图谱问答(KBQA)作为其中的重要组成部分,是一项极具挑战性的自然语言处理任务。然而,目前常见的中文KBQA系统对于实体链接的实体消歧部分并没有给出很好的解决方法。提出一种基于多特征实体消歧的中文KBQA系统,通过结合实体自身的知名度特征、问句与实体关系的语义相似度特征、问句与实体的字符相似度特征和语义相似度特征,构建多特征实体消歧模型,提高实体链接准确率,为系统的问句分类和最优路径选取部分提供更准确的主题实体,从而提升系统性能。实验结果表明,该系统在CCKS2019-CKBQA评测数据的验证集上平均F1值为72.08%,其中采用多特征消歧模型的实体链接准确率达到90.84%,较使用知名度消歧模型和评测大赛第1名分别提升6.35和0.11个百分点。  相似文献   

9.
因短文本实体消歧具有不能完整地表达语义关系、上下文提供的信息较少等局限性。针对以上难点,该文提出了一种新的方法,混合卷积网络(Mixed Convolution Network,MCN)。该方法的核心思想是首先对数据集进行预处理;其次,采用Google提出的BERT模型进行特征提取,并通过注意力机制将特征进一步抽取后作为CNN模型的输入,通过CNN模型获得句子的依赖特征。同时,该文使用GCN模型获取语义特征,将二者提取到的语义信息融合,输出得到结果。在CCKS2019评测数据集上的实验结果表明,该文提出的混合卷积网络取得了86.57%的精确率,验证了该模型的有效性。  相似文献   

10.
实体链接技术是将文本中的实体指称表述项正确链接到知识库中实体的过程。其中,命名实体消歧的准确性直接影响实体链接的准确性。针对中文实体链接中命名实体的消歧,提出一种融合多种特征的解决方案。首先,以中文维基百科为知识库支撑,从实体指称表述项的上下文和候选实体在维基百科的内容描述两个方面,抽取多种语义特征并计算语义相似度;然后将语义相似度融合到构建的图模型中,基于PageRank算法计算该图模型的最终平稳分布;最后对候选实体排序,选取Top1实体作为消歧后的实体链接结果。实验通过与仅仅围绕名称表述特征进行消歧的基线系统相比,F值提升了9%,并且高于其他实体链接技术实验的F值,表明该方法在解决中文实体链接技术的命名实体消歧问题上,取得了较好的整体效果。  相似文献   

11.
翁兆琦  张琳 《计算机工程》2021,47(10):97-102
现有的文本语义匹配方法大多基于简单的注意力机制进行交互,较少考虑文本自身结构信息和文本之间原始信息的的交互。针对2个中文文本的语义匹配问题,构建一个多角度信息交互的文本匹配模型MAII。分别从颗粒、局部、全局3个角度计算2个文本深层次的语义交互矩阵,同时考虑语序信息之间和结构信息之间的交互以及文本内部的依赖关系,从而得到含有丰富信息的语义向量,并通过语义推理计算出两文本之间的语义匹配度。实验结果表明,相比在英文数据集上表现良好的DSSM、ESIM和DIIN模型,MAII模型在CCKS 2018问句匹配大赛的中文数据集上达到77.77%的准确率,表现出更好的匹配性能。  相似文献   

12.
文本分类任务作为文本挖掘的核心问题,已成为自然语言处理领域的一个重要课题.而短文本分类由于稀疏性、实时性和不规范性等特点,已成为文本分类亟待解决的问题之一.在某些特定场景,短文本存在大量隐含语义,由此给挖掘有限文本内的隐含语义特征等任务带来挑战.已有的方法对短文本分类主要采用传统机器学习或深度学习算法,但该类算法的模型构建复杂且工作量大,效率不高.此外,短文本包含有效信息较少且口语化严重,对模型的特征学习能力要求较高.针对以上问题,提出了KAe RCNN模型,该模型在TextRCNN模型的基础上,融合了知识感知与双重注意力机制.知识感知包含了知识图谱实体链接和知识图谱嵌入,可以引入外部知识以获取语义特征,同时,双重注意力机制可以提高模型对短文本中有效信息提取的效率.实验结果表明,KAe RCNN模型在分类准确度、F1值和实际应用效果等方面显著优于传统的机器学习算法.对算法的性能和适应性进行了验证,准确率达到95.54%, F1值达到0.901,对比4种传统机器学习算法,准确率平均提高了约14%, F1值提升了约13%.与TextRCNN相比,KAe RCNN模型在准确性方面提升了约3%...  相似文献   

13.
针对短文本缺乏上下文信息导致的语义模糊问题,构建一种融合知识图谱和注意力机制的神经网络模型。借助现有知识库获取短文本相关的概念集,以获得短文本相关先验知识,弥补短文本缺乏上下文信息的不足。将字符向量、词向量以及短文本的概念集作为模型的输入,运用编码器-解码器模型对短文本与概念集进行编码,利用注意力机制计算每个概念权重值,减小无关噪声概念对短文本分类的影响,在此基础上通过双向门控循环单元编码短文本输入序列,获取短文本分类特征,从而更准确地进行短文本分类。实验结果表明,该模型在AGNews、Ohsumed和TagMyNews短文本数据集上的准确率分别达到73.95%、40.69%和63.10%,具有较好的分类能力。  相似文献   

14.
短文本通常是由几个到几十个词组成,长度短、特征稀疏,导致短文本分类的准确率难以提升。为了解决此问题,提出了一种基于局部语义特征与上下文关系融合的中文短文本分类算法,称为Bi-LSTM_CNN_AT,该算法利用CNN提取文本的局部语义特征,利用Bi-LSTM提取文本的上下文语义特征,并结合注意力机制,使得Bi-LSTM_CNN_AT模型能从众多的特征中提取出和当前任务最相关的特征,更好地进行文本分类。实验结果表明,Bi-LSTM_CNN_AT模型在NLP&CC2017的新闻标题分类数据集18个类别中的分类准确率为81.31%,比单通道的CNN模型提高2.02%,比单通道的Bi-LSTM模型提高1.77%。  相似文献   

15.
实体链接任务是识别文本中潜在的实体指称,并将其链接到给定知识库中无歧义的实体上。在绝大多数情况下,实体链接可能存在中文短文本缺乏有效上下文信息,导致存在一词多义的歧义现象;同时候选链接过程中,候选实体的不确定相关性也影响候选实体链接精确性。针对上述两个问题,提出深度神经网络与关联图相结合的实体链接模型。模型添加字符特征、上下文、信息深层语义来增强指称和实体表示,并进行相似度匹配。利用Fast-newman算法将图谱知识库聚类划分不同类型实体簇,将相似度计算得分最高候选实体所属实体簇映射到关系平面,构建聚类实体关联图。利用偏向随机游走算法考查候选实体之间语义相关度,计算指称与候选实体的匹配程度,输入链接实体。该模型可以实现短文本到知识图谱目标实体的准确链接。  相似文献   

16.
命名实体是文本中承载信息的重要单元,正确分析存在歧义的命名实体对文本的理解起着关键性作用。该文提出基于多源知识和Ranking SVM的中文微博命名实体链接,结合同义词词典、百科资源等知识产生初始候选实体集合,同时从文本中抽取多种组合特征,利用Ranking SVM对候选实体集合进行排序,从而得到目标实体。在NLP&CC2014中文微博实体链接评测数据集上进行了实验,获得了89.40%的平均准确率,与NLP&CC2014中文微博实体链接评测取得最好成绩的系统相比,本文的系统具有一定的优势。
  相似文献   

17.
省略作为一种普遍存在的语言现象,在中文文本尤其是对话、问答等短文本中频繁出现。该文从服务于短文本理解的视角出发,针对省略恢复问题提出了一种多重注意力融合的省略恢复模型。该模型融合交叉注意力机制和自注意力机制,借助门控机制将上下文信息与当前文本信息进行有效结合。在短文本问答语料上的多组实验结果表明,该文给出的模型能有效地识别并恢复短文本中的省略,从而更好地服务于短文本的理解。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号