首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到14条相似文献,搜索用时 359 毫秒
1.
实体链接是加强语义理解和连接知识信息与文本的有效方法,但目前多数模型对上下文语境的精准理解受限于文本长度,面向短文本的实体链接任务存在实体边界识别错误和实体语义理解错误的问题。针对中文短文本的实体链接任务,构建基于局部注意力机制的实体链接模型。在实体消歧的过程中,通过对待消歧文本与实体的知识描述文本进行拼接,将短文本转换为长文本,同时引入局部注意力机制,缓解长距离依赖问题并强化局部的上下文信息。实验结果表明,相比于传统加入BIO标注方法的模型,该模型在CCKS2019和CCKS2020数据集上的F1值分别提升了4.41%和1.52%。  相似文献   

2.
实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。  相似文献   

3.
实体链接任务是识别文本中潜在的实体指称,并将其链接到给定知识库中无歧义的实体上。在绝大多数情况下,实体链接可能存在中文短文本缺乏有效上下文信息,导致存在一词多义的歧义现象;同时候选链接过程中,候选实体的不确定相关性也影响候选实体链接精确性。针对上述两个问题,提出深度神经网络与关联图相结合的实体链接模型。模型添加字符特征、上下文、信息深层语义来增强指称和实体表示,并进行相似度匹配。利用Fast-newman算法将图谱知识库聚类划分不同类型实体簇,将相似度计算得分最高候选实体所属实体簇映射到关系平面,构建聚类实体关联图。利用偏向随机游走算法考查候选实体之间语义相关度,计算指称与候选实体的匹配程度,输入链接实体。该模型可以实现短文本到知识图谱目标实体的准确链接。  相似文献   

4.
老挝语属于低资源语言,在有限的语料中获取更多的语义信息可以有效解决汉语和老挝语短文本相似度计算不准确的问题。多任务学习是有效获取语义信息的一种方法,该文对汉语和老挝语短文本特点进行研究后,提出一种融合词性位置特征的多任务汉老双语短文本相似度计算方法:首先,通过词性位置特征权重和TF-IDF权重加权表征双语短文本的同时,使用改进后的TextRank算法获取双语短文本的核心句;然后,通过带有自注意力机制的双向长短时记忆网络分别计算双语短文本的相似度与双语短文本对应核心句的相似度;最后,使用多任务学习方法,将双语短文本的核心句相似度计算作为辅助任务,获取更多的语义信息进行共享以提升汉老双语短文本相似度计算模型的性能。实验结果表明,该文提出的方法在有限的训练语料下取得了更好的效果,F1值达76.16%。  相似文献   

5.
知识库问答实体链接任务需要将问句内容精准链接到知识库中实体.当前方法大多难以兼顾链接实体的召回率和精确率,并且仅能根据文本信息对实体进行区分筛选.因此,文中在合并子步骤的基础上,提出融合多维度特征的知识库问答实体链接模型(MDIIEL).通过表示学习方法,将文本符号、实体和问句类型、实体在知识库中语义结构表达等信息整合并引至实体链接任务中,加强对相似实体的区分,在提高准确率的同时降低候选集的大小.实验表明,MDIIEL模型在实体链接任务性能上具有整体性提升,在大部分指标上取得较优的链接结果.  相似文献   

6.
文本分类任务作为文本挖掘的核心问题,已成为自然语言处理领域的一个重要课题.而短文本分类由于稀疏性、实时性和不规范性等特点,已经成为文本分类的亟待解决的问题之一.在某些特定的场景,短文本存在大量隐含语义,由此对挖掘有限文本内的隐含语义特征等任务带来挑战.已有的方法对短文本分类主要是采用传统机器学习或深度学习算法,但是该类算法的模型构建复杂且工作量大,效率不高.此外,短文本包含有效信息较少且口语化严重,对模型的特征学习能力要求较高.针对以上问题,本文提出了KAeRCNN模型,该模型在TextRCNN模型的基础上,融合了知识感知与双重注意力机制.知识感知包含了知识图谱实体链接和知识图谱嵌入,可以引入外部知识以获取语义特征,同时双重注意力机制可以提高模型对短文本中有效信息提取的效率.实验结果表明,KAeRCNN模型在分类准确度、F1值和实际应用效果等方面显著优于传统的机器学习算法.我们对算法的性能和适应性进行了验证,准确率达到95.54%,F1值达到0.901,对比四种传统机器学习算法,准确率平均提高了约14%,F1值提升了约13%.与TextRCNN相比,KAeRCNN模型在准确性方面提升了约3%.此外,与深度学习算法的对比实验结果也说明了我们的模型在其它领域的短文本分类中也有较好的表现.理论和实验结果都证明,提出的KAeRCNN模型对短文本分类效果更优.  相似文献   

7.
面向短文本的命名实体识别   总被引:1,自引:0,他引:1  
王丹  樊兴华 《计算机应用》2009,29(1):143-145,
针对短文本命名实体识别这项紧缺任务,提出了一种面向短文本的快速有效的命名实体识别方法。该方法主要分成三步:第一步,针对短文本表达不规范特性对命名实体识别的干扰,采取去干扰字符,化繁为简等规范化操作。第二步,针对短文本语意不完整特性,提出用HMM(隐马尔可夫模型)以词性做观察值进行初步命名实体识别。第三步,据初步识别结果,构建拼音同指关系库来识别潜在实体。在由8464篇短文本构成的测试集上运行的实验表明,该方法能较好地进行短文本命名实体识别。  相似文献   

8.
面向法律文本的实体关系联合抽取技术对于案情关键信息的智能提取至关重要,是智慧司法领域应用中的重要环节。目前的联合抽取方法虽然已经在特定罪名案件的数据集上取得了较好的效果,但是由于模型在训练时只关注了特定罪名类型文本数据的特点,使得模型的泛化能力有限,在应用到多罪名案件的情况下常常使得模型的效果下降。因此引入多任务学习的方法对多罪名情形下的实体关系联合抽取进行了研究,以涉毒类案件和盗窃类案件两大类罪名的文书数据为基础,构建了一个罪名分类任务作为联合抽取的辅助任务,通过基于特征筛选的动态加权多任务模型同时对两个任务进行学习,在单任务模型的基础上整体F1值提升了2.4个百分点,在涉毒类案件和盗窃类案件上的F1值分别提升了1.6和3.2个百分点。  相似文献   

9.
中文实体描述短文本具有词语稀疏、语义离散、用词随意等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。  相似文献   

10.
目前互联网中包含了大量的实体介绍文本,为实体知识构建提供了资源基础。别名作为实体的一种属性,是实体正式名称的不同表达,在知识图谱构建中具有重要意义。该文以景点介绍文本作为语料,结合不同别名描述方式提出别名标注策略,人工构建别名标注数据集。别名抽取可分为实体识别与关系分类两个子任务。该文提出基于深度学习的景点实体别名抽取联合模型,同时完成两个子任务。在该文构建的数据集上的实验结果表明,联合模型与流水线式处理模型相比性能有显著提高。  相似文献   

11.
歧义的存在使得实体链接任务需要大量信息的支撑。已有研究主要使用两类信息,即实体表述所在的文本信息和外部的知识库信息。但已有研究对信息的使用存在以下两个问题: 首先,最新通用知识库规模更大、覆盖面更广,但目前的实体链接模型却未从中受益,其性能没有得到相应提升;其次,表述所在的文本信息既包含表述所处的局部上下文信息,也包含文本主题之类的全局信息,文本自身信息的利用率还需进一步提高。针对第一个问题,该文给出了一个融合文本相关度和先验知识的实体候选集抽取策略,提高了对知识库中有效知识的提取;针对第二个问题,该文给出了一个融合局部和全局信息的自注意力机制与高速网络相结合的神经网络实体链接框架。在6个实体链接公开数据集上的对比实验表明了该文提出方案的有效性,在最新的通用知识库上该文给出的实体链接模型取得了目前最好的性能。  相似文献   

12.
Entity linking(EL)systems aim to link entity mentions in the document to their corresponding entity records in a reference knowledge base.Existing EL approaches usually ignore the semantic correlation between the mentions in the text,and are limited to the scale of the local knowledge base.In this paper,we propose a novel graphranking collective Chinese entity linking(GRCCEL)algorithm,which can take advantage of both the structured relationship between entities in the local knowledge base and the additional background information offered by external knowledge sources.By improved weighted word2vec textual similarity and improved PageRank algorithm,more semantic information and structural information can be captured in the document.With an incremental evidence mining process,more powerful discrimination capability for similar entities can be obtained.We evaluate the performance of our algorithm on some open domain corpus.Experimental results show the effectiveness of our method in Chinese entity linking task and demonstrate the superiority of our method over state-of-the-art methods.  相似文献   

13.
贺瑞芳  段绍杨 《软件学报》2019,30(4):1015-1030
事件抽取旨在从非结构化的文本中提取人们感兴趣的信息,并以结构化的形式呈现给用户.当前,大多数中文事件抽取系统采用连续的管道模型,即:先识别事件触发词,后识别事件元素.其容易产生级联错误,且处于下游的任务无法将信息反馈至上游任务,辅助上游任务的识别.将事件抽取看作序列标注任务,构建了基于CRF多任务学习的中文事件抽取联合模型.针对仅基于CRF的事件抽取联合模型的缺陷进行了两个扩展:首先,采用分类训练策略解决联合模型中事件元素的多标签问题(即:当一个事件提及中包含多个事件时,同一个实体往往会在不同的事件中扮演不同的角色).其次,由于处于同一事件大类下的事件子类,其事件元素存在高度的相互关联性.为此,提出采用多任务学习方法对各事件子类进行互增强的联合学习,进而有效缓解分类训练后的语料稀疏问题.在ACE 2005中文语料上的实验证明了该方法的有效性.  相似文献   

14.
中文电子病历NER是医疗信息抽取的难点。本文提出一种多任务学习的实体识别方法,联合实体识别和分词训练模型,使用基于Bi-LSTM的私有层提取专有信息,融合注意力网络作为共享层并增加通用特征增强机制来筛选全局信息,降低过拟合风险并增强模型的泛化能力。此外提出均衡样本过采样方法扩充数据集,有效解决实体类别不平衡所带来的问题。使用CCKS2017/CCKS2020电子病历实体识别语料和Medicine医药分词语料联合训练,实验结果显示本文提出的模型整体性能提升明显,同时也显著提高了Medicine语料的分词实验效果,F1值较基线提升了3个百分点。实验表明本文提出的模型能够有效改善因电子病历中数据不规范、无结构或专有名词等原因造成的实体切分错误等问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号