首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
赵畅  李慧颖 《中文信息学报》2019,33(11):125-133
面向知识库问答的实体链接是指将自然语言问句中实体指称链接到知识库中实体的方法。目前主要面临两个问题: 第一是自然语言问句短,实体指称上下文不充分;第二是结构化知识库中实体的文本描述信息少。因此,该文提出了分别利用候选实体的类别、关系和邻近实体作为候选实体表示的方法,弥补知识库实体描述信息不足的问题。同时,通过语料训练得到问句指称的相似实体指称作为其背景知识。最后,结合实体流行度,共同作为实体消歧的特征。实验结果表明,上述提到所有特征的线性组合在数据集上高于单个特征的结果,表现最佳。  相似文献   

2.
实体链接是指将文本中具有歧义的实体指称项链接到知识库中相应实体的过程。该文首先对实体链接系统进行了分析,指出实体链接系统中的核心问题—实体指称项文本与候选实体之间的语义相似度计算。接着提出了一种基于图模型的维基概念相似度计算方法,并将该相似度计算方法应用在实体指称项文本与候选实体语义相似度的计算中。在此基础上,设计了一个基于排序学习算法框架的实体链接系统。实验结果表明,相比于传统的计算方法,新的相似度计算方法可以更加有效地捕捉实体指称项文本与候选实体间的语义相似度。同时,融入了多种特征的实体链接系统在性能上获得了达到state-of-art的水平。  相似文献   

3.
风险领域实体关系抽取是扩充现有知识图谱与泛化知识工程应用的关键问题.当前特定领域实体关系抽取面临人工标注语料的严重依赖、实体间关系的交叉互联以及远程监督标注存在噪声数据等核心难题,简单的解决方案是运用风险领域已有的知识图谱作为指导.然而,相比通用领域知识图谱,风险领域知识图谱的规模往往较小,难以满足当前领域实体关系抽取的知识需求.因此,本文既要利用已有的风险领域知识图谱,又要充分挖掘蕴含于领域文本数据中规律性的风险知识.本文提出基于知识图谱与文本互注意力的风险领域实体关系抽取方案.首先,根据已有的知识图谱抽象出风险领域实体关系及其约束条件;其次,运用少量高质的实体关系与大规模风险领域语料训练知识图谱与文本的互注意力机制模型,并融合文本表示学习与深度神经网络的方法进行风险领域实体关系的抽取.最后,针对给定的领域文本数据,综合关系约束与关系抽取结果得出风险领域实体关系类型.本文以风险领域数据为例,仅用少量的领域知识,即可获取较好的实体关系抽取效果.  相似文献   

4.
实体关系语料库是信息抽取领域的基础数据资源,其规模和质量直接影响信息抽取深度学习模型的效果。目前建立的特定领域语料库在重叠关系方面的研究较少,且现有方法需要高昂的人工标注成本。该文融合已有的基于实体识别和触发词规则的语料标注算法,基于自定义关系schema实现网络文本中重叠关系的自动标注。首先,借助特定领域专业词典进行命名实体识别,构造命名实体集;然后根据自定义关系模式schema和依存句法分析进行特征词聚类,构造触发词词典;最后,基于命名实体集和触发词词典进行语料回标。该算法有效减少了人工标注量,标注速度快,标注后的语料规模较大,有效提取重叠关系信息,为特定领域信息抽取扩充语料库提供了可行方案。同时,该文探讨了数据源可用性,评价了标注质量并对语料库进行了统计分析。实验结果显示,该方法总体回标成功率为76.7%,总体关系标注准确率为85.8%,利用基础重叠关系抽取模型进行实验,实验结果F1值达到93.68%。  相似文献   

5.
知识库问答实体链接任务需要将问句内容精准链接到知识库中实体.当前方法大多难以兼顾链接实体的召回率和精确率,并且仅能根据文本信息对实体进行区分筛选.因此,文中在合并子步骤的基础上,提出融合多维度特征的知识库问答实体链接模型(MDIIEL).通过表示学习方法,将文本符号、实体和问句类型、实体在知识库中语义结构表达等信息整合并引至实体链接任务中,加强对相似实体的区分,在提高准确率的同时降低候选集的大小.实验表明,MDIIEL模型在实体链接任务性能上具有整体性提升,在大部分指标上取得较优的链接结果.  相似文献   

6.
在语义标注过程中,为了消除文本中给定的命名实体与知识库中实体映射过程中出现的歧义问题,提出了一种基于上下文信息相似度值排序的命名实体消歧方法。消岐方法包括实体表示预处理、候选实体列表构建和相似度值排序算法三部分。针对命名实体指称多样性问题,使用实体表示预处理方法抽取标准实体。然后利用中文在线百科构建语义知识库,得到标准实体的语义列表。同时提出利用相似度值排序方法解决标准实体与语义列表映射的指称歧义性问题,对于在知识库中未找到语义的实体采用HAC聚类算法进行消岐处理。实验结果表明,本文提出的方法能够有效的把中文网页真实数据集中文本的实体映射到知识库中对应无歧义的实体上。  相似文献   

7.
针对为检索服务的语义知识库存在的内容不全面和不准确的问题,提出一种基于维基百科的软件工程领域概念语义知识库的构建方法;首先,以SWEBOK V3概念为标准,从维基百科提取概念的解释文本,并抽取其关键词表示概念的语义;其次,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库;接着, LDA主题模型分别和TF-IDF算法、TextRank算法相结合的两种方法抽取关键词;最后,对构建好的概念语义知识库用随机游走算法计算概念间的语义相似度;将实验结果与人工标注结果对比发现,本方法构建的语义知识库语义相似度准确率能够达到84%以上;充分验证了所提方法的有效性。  相似文献   

8.
针对Skip-gram词向量计算模型在处理多义词时只能计算一个混合多种语义的词向量,不能对多义词不同含义进行区分的问题,文中提出融合词向量和主题模型的领域实体消歧方法.采用词向量的方法从背景文本和知识库中分别获取指称项和候选实体的向量形式,结合上下位关系领域知识库,进行上下文相似度和类别指称相似度计算,利用潜在狄利克雷分布(LDA)主题模型和Skip-gram词向量模型获取多义词不同含义的词向量表示,抽取主题领域关键词,进行领域主题关键词相似度计算.最后融合三类特征,选择相似度最高的候选实体作为最终的目标实体.实验表明,相比现有消歧方法,文中方法消歧结果更优.  相似文献   

9.
在生物医学文本挖掘领域,生物医学的命名实体和关系抽取具有重要意义.然而目前中文生物医学实体关系标注语料十分稀缺,这给中文生物医学领域的信息抽取任务带来许多挑战.该文基于深度学习技术搭建了中文生物医学实体关系抽取系统.首先利用公开的英文生物医学标注语料,结合翻译技术和人工标注方法构建了中文生物医学实体关系语料.然后在结合...  相似文献   

10.
实体消歧作为自然语言处理的关键问题,旨在将文本中出现的歧义实体指称映射到知识库中的目标实体。针对现有方法存在仅实现单实体指称消歧、忽略了实体影响力及候选实体间相似度对消歧结果的影响以及冗余图节点增加图计算复杂性等问题,提出了一种融合多特征图及实体影响力的领域实体消歧方法,以金融领域为例,提取CN-Dbpedia中金融类别相关关键词三元组,构建金融领域知识库;针对金融活动类文本,提取待消歧实体指称,融合字符串及语义的相似特征,筛选出候选实体,利用知识库三元组信息获取候选实体间2-hop内的关系,同时计算候选实体间相似度作为边权值,进而将多特征信息充分融合到图模型当中,完成多特征图构建;采用动态决策策略,利用PageRank算法,并结合实体影响力计算多特征图中候选实体的综合评分,进而获得可信度较高的消歧结果。实验结果验证了提出方法在特定领域实体消歧的精确度及效率。  相似文献   

11.
近年来,知识表示学习已经成为知识图谱领域研究的热点。为了及时掌握当前知识表示学习方法的研究现状,通过归纳与整理,将具有代表性的知识表示方法进行了介绍和归类,主要分为传统的知识表示模型、改进的知识表示模型、其他的知识表示模型。对每一种方法解决的问题、算法思想、应用场景、评价指标、优缺点进行了详细归纳与分析。通过研究发现,当前知识表示学习主要面临关系路径建模、准确率、复杂关系处理的挑战。针对这些挑战,展望了采用关系的语义组成来表示路径、采用实体对齐评测指标、在实体空间和关系空间建模,以及利用文本上下文信息以扩展KG的语义结构的解决方案。  相似文献   

12.
文本表示是自然语言处理中的基础任务,针对传统短文本表示高维稀疏问题,提出1种基于语义特征空间上下文的短文本表示学习方法。考虑到初始特征空间维度过高,通过计算词项间互信息与共现关系,得到初始相似度并对词项进行聚类,利用聚类中心表示降维后的语义特征空间。然后,在聚类后形成的簇上结合词项的上下文信息,设计3种相似度计算方法分别计算待表示文本中词项与特征空间中特征词的相似度,以形成文本映射矩阵对短文本进行表示学习。实验结果表明,所提出的方法能很好地反映短文本的语义信息,能对短文本进行合理而有效的表示学习。  相似文献   

13.
实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。  相似文献   

14.
事件检测任务的目标是从文本中自动获取结构化的事件信息。目前基于表示学习的神经事件检测方法能够有效利用潜在语义信息,但人工标注数据集的语义知识含量有限,制约了神经网络模型的认知广度。相对地,多任务表示学习框架,有助于模型同时学习不同任务场景中的语义知识,从而提升其认知广度。BERT预训练模型得益于大规模语言资源的充沛语义信息,具有高适应性(适应不同任务)的语义编码能力。因此,该文提出了一种基于BERT的多任务事件检测模型。该方法将BERT已经包含的语义知识作为基础,进一步提升多任务模型的表示、学习和语义感知能力。实验表明,该方法有效提高了事件检测的综合性能,其在ACE2005语料集上事件分类的F1值达到了76.7%。此外,该文在实验部分对多任务模型的训练过程进行了详解,从可解释性的层面分析了多任务架构对事件检测过程的影响。  相似文献   

15.
刘晓聪  王华珍  何霆  缑锦  陈坚 《计算机应用研究》2021,38(7):1930-1936,1946
为了及时掌握医学文本表示学习的研究现状,对其现有研究进行系统全面综述.首先,基于技术范式对现有技术进行分类,分别从基于统计学习的方法、基于知识图谱表示的方法和基于图表示的方法,对医学文本表示学习主流方法和相应的代表性成果进行总结.然后,提出了运用定量和定性的质量评测体系,系统地梳理和总结了医学文本表示学习的质量评测方法.最后,对医学文本表示学习的研究趋势进行了展望.  相似文献   

16.
王勇超  杨英宝  曹钰  邢卫 《计算机应用研究》2021,38(5):1327-1330,1343
针对现有的知识库关系检测任务对于一些不可见关系无法做到准确的向量表示而出现词汇溢出的问题,提出了基于对抗学习和全局知识信息的关系检测模型。该模型使用对抗学习对知识库关系表示模型进行特征强化,使用TransH(translating on hyperplanes)模型提取全局知识信息,同时通过联合训练,将全局知识信息融合进关系表示模型中,进一步提升关系模型的表示能力。实验结果表明,提出的融合模型对于关系检测效果有一定的提升,并且缓解了词汇溢出的问题。  相似文献   

17.
词向量在自然语言处理中起着重要的作用,近年来受到越来越多研究者的关注。然而,传统词向量学习方法往往依赖于大量未经标注的文本语料库,却忽略了单词的语义信息如单词间的语义关系。为了充分利用已有领域知识库(包含丰富的词语义信息),文中提出一种融合语义信息的词向量学习方法(KbEMF),该方法在矩阵分解学习词向量的模型上加入领域知识约束项,使得拥有强语义关系的词对获得的词向量相对近似。在实际数据上进行的单词类比推理任务和单词相似度量任务结果表明,KbEMF比已有模型具有明显的性能提升。  相似文献   

18.
目前大多数知识图谱表示学习只考虑实体和关系之间的结构知识,性能受存储知识的限制,造成知识库补全能力不稳定,而融入外部信息的知识表示方法大多只针对某一特定的外部模态信息建模,适用范围有限.因此,文中提出带有注意力模块的卷积神经网络模型.首先,考虑文本和图像两种外部模态信息,提出三种融合外部模态信息和实体的方案,获得实体的...  相似文献   

19.
Automatic text summarization (ATS) has recently achieved impressive performance thanks to recent advances in deep learning and the availability of large-scale corpora. However, there is still no guarantee that the generated summaries are grammatical, concise, and convey all salient information as the original documents have. To make the summarization results more faithful, this paper presents an unsupervised approach that combines rhetorical structure theory, deep neural model, and domain knowledge concern for ATS. This architecture mainly contains three components: domain knowledge base construction based on representation learning, the attentional encoder–decoder model for rhetorical parsing, and subroutine-based model for text summarization. Domain knowledge can be effectively used for unsupervised rhetorical parsing thus rhetorical structure trees for each document can be derived. In the unsupervised rhetorical parsing module, the idea of translation was adopted to alleviate the problem of data scarcity. The subroutine-based summarization model purely depends on the derived rhetorical structure trees and can generate content-balanced results. To evaluate the summary results without golden standard, we proposed an unsupervised evaluation metric, whose hyper-parameters were tuned by supervised learning. Experimental results show that, on a large-scale Chinese dataset, our proposed approach can obtain comparable performances compared with existing methods.  相似文献   

20.
Entity linking(EL)systems aim to link entity mentions in the document to their corresponding entity records in a reference knowledge base.Existing EL approaches usually ignore the semantic correlation between the mentions in the text,and are limited to the scale of the local knowledge base.In this paper,we propose a novel graphranking collective Chinese entity linking(GRCCEL)algorithm,which can take advantage of both the structured relationship between entities in the local knowledge base and the additional background information offered by external knowledge sources.By improved weighted word2vec textual similarity and improved PageRank algorithm,more semantic information and structural information can be captured in the document.With an incremental evidence mining process,more powerful discrimination capability for similar entities can be obtained.We evaluate the performance of our algorithm on some open domain corpus.Experimental results show the effectiveness of our method in Chinese entity linking task and demonstrate the superiority of our method over state-of-the-art methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号