首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 278 毫秒
1.
针对自然语言处理中的中文命名实体消歧问题,提出一种基于异构知识库的层次聚类方法。利用中文信息抽取系统对中文维基百科等知识库进行抽取,形成包含人物信息、实体关系的实体信息对象,并在Hadoop平台上用分布式计算进行层次聚类,研究人物实体特征的选取和维基百科等知识库的使用对命名实体消歧结果的影响。结果表明加入百科知识库后,F值从91.33%增加到了92.68%。  相似文献   

2.
将实体搜索技术应用于中文专利摘要文本,并在实体搜索过程中使用了实体消歧技术,得到用户最关注的实体相关信息。在充分分析了专利摘要文本的特点的基础上,提出一种面向专利实体的消歧方法。使用基于IPC和向量空间模型的词向量表示法,结合凝聚式层次聚类算法,得到专利实体消歧结果。根据对比实验的结果能够得出结论,本方法能够实现准确的实体消歧,评测结果高达78.9%。  相似文献   

3.
为了消除文本中命名实体的歧义,提出了一种结合实体链接与实体聚类的命名实体消歧算法,结合2种方法,可弥补单独使用其中一种方法的局限. 该算法在背景文本中将待消歧实体指称扩充为全称,使用扩充后的全称在英文维基百科知识库中生成候选实体集合,同时提取多种特征对候选实体集合进行排序,对于知识库中没有对应实体的指称使用聚类消歧. 实验结果表明,该算法在KBP2011评测数据上的F值为0.746,在KBP2012评测数据上的F值为0.670.  相似文献   

4.
军事实体关系抽取是军事信息抽取的主要任务之一,目的在于识别非结构化军事文本中两个命名实体的关系类别。传统的军事关系抽取方法难以解决人工特征不充分、军事领域中文分词不准确以及未能充分利用句子间的实体关系特征等问题。因此,提出了一种融合预训练语言模型(BERT)和注意力机制的军事关系识别方法。该方法能够有效学习上下文语义特征,提高句子的语义特征表达能力。构建一定数量的军事文本语料集,在此基础上的实验结果表明,与多个基线模型相比,所提出的模型抽取效果更优。  相似文献   

5.
职业是人物实体的代表性特征,能够有效地区分人物实体。传统人名消歧算法仅把职业当作一个普通的特征,忽视了它的重要性。针对以上问题,提出了基于职业特征的人名消歧算法。首先通过互联网手动构建基础职业词典;其次以维基百科的所有中文页面为训练语料,通过词激活力模型扩展基础职业词典得到职业特征词典;然后从文本中提取职业特征,并抽取人名和作品名作为其补充特征,弥补文本中职业特征缺失和同一人物具有多个职业的问题;最后采用凝聚层次聚类实现人名消歧。在CLP2010的人名消歧训练语料上进行实验,结果表明文章算法能够有效地实现人名消歧。  相似文献   

6.
针对中文电子病历命名实体识别过程中文本语义表示不充分、特征抽取效率低等缺陷,提出一种融合多特征和迭代扩张卷积的命名实体识别方法。该方法首先构建基于卷积神经网络(CNN)的字嵌入算法,将生成的字向量与词向量等外部特征信息融合后送入迭代扩张卷积神经网络(IDCNN)中进行特征抽取,引入注意力机制加强序列间依赖关系,最后通过CRF解码最优标签序列。该方法在CCKS2017中文电子病历数据集中取得了91.36%的F1值,识别性能优于现有方法,同时验证了融合多特征的语义表示对中文实体识别有一定性能提升。  相似文献   

7.
实体关系抽取作为信息抽取的核心任务和重要环节,能够实现实体对间语义关系的识别,对句子语义理解及实体语义知识库构建有着重要作用。回顾了实体关系抽取的发展史,总结了有监督实体关系抽取、无监督实体关系抽取、半监督实体关系抽取和开放式实体关系抽取4类方法的原理和代表性研究,并对各类方法进行了详细比较。  相似文献   

8.
提出了一种基于语义网络结构的词义消歧方法。将文本片段中出现词的所有词义都看作节点,将两个词的任意两个词义之间的语义关系看作弧,将语义关系的紧密程度看作弧的权重,从而构成一个无向赋权网络;将Google的网页分级(PageRank)算法应用到无向赋权图中,评价网络中节点的重要性,并结合共指词义和词义的常用程度,对文本中出现的名词进行消歧。实验证明了该方法对文本进行词义消歧是有效的。  相似文献   

9.
提出了一种基于语义网络结构的词义消歧方法。将文本片段中出现词的所有词义都看作节点,将两个词的任意两个词义之间的语义关系看作弧,将语义关系的紧密程度看作弧的权重,从而构成一个无向赋权网络;将Google的网页分级(PageRank)算法应用到无向赋权图中,评价网络中节点的重要性,并结合共指词义和词义的常用程度,对文本中出现的名词进行消歧。实验证明了该方法对文本进行词义消歧是有效的。  相似文献   

10.
从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键.针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法.首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,...  相似文献   

11.
基于实体词语义相似度的中文实体关系抽取   总被引:1,自引:1,他引:0  
为了探索语义相似度在中文实体关系抽取上的作用,提出由实体词在《同义词词林》中的5层编码构建成的《同义词词林》编码树和由关系实例中的实体词,各个类别中所有实体词计算相似度后求得的平均值构建成的实体词语义相似度树2种新特征,并连同已有的《同义词词林》编码、实体类型信息共4种特征探究其对抽取性能的影响。单一特征的试验中,实体类型特征效果最好,F值达到了小类84.9、大类83.2;组合特征的试验中,实体类型和《同义词词林》编码树的组合特征效果最好,大类小类的F值都比实体类型特征提高了2.5,3种组合特征性能不升反降。试验结果表明《同义词词林》编码树是对实体类型的有效补充,但过多的特征会造成信息冗余,使抽取性能下降。  相似文献   

12.
基于自扩展与最大熵的领域实体关系自动抽取   总被引:2,自引:2,他引:0  
实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。  相似文献   

13.
传统中文实体关系抽取方法大都采用基于共现实体对的上下文模型,这种模型会遗失很多潜在的实体关系,并且无法对相似的实体关系给出合理的描述信息。针对这一局限性,文章提出一种基于单实体的上下文语言模型。通过对文本集中的所有实体建立上下文语言模型,来计算实体之间的相似度以及上下文词汇的贡献度得分,从而发现相似度较高的实体对,并获得实体关系的描述信息。实验证明,与传统方法相比,本文方法能够发现更丰富的实体关系,描述信息也更加准确。  相似文献   

14.
针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。  相似文献   

15.
歧义字段处理一直是中文信息处理领域中最关键也是最困难的问题之一,至今该问题仍没有得到完全而有效的解决,使得以此为基础的多个应用领域都难以取得突破性进展。传统的消歧方法--规则消歧和统计消歧都有不可避免的缺点:规则消歧存在规则的完备性与合理性问题,统计消歧则只取大概率事件而忽视小概率事件。在研究了知网表达汉语知识的基础上,改进了基于知网语义相关度的计算模型,并应用于汉语的歧义字段处理中。经大量例句作实验,以句子为单位的切分正确率可达到97.1%,验证了该消歧方法的有效性。  相似文献   

16.
为研究中韩双语实体自动对齐方法,提出了一种融合图注意力网络(GAT)和基于超平面平移的知识图谱嵌入模型(TransH)的跨语言实体对齐模型.使用中韩实体数据集对模型进行验证表明,该模型的Hits@1、Hits@5和Hits@10在韩文对齐中文时分别达到了49.62%、 80.89%和91.76%, 在中文对齐韩文时分别达到49.79%、 80.74%和91.67%, 且优于传统的基于知识嵌入或图嵌入的对齐方法.因此该模型可为构建中韩对齐知识图谱以及其他语言的对齐知识图谱提供参考.  相似文献   

17.
针对材料领域没有适合材料实体关系抽取技术研究工作的公开数据集这一问题,通过研究高硅铝合金喷射沉积文献提出铝硅合金实体关系抽取数据集的构建方法. 在材料领域专家的指导下制定铝硅合金实体关系抽取数据集的构建标准,并根据构建标准对收集的数据进行实体标注和关系标注. 在标注完成后,通过数据预处理生成铝硅合金实体关系抽取数据集. 通过实体关系联合抽取模型进行实验,验证该数据集可以应用于实体关系抽取任务. 与公开数据集相比,材料数据集句子的语义和语法更为复杂,长句更多,导致实体关系联合抽取模型在材料数据集上的表现略差. 针对上述问题,在实体关系联合抽取模型上加入自注意力机制,使该模型整体的F1值提高了约5.8%. 该数据集的构建方法具有普适性,可以通过该构建方法构建材料数据集.  相似文献   

18.
受到空洞卷积的启发提出面向二维文本嵌入的列式空洞卷积,设计空洞卷积块架构,基于此架构提出命名实体识别模型并开展进一步试验。在命名实体识别试验中,提出的模型的精密度、召回率和F1超越了其他基线模型,分别达到了0.918 7、0.879 4和0.898 6,表明空洞卷积块架构能够获取包含更多上下文信息的文本特征,从而支持模型对上下文长距离依赖特征的捕获和处理。感受野试验表明需要适当调整空洞率以减轻空洞卷积给模型带来的“网格效应”。提出的基于空洞卷积块架构能有效执行命名实体识别任务。  相似文献   

19.
为了解决在抽取过程中出现的关系三元组重叠问题,提出了一种基于位置辅助标记的实体关系联合抽取模型,使用BERT作为预训练语言模型,并且通过位置辅助矩阵方法,将关系三元组抽取转换成实体和关系的匹配问题,实现实体和关系的联合抽取,在中文数据集DuIE上进行了相关实验。实验结果表明,该模型抽取效果较好,提出的基于位置的辅助标记方法有效解决了关系重叠问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号