首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 234 毫秒
1.
季红洁  赵知纬  钱龙华 《福建电脑》2012,28(11):10-12,45
跨文本指代消解研究是自然语言处理中的一个重点以及难点,是信息检索、信息抽取和多文档摘要等应用的重要组成部分。传统的跨文本指代消解主要解决信息检索中遇到的重名消歧问题。本文从信息抽取的角度出发,旨在解决信息抽取过程中的重名消歧和多名聚合两大跨文本指代消解任务。本文在一个基于ACE2005中文语料库标注的中文跨文本指代语料库上,利用空间向量模型进行面向信息抽取的跨文本指代消解。  相似文献   

2.
中文信息处理是NLP(自然语言处理)的一个组成部分,它是研究自然语言的学科,它和其他学科如计算机学,文学,理工学等有着一定的综合联系。中文跨文本指代消解是中文信息处理的核心技术,是提高信息抽取和信息检索正确率的基础,主要任务是解决重名消歧和多名聚合两大问题。该文从基本概念入手,描述在语言处理中典型的指代现象和指代消解所需的基本语言知识;同时简单介绍指代消解中商用的算法和技术。  相似文献   

3.
跨文本指代(CrossDocumentCoreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用“多名困惑度”和“重名困惑度”两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。  相似文献   

4.
基于网页文本依存特征的人名消歧   总被引:1,自引:0,他引:1       下载免费PDF全文
研究互联网中的人名消歧问题.抽取与网页文本中人名关键字实体相关的依存特征及命名实体等辅助特征,利用二层聚类算法,根据依存特征将可信度高的文档聚类,使用辅助特征将剩余文档加到现有聚类结果中,由此实现人名消歧.实验结果证明,该方法消歧效果优于其他人名消歧方法.  相似文献   

5.
针对现有很多基于人物属性特征的人名消歧方法不适用于文本本身特征稀疏的问题,提出一种基于句义结构分析中文人名消歧方法。通过句义结构分析提取人物关系特征词,根据提取关系特征构建社会关系图,并以人名实体的职业和所在单位等人物属性作为辅助特征,结合实体的特征信息进行关系聚类,将聚类的结果映射到文本中以实现人名消歧。通过句义结构分析提高了人物关系特征以及人物属性特征的准确率,实验结果表明,该方法可有效地提高中文人名消歧准确率。  相似文献   

6.
重名问题在Web人物搜索过程中是很普遍的现象.研究了Web人名消歧相关问题,提取与待消歧人名相关的不同特征集,运用向量空间模型构造人物实体的组合特征,最后通过层次聚类算法将相似度高的文档优先聚类,由此实现人名消歧.在WePS数据集上的实验结果表明,提出的方法具有良好的消歧效果.  相似文献   

7.
该文针对中文实体消歧中的特征项部分匹配和协同消歧问题,提出基于特征加权重叠度的中文实体协同消歧方法。该方法利用实体指称上下文中多种特征的加权重叠度计算实体指称相似度,针对实体链接与消歧聚类约束,分类定义实体指称相似度计算方法,构建待消歧实体相似度矩阵,采用近邻传播聚类算法实现中文实体协同链接与消歧。基于CLP-2012评测数据的实验表明,提出的方法取得了较好的消歧效果,准确率、召回率和F值分别达到了84.01%、87.75%和85.65%。  相似文献   

8.
人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。  相似文献   

9.
跨文本人名消歧是判断出现在不同文本的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要、信息融合等具体应用也有重要的作用。该文运用社会网络分析法消歧中文不同文本同名歧义问题,思想是先使用谱聚类对社会网络中的人名聚类,然后根据不同社会网络边权值和不同图划分准则对人名消歧效果的影响,引入了模块度阈值作为社会网络划分的停止条件。在CLP 2010的中文人名消歧数据上进行测试,显示了社会网络分析对人名消歧的有效性。  相似文献   

10.
传统人名消歧算法中,每类特征仅反映人物实体的部分信息,且不同聚类算法各有优缺点。本文提出了一种基于聚类集成的人名消歧算法。首先,从文本中提取上下文特征、实体特征、社会关系特征得到三个相似度矩阵,并对这三个相似度矩阵进行融合得到一个融合相似度矩阵;然后,把这四个相似度矩阵作为输入,利用不同的聚类算法得到不同的划分;最后,采用基于均方误差邻接矩阵聚类(Squared Error Adjacency Matrix Clustering,SEAM)算法对这些划分进行集成,实现人名消歧。在CLP2010人名消歧训练语料上进行实验,结果表明,新算法有效地提高了人名消歧的准确性和鲁棒性。  相似文献   

11.
针对知识库中存在单条实体定义特征稀疏和人工设置相似度阈值适用性不强的问题,本文提出了一种基于分步聚类的人名消歧算法。首先,将知识库中人名实体定义的人物属性特征作为查询特征,利用文本检索的方式实现基于知识库的初次聚类,弥补了知识库中单条实体定义中特征稀疏的问题;然后,利用初次聚类的结果,采用基于自适应阈值的凝聚层次聚类算法实现知识库人名消歧;最后,采用条件随机场进行Other类识别,利用基于自适应阈值的凝聚层次聚类完成S类聚类,从而实现非知识库人名消歧。在CLP2012的中文人名消歧评测语料上进行实验,结果表明本文的算法能够有效地对人名进行消歧。  相似文献   

12.
框架消歧指的是在给定的句子中根据目标词的上下文语境,自动识别出有歧义的目标词所属的框架。针对传统FrameNet框架消歧方法使用单一分类模型时没有考虑到目标词之间的联系而导致隐性特征难以被提取,以及分类结果比较依赖分类模型的性能及参数的设置的问题,提出了一种基于SVM和CRF双层模型的FrameNet框架消歧方法。该方法利用分治思想将框架消歧问题转化为对目标词的分类及序列标注。第一层SVM模型对输入的语料进行粗分类,得到分类标签序列;第二层CRF模型将文本序列和SVM模型的分类标签序列作为输入,将分类标签加入特征模板进一步进行序列标注。实验选取了FrameNet语义知识库中能够激起多个框架的18个词元,2?614条例句作为实验数据。实验结果显示,与传统方法相比,基于SVM和CRF的双层模型有较高的准确率,证明了该方法是一种较为适用的FrameNet框架消歧方法。  相似文献   

13.
研究客户重名消解问题。针对以往重名消解方法如文本聚类的方法需考虑大量无用词汇并需要人工设定阈值以及类别数量,而基于信息抽取的人物相关属性相似度方法对于人物信息的抽取具有依赖性,提出了一种改进的重名消解算法。该算法首先对具有相同标志的客户进行属性匹配,合并匹配成功的标志;然后进行链接分析,对客户合作网的结构进行分析,将具有相同标志并与同一个代理人实体合作的客户归为一个客户实体,并把具有相同合作对的信息加以分析合并;最后通过原子团簇分析法进行聚类分析。仿真实验结果表明,所提改进算法对中文字符串的匹配处理进行了优化,执行效率高,适合于以大量数据为特征的保险领域的重名消解。  相似文献   

14.
Personal name disambiguation is an important task in social network extraction, evaluation and integration of ontologies, information retrieval, cross‐document coreference resolution and word sense disambiguation. We propose an unsupervised method to automatically annotate people with ambiguous names on the Web using automatically extracted keywords. Given an ambiguous personal name, first, we download text snippets for the given name from a Web search engine. We then represent each instance of the ambiguous name by a term‐entity model (TEM), a model that we propose to represent the Web appearance of an individual. A TEM of a person captures named entities and attribute values that are useful to disambiguate that person from his or her namesakes (i.e., different people who share the same name). We then use group average agglomerative clustering to identify the instances of an ambiguous name that belong to the same person. Ideally, each cluster must represent a different namesake. However, in practice it is not possible to know the number of namesakes for a given ambiguous personal name in advance. To circumvent this problem, we propose a novel normalized cuts‐based cluster stopping criterion to determine the different people on the Web for a given ambiguous name. Finally, we annotate each person with an ambiguous name using keywords selected from the clusters. We evaluate the proposed method on a data set of over 2500 documents covering 200 different people for 20 ambiguous names. Experimental results show that the proposed method outperforms numerous baselines and previously proposed name disambiguation methods. Moreover, the extracted keywords reduce ambiguity of a name in an information retrieval task, which underscores the usefulness of the proposed method in real‐world scenarios.  相似文献   

15.
本文提出了一种适用于中文文献索引数据的实体解析方法.区别于新近的属性 链接结构的聚类方法,本方依据实际问题的特点采用了先属性匹配,然后基于文献合作网络的结构解析的策略.该方法在真实的大数据量文献索引数据上运行获得了良好的效果,并已经运用于数字图书馆的检索系统.  相似文献   

16.
命名实体识别和歧义消解是自然语言理解的重要研究内容。针对提供实体知识库情况下的命名实体识别和歧义消解任务,该文提出了一种基于多步聚类的方法。首先通过两轮聚类将命名实体与知识库实体定义链接,然后通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于K-Means聚类的结果调整。在CLP-2012的汉语命名实体识别和歧义消解评测数据上的实验表明,该文的方法表现出良好的性能,在测试集上的F值高出评测参赛队伍最好水平6.46%,达到86.68%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号