共查询到15条相似文献,搜索用时 78 毫秒
1.
传统人名消歧算法中,每类特征仅反映人物实体的部分信息,且不同聚类算法各有优缺点。本文提出了一种基于聚类集成的人名消歧算法。首先,从文本中提取上下文特征、实体特征、社会关系特征得到三个相似度矩阵,并对这三个相似度矩阵进行融合得到一个融合相似度矩阵;然后,把这四个相似度矩阵作为输入,利用不同的聚类算法得到不同的划分;最后,采用基于均方误差邻接矩阵聚类(Squared Error Adjacency Matrix Clustering,SEAM)算法对这些划分进行集成,实现人名消歧。在CLP2010人名消歧训练语料上进行实验,结果表明,新算法有效地提高了人名消歧的准确性和鲁棒性。 相似文献
2.
人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。 相似文献
3.
4.
人名歧义是一种身份不确定的现象,指的是文本中具有相同姓名的字符串指向现实世界中的不同实体人物。人名消歧很长时间一直是一个具有挑战性的问题,关注网页里的人名消歧的问题。因为经典的K-means算法如果选择了一个差的随机初始聚类中心,算法会遇到局部收敛的问题,所以文章提出一种基于最大最小原则的改进的K-means算法来进行人名消歧。同时使用了WePS的训练数据作为实验的语料。实验结果表明,改进的方法比层次聚类方法有着更好的性能。 相似文献
5.
6.
7.
8.
9.
10.
针对人物搜索的核心问题Web人名消歧进行了研究.根据网页的主题相关性和名字上下文噪音小等特性,提出一种基于主题模型LDA和上下文摘要相结合的Web人名消歧方法.实验证明该方法比一般的聚类方法具有更加良好的性能. 相似文献
11.
同名问题在大规模的数据库或者数字化图书馆中普遍存在,且困扰着许多研究课题。本文首先提出一种新的图结构——属性关系图(ARG)形象地刻画实体特征及实体间的联系,并给出一种基于属性关系图框架的同名区分算法ARG-Resolution,对共享同一名字的作者进行分析,根据他们之间的相似度将其聚类,最终得到对应真正实体的各个结果聚类。实验证明挖掘作者间的潜在连接进一步提高了同名区分的质量,成功解决了同名问题。 相似文献
12.
命名实体识别和歧义消解是自然语言理解的重要研究内容。针对提供实体知识库情况下的命名实体识别和歧义消解任务,该文提出了一种基于多步聚类的方法。首先通过两轮聚类将命名实体与知识库实体定义链接,然后通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于K-Means聚类的结果调整。在CLP-2012的汉语命名实体识别和歧义消解评测数据上的实验表明,该文的方法表现出良好的性能,在测试集上的F值高出评测参赛队伍最好水平6.46%,达到86.68%。 相似文献
13.
跨文本人名消歧是判断出现在不同文本的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要、信息融合等具体应用也有重要的作用。该文运用社会网络分析法消歧中文不同文本同名歧义问题,思想是先使用谱聚类对社会网络中的人名聚类,然后根据不同社会网络边权值和不同图划分准则对人名消歧效果的影响,引入了模块度阈值作为社会网络划分的停止条件。在CLP 2010的中文人名消歧数据上进行测试,显示了社会网络分析对人名消歧的有效性。 相似文献
14.