基于层次聚类的跨文本中文人名消歧研究 |
| |
作者姓名: | 张菲菲 李宗海 周晓辉 李晓戈 |
| |
作者单位: | 1.西安邮电大学,西安 710121
2.济南中林信息科技有限公司,济南 250100 |
| |
摘 要: | 人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。
|
关 键 词: | 人名消歧 信息抽取 相似度 层次聚类 |
本文献已被 CNKI 维普 等数据库收录! |
| 点击此处可从《计算机工程与应用》浏览原始摘要信息 |
|
点击此处可从《计算机工程与应用》下载全文 |
|