基于层叠隐马尔可夫模型的中文命名实体识别 |
| |
作者姓名: | 于鸿魁 张华平 刘群 吕学强 施水才 |
| |
作者单位: | 1. 中国科学院计算技术研究所,北京,100080;北京信息科技大学中文信息处理研究中心,北京,100101 2. 中国科学院计算技术研究所,北京,100080 3. 北京信息科技大学中文信息处理研究中心,北京,100101 |
| |
基金项目: | 科技部科研项目;计算技术研究所青年基金;中国科学院资助项目;北京市教委科技发展计划项目 |
| |
摘 要: | 提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。
|
关 键 词: | 命名实体识别 角色标注 |
文章编号: | 1000-436X(2006)02-0087-08 |
收稿时间: | 2005-11-15 |
修稿时间: | 2005-12-20 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《通信学报》浏览原始摘要信息 |
|
点击此处可从《通信学报》下载全文 |
|