基于自学习的汉语开放域命名实体边界识别 |
| |
作者姓名: | 付瑞吉 秦兵 刘挺 |
| |
作者单位: | 哈尔滨工业大学计算机科学与技术学院; |
| |
基金项目: | 国家自然科学基金(61133012,61273321);国家高技术研究发展计划(863)前沿技术研究项目(2012AA011102) |
| |
摘 要: | 命名实体识别是自然语言处理领域的一个重要任务,为许多上层应用提供支持。本文主要研究汉语开放域命名实体边界的识别。由于目前该任务尚缺乏训练语料,而人工标注语料的代价又太大,本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。实验结果表明自学习的方法可以提高边界识别的准确率和召回率。
|
关 键 词: | 开放域命名实体识别 自学习 训练语料融合 |
本文献已被 CNKI 等数据库收录! |
|