中文实体关系抽取中的特征选择研究 |
| |
作者姓名: | 董静 孙乐 冯元勇 黄瑞红 |
| |
作者单位: | 1. 中国科学院软件研究所中文信息处理中心,北京100080 ; 2. 中国科学院研究生院,北京100049 |
| |
摘 要: | 命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测
|
关 键 词: | 计算机应用 中文信息处理 实体关系抽取 包含关系 非包含关系 特征选择 ACE评测 |
文章编号: | 1003-0077(2007)04-0080-06 |
收稿时间: | 2007-03-23 |
修稿时间: | 2007-03-232007-04-16 |
本文献已被 维普 万方数据 等数据库收录! |
| 点击此处可从《中文信息学报》浏览原始摘要信息 |
|
点击此处可从《中文信息学报》下载全文 |
|