首页 | 本学科首页   官方微博 | 高级检索  
     

中文实体关系抽取中的特征选择研究
引用本文:董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-91.
作者姓名:董静  孙乐  冯元勇  黄瑞红
作者单位:1. 中国科学院软件研究所中文信息处理中心,北京100080 ; 2. 中国科学院研究生院,北京100049
摘    要:命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测

关 键 词:计算机应用  中文信息处理  实体关系抽取  包含关系  非包含关系  特征选择  ACE评测
文章编号:1003-0077(2007)04-0080-06
收稿时间:2007-03-23
修稿时间:2007-03-232007-04-16

Chinese Automatic Entity Relation Extraction
DONG Jing,SUN Le,FENG Yuan-yong,HUANG Rui-hong.Chinese Automatic Entity Relation Extraction[J].Journal of Chinese Information Processing,2007,21(4):80-91.
Authors:DONG Jing  SUN Le  FENG Yuan-yong  HUANG Rui-hong
Affiliation:1. Chinese Information Processing Center , Institute of Sof tware , Chinese Academy of Sciences , Beijing 100080 , China ; 2. Graduate University of Chinese Academy of Sciences , Beijing 100049 , China
Abstract:Entity Relation Extraction is one of the important research fields in Information Ext raction. This paper present s a novel method through dividing the entity relations into two categories : embedding relations and non-embedding relations. After some simple experiments , we discover that some syntactic features have explicitly different effects on the identification of the two kinds of relations. So two different set of syntactic features are suggested to extract the two categories. Experiment s show that the new method achieves an improved performance on the ACE2007 Corpus for Chinese entity relation extraction task.
Keywords:computer application  chinese information processing  automatic entity relation extraction  embedding entity relation  non-embedding  entity relation  feature selection  ACE evaluation
本文献已被 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号