首页 | 本学科首页   官方微博 | 高级检索  
     

结合决策树方法的中文姓名识别
引用本文:王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):11-16.
作者姓名:王振华  孔祥龙  陆汝占  刘绍明
作者单位:1.上海交通大学计算机科学与工程系2.富士施乐公司研究本部
基金项目:国家自然科学基金,日本富士施乐公司资助项目
摘    要:中文姓名识别是自然语言处理中专名识别的一个重要的子问题,本文将中文姓名的识别过程细分为三个步骤:抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息,在文本中抽取潜在的中文姓名,以及其相关的上下文词法、语法和语义特征,并将潜在姓名是否是真实姓名的判别看作是两分类问题,并利用决策树算法来实现初步判别,最后消除初步判别结果中的歧义现象。实验结果表明,该方法的召回率和准确率都可达到90%以上。

关 键 词:人工智能  自然语言处理  中文姓名识别  决策树  自然语言处理  
文章编号:1003-0077(2004)06-0010-06
修稿时间:2004年3月2日

Chinese Name Identification Integrated Decision Tree Learning
WANG Zhen-hua,KONG Xiang-long,LU Ru-zhan,LIU Shao-ming.Chinese Name Identification Integrated Decision Tree Learning[J].Journal of Chinese Information Processing,2004,18(6):11-16.
Authors:WANG Zhen-hua  KONG Xiang-long  LU Ru-zhan  LIU Shao-ming
Affiliation:1.Department of Computer Science and Engineering , ShangHai Jiaotong University2.Corporate Research Group ,Fuji Xerox , Co. , Ltd.
Abstract:Chinese person name identification is a subfield of Named Entity Identification in natural language processing. This identification is divided into three stages in this paper: extraction, classification, and disambiguation. The candidate Chinese person names are extracted using statistical information. The morphological, syntax, and semantic features of the context are also extracted to compose the sample of classification. The estimation of the candidate is deemed to classification. We classify every candidate using decision tree to distinguish whether it is a real Chinese person name. In the end, the inconsistency in classification is disambiguated. Recall and precision are all above 90% in experiments using this method.
Keywords:artificial intelligence  natural language processing  Chinese person name identification  decision tree  natural language processing
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号