首页 | 本学科首页   官方微博 | 高级检索  
     

利用地名用字分析的中文地名识别处理
引用本文:李诺,张全. 利用地名用字分析的中文地名识别处理[J]. 计算机工程与应用, 2009, 45(28): 230-232. DOI: 10.3778/j.issn.1002-8331.2009.28.069
作者姓名:李诺  张全
作者单位:中国科学院,研究生院,北京,100039;中国科学院,声学研究所,北京,100190;中国科学院,声学研究所,北京,100190
基金项目:国家重点基础研究发展规划(973),中科院声学所知识创新工程项目,中国科学院声学研究所所长择优基金,中国科学院青年人才领域前沿项目 
摘    要:对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。

关 键 词:中文地名识别  地名用字分析  最大熵
收稿时间:2008-06-02
修稿时间:2008-9-12 

Chinese place name identification with Chinese characters features
LI Nuo,ZHANG Quan. Chinese place name identification with Chinese characters features[J]. Computer Engineering and Applications, 2009, 45(28): 230-232. DOI: 10.3778/j.issn.1002-8331.2009.28.069
Authors:LI Nuo  ZHANG Quan
Affiliation:1.Graduate University of Chinese Academy of Sciences,Beijing 100039,China 2.Institute of Acoustics,Chinese Academy of Sciences,Beijing 100190,China
Abstract:This paper extracts the features from the Chinese place names and their context firstly,and then aggregates differernt features from different sources.Before setting feature functions,more information has been received by analyzing the Chinese characters features.This paper focuses on characters which are used frequently and how these characters matching with each other.Finally,it achieves an acceptable result by open test on real corpus.
Keywords:placename recognition  analysis of placename  maximum entropy
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号