首页 | 本学科首页   官方微博 | 高级检索  
     

基于篇章的中文地名识别研究
引用本文:唐旭日,陈小荷,许超,李斌. 基于篇章的中文地名识别研究[J]. 中文信息学报, 2010, 24(2): 24-33
作者姓名:唐旭日  陈小荷  许超  李斌
作者单位:南京师范大学 文学院,江苏 南京 210097
基金项目:国家863高科技计划资助项目(2007AA12Z221);;国家社会科学基金资助项目(07BYY050);;国家自然科学基金资助项目(60773173)
摘    要:该文介绍了以篇章为单位的中文地名识别方法和系统实现。地名识别包括简单地名识别和复杂地名识别两个阶段。简单地名识别由基于条件随机场的识别模块和基于篇章地名关系的识别模块顺序构成,以原始文本为输入,直接利用地名内部结构和相邻字信息进行地名识别和文本分词,然后利用篇章地名关系和地名性判断进一步处理。复杂地名识别以简单地名识别结果为输入,采用条件随机场识别。系统在封闭测试和开放测试中F-1值分别达到92.87%和89.76%。研究发现,在地名性判断中地名确信度低的字串对于地名识别干扰性较大,篇章地名关系能够在不降低识别精确度的情况下有效提高召回率,综合利用地名短距离和长距离依存关系可以有效提高地名识别效果。

关 键 词:计算机应用  中文信息处理  篇章地名关系  条件随机场  地名性判断  

Discourse-Based Chinese Location Name Recognition
TANG Xuri,CHEN Xiaohe,XU Chao,LI Bin. Discourse-Based Chinese Location Name Recognition[J]. Journal of Chinese Information Processing, 2010, 24(2): 24-33
Authors:TANG Xuri  CHEN Xiaohe  XU Chao  LI Bin
Affiliation:Sch. of Chinese Language and Literature, Nanjing Normal University, Nanjing, Jiangsu 210097, China
Abstract:The paper presents a system for the recognition of Chinese location names on the discourse level.The system employs three modules in sequence,the CRFs-based module for simple location name recognition,the discourse-based module for the relationship identification between the simple location names and the CRFs-based module for complex location name recognition.The CRFs-based module for single location name recognition takes raw text as input and models both the information of internal structure of basic loca...
Keywords:computer application  Chinese information processing  discourse-based location name relation  conditional random fields  toponymhood calculation  
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号