首页 | 本学科首页   官方微博 | 高级检索  
     

基于多知识源的中文词法分析系统
引用本文:姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145.
作者姓名:姜维  王晓龙  关毅  赵健
作者单位:哈尔滨工业大学计算机科学与技术学院,哈尔滨,150001
基金项目:国家自然科学基金 , 国家自然科学基金
摘    要:汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法分析所面临的各个问题.其中分词系统参加了2005年第二届国际汉语分词评测,在微软亚洲研究院、北京大学语料库开放测试中,分别获得F量度为97.2%与96.7%.而在北京大学标注的《人民日报》语料库的开放评测中,词性标注获得96.1%的精确率,命名实体识别获得的F量度值为88.6%.

关 键 词:词法分析  汉语分词  词性标注  命名实体识别  语言模型  多知识源  中文分词  汉语词法  分析系统  Sources  Knowledge  Multiple  System  Analysis  Lexical  Chinese  精确率  分词评测  人民  量度  测试  语料库  北京大学  微软亚洲研究院  国际
修稿时间:2005-11-152006-06-06

Research on Chinese Lexical Analysis System by Fusing Multiple Knowledge Sources
JIANG Wei,WANG Xiao-Long,GUAN Yi,ZHAO Jian.Research on Chinese Lexical Analysis System by Fusing Multiple Knowledge Sources[J].Chinese Journal of Computers,2007,30(1):137-145.
Authors:JIANG Wei  WANG Xiao-Long  GUAN Yi  ZHAO Jian
Affiliation:School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001
Abstract:
Keywords:lexical analysis  Chinese word segmentation  part-of-speech tagging  named entity recognition  language model
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号