首页 | 本学科首页   官方微博 | 高级检索  
     

中文分词和词性标注模型
引用本文:刘遥峰,王志良,王传经. 中文分词和词性标注模型[J]. 计算机工程, 2010, 36(4): 17-19
作者姓名:刘遥峰  王志良  王传经
作者单位:北京科技大学信息工程学院,北京,100083
基金项目:国家“863”计划基金资助项目“智能感知与先进计算技术”(2007AA01Z160);;北京市自然科学基金资助重点项目“基于情绪认知模型的个性化数字教育关键技术研究”(KZ200810028016)
摘    要:构造一种中文分词和词性标注的模型,在分词阶段确定N个最佳结果作为候选集,通过未登录词识别和词性标注,从候选结果集中选优得到最终结果,并基于该模型实现一个中文自动分词和词性自动标注的中文词法分析器。经不同大小训练集下的测试证明,该分析器的分词准确率和词性标注准确率分别达到98.34%和96.07%,证明了该方法的有效性。

关 键 词:分词  词性标注  最短路径
修稿时间: 

Model of Chinese Words Segmentation and Part-of-Word Tagging
LIU Yao-feng,WANG Zhi-jiang,WANG Chuan-jing. Model of Chinese Words Segmentation and Part-of-Word Tagging[J]. Computer Engineering, 2010, 36(4): 17-19
Authors:LIU Yao-feng  WANG Zhi-jiang  WANG Chuan-jing
Affiliation:(School of Information Engineering, University of Science & Technology Beijing, Beijing 100083)
Abstract:This paper proposes a model of Chinese words segmentation and part-of-word tagging.In the words segmentation stage,the top N segmentation results are confirmed as the candidate.The final result among these candidates is gotten after unknown words recognition and part-of-word tagging.A Chinese lexical analyzer is developed.This model with different size of training set is tested.The lexical analyzer's accuracy of words segmentation and part-of-word is 98.34%and 96.07%.This proves the effectiveness of the met...
Keywords:words segmentation  part-of-word tagging  shortest path
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程》浏览原始摘要信息
点击此处可从《计算机工程》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号