首页 | 本学科首页   官方微博 | 高级检索  
     

利用覆盖歧义检测法和统计语言模型进行汉语自动分词
引用本文:王显芳,杜利民.利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J].电子与信息学报,2003,25(9):1168-1173.
作者姓名:王显芳  杜利民
作者单位:中国科学院声学研究所语音交互信息技术研究中心,北京,100080
摘    要:该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题.采用了多次迭代的方法来进行汉语词层面统计语言模型的训练.该方法能够得到更优化的语言模型.该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭代次数增加而减小的实验结果,还给出了在不同的统计语言模型阶数下切分正确率变化的情况,分析了切分正确率变化的原因。

关 键 词:覆盖歧义检测法  统计语言模型  汉语  自动分词  切分正确率
收稿时间:2002-3-19
修稿时间:2002年3月19日

Automatic Segmentation of Chinese using overlaying ambiguity examining method and statistics language model
Wang Xianfang,Du Limin.Automatic Segmentation of Chinese using overlaying ambiguity examining method and statistics language model[J].Journal of Electronics & Information Technology,2003,25(9):1168-1173.
Authors:Wang Xianfang  Du Limin
Affiliation:Center for Speech Interactive Information Technology Institute of Acoustics Chinese Academy of Sciences Beijing 100080 China
Abstract:In this paper, the question of Chinese automatic segmentation is discussed using overlaying ambiguity examining method and statistics language model. The multi-time iterative method is applied to train language model, which can produce a better model. The process of training language model is described in detail. The result shows that the perplexity of language model is reduced. The accuracy of segmentation changes with different language model and the reason is analyzed.
Keywords:Statistics language model  Overlaying ambiguity examining method  Automatic segmentation
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《电子与信息学报》浏览原始摘要信息
点击此处可从《电子与信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号