首页 | 本学科首页   官方微博 | 高级检索  
     

一种改进的基于二元统计的HMM分词算法
引用本文:田思虑,李德华,潘莹.一种改进的基于二元统计的HMM分词算法[J].计算机与数字工程,2011,39(1):14-16,20.
作者姓名:田思虑  李德华  潘莹
作者单位:1. 华中科技大学图像识别与人工智能研究所,武汉,430074
2. 华中科技大学图像识别与人工智能研究所,武汉,430074;广西大学信息网络中心,南宁,530004
摘    要:中文分词是中文信息处理的基础。基于二元统计的HMM中文分词算法表现良好,但也存在易将包含常用介、副词的词进行误拆分的问题。改进的分词算法运用逆向最大匹配的思想,在计算粗分集权重的过程中,考虑了分词的词长及词序对正确切分的有利影响。该算法首先计算出二元统计粗分模型有向边的权值,然后根据词长修定权值,最后运用最短路径法求出分词结果。实验结果表明,该算法有效的解决了过分拆分的问题,分词效果良好。

关 键 词:中文分词  逆向最大匹配  二元统计模型  HMM模型

Improved 2-Gram HMM Algorithm for Chinese Word Segmentation
Tian Silv,Li Dehua,Pan Ying.Improved 2-Gram HMM Algorithm for Chinese Word Segmentation[J].Computer and Digital Engineering,2011,39(1):14-16,20.
Authors:Tian Silv  Li Dehua  Pan Ying
Affiliation:Tian Silv1) Li Dehua1) Pan Ying1),2)(Institute for Pattern Recognition & Artificial Intelligence,Huazhong University of Science & Technology1),Wuhan 430074) (Information Network Center,Guangxi University2),Nanning 530004)
Abstract:Chinese word segmentation is a basic work for Chinese information processing.2-Gram HMM algorithm for Chinese word segmentation is widely used,but easy to bring on wrong adverb word segmentation.Using reverse directional maximum match method(RDM) can lessen the error rate.In the process of calculating rough segmentation set,the improved algorithm adjusts the weights by the word length and words order and obtains the word segmentation result with the shortest path method.Experiment results show that the erro...
Keywords:Chinese word segmentation  RMM  2-gram model  HMM model  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号