首页 | 本学科首页   官方微博 | 高级检索  
     

最大熵算法在汉语拼音标注中的研究与实现
引用本文:张丽青,寿永熙,马志强.最大熵算法在汉语拼音标注中的研究与实现[J].微电子学与计算机,2012,29(8):120-122,126.
作者姓名:张丽青  寿永熙  马志强
作者单位:内蒙古工业大学信息工程学院,内蒙古自治区呼和浩特,010080
基金项目:内蒙古工业大学科学研究项目
摘    要:经过对最大熵模型的研究,找到一种适合汉语拼音标注的最大熵模型算法.利用该算法解决了多音字单字成词的情况,从而使得所有包含多音字的词都是两字或多字词.使用该算法随机抽取"读者文摘"中的一篇文章进行标注实验,实验表明拼音标注正确率达到了96.6%以上.

关 键 词:最大熵模型  多音字  拼音标注  统计  特征  分词

The Research and Implementation of Maximum Entropy Algorithm in Phonetic Annotation
ZHANG Li-qing,SHOU Yong-xi,MA Zhi-qiang.The Research and Implementation of Maximum Entropy Algorithm in Phonetic Annotation[J].Microelectronics & Computer,2012,29(8):120-122,126.
Authors:ZHANG Li-qing  SHOU Yong-xi  MA Zhi-qiang
Affiliation:(College of Information Engineering,Inner Mongolia University of Technology,Huhhot 010080,China)
Abstract:Through maximum entropy model study,a algorithm for maximum entropy model that is for pinyin marked must be founded.Using the algorithm put an end to the situation that polyphone word is considered to be a word,so that all words with multiple pronunciations are two or more words.Using the algorithm mark the article in Reader’s Digest,the results show that pinyin marked rate has reached 96.6 percent or more.
Keywords:maximum entropy model  polyphony  phonetic annotation  statistics  features  segmentation
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号