如何巧用VC实现中文快速分词 |
| |
引用本文: | 吴鹏飞,刘俊晓,马凤娟.如何巧用VC实现中文快速分词[J].电脑编程技巧与维护,2006(10):89-91. |
| |
作者姓名: | 吴鹏飞 刘俊晓 马凤娟 |
| |
摘 要: | 中文分词是汉语信息处理的前提,广泛应用于搜索引擎、自动翻译、中文文语转换(TTS)等领域。中文分词就是把没有明显分隔标志的中文字串切分为词串。基本算法主要有基于规则的方法和基于统计的方法及两者结合的方法。基于规则的方法的依据是分词词典和分词规则库,原理是字符串匹配,主要方法有正向最大匹配法、逆向最大匹配法、双向最大匹配法等。基于统计的方法的依据是字与字间、词与词间的同现频率,但必须以大规模的文本训练为前提。
|
关 键 词: | 中文分词 最大匹配法 VC 汉语信息处理 字符串匹配 搜索引擎 |
本文献已被 维普 等数据库收录! |
|