基于N-gram模型的中文分词前k优算法 |
| |
引用本文: | 李书豪,陈宇,吕淑宝,张猛治.基于N-gram模型的中文分词前k优算法[J].智能计算机与应用,2016(6):31-35. |
| |
作者姓名: | 李书豪 陈宇 吕淑宝 张猛治 |
| |
作者单位: | 东北林业大学信息与计算机工程学院,哈尔滨,150040 |
| |
基金项目: | 中央高校基本科研业务费专项资金(2572015DY07),黑龙江省自然科学基金(F201347),哈尔滨市科技创新人才专项资金(2013RFQXJ100),国家自然基金(61300098),教育部大学生创新训练计划项目(201610225126) |
| |
摘 要: | 本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理.针对系统词库数量受限的问题,在构建词图的前提下,使用基于A*的算法求解前k优路径.最后实验结果表明,本文所使用的基于A*的算法与改进Dijkstra算法、基于DP的算法等常用的求前k优路径的算法相比,具有较高的效率和准确率,为中文分词及求取k-best算法的研究开拓了新的思路.
|
关 键 词: | 中文输入法 N-gram模型 k优路径 A*算法 |
Chinese word segmentation and k-best algorithm based on N-gram |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|