首页 | 本学科首页   官方微博 | 高级检索  
     

基于N-gram模型的中文分词前k优算法
引用本文:李书豪,陈宇,吕淑宝,张猛治.基于N-gram模型的中文分词前k优算法[J].智能计算机与应用,2016(6):31-35.
作者姓名:李书豪  陈宇  吕淑宝  张猛治
作者单位:东北林业大学信息与计算机工程学院,哈尔滨,150040
基金项目:中央高校基本科研业务费专项资金(2572015DY07),黑龙江省自然科学基金(F201347),哈尔滨市科技创新人才专项资金(2013RFQXJ100),国家自然基金(61300098),教育部大学生创新训练计划项目(201610225126)
摘    要:本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理.针对系统词库数量受限的问题,在构建词图的前提下,使用基于A*的算法求解前k优路径.最后实验结果表明,本文所使用的基于A*的算法与改进Dijkstra算法、基于DP的算法等常用的求前k优路径的算法相比,具有较高的效率和准确率,为中文分词及求取k-best算法的研究开拓了新的思路.

关 键 词:中文输入法  N-gram模型  k优路径  A*算法

Chinese word segmentation and k-best algorithm based on N-gram
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号