首页 | 本学科首页   官方微博 | 高级检索  
     

基于规则和N-Gram算法的新词识别研究
作者单位:;1.南昌大学信息工程学院
摘    要:当前的分词工具分词后会出现很多单字碎片,分词之后意义与原意相差甚远。同时因为新词的构词规则具有自由度大的特点,当前分词方法不能有效识别网络中的新词。在ICTCLAS2016分词系统的基础上,结合新词结构制定规则构建碎片库,利用Bi-gram和Tri-gram模式提取碎片库中的候选字串,再采用左右邻接熵进行扩展及过滤,最后提出基于规则和N-Gram算法的新词识别方法。结果表明使用该方法的分词效果准确率、召回率和F值都有所提高。实验结果表明,该新词识别方法能有效构造候选新词集合,提高中文分词效果。

关 键 词:新词识别  N-Gram算法  构词规则  中文分词  碎片库  召回率

Research on new word recognition based on rules and N-Gram algorithm
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号