首页 | 本学科首页   官方微博 | 高级检索  
     

基于专有名词优先的快速中文分词
引用本文:梁卓明,陈炬桦. 基于专有名词优先的快速中文分词[J]. 计算机技术与发展, 2008, 18(3): 24-27
作者姓名:梁卓明  陈炬桦
作者单位:中山大学,信息科学学院,计算机系,广东,广州,510275
摘    要:中文分词是中文信息处理系统中的一个重要部分.主题信息检索系统对分词的速度和准确率有特殊的要求.文中回答了词库建立的词条来源和存储结构两大问题,提出了一种基于专有名词优先的快速中文分词方法:利用首字哈希、按字数分层存储、二分查找的机制,通过优先切分专有名词,将句子切分成碎片,再对碎片进行正反两次机械切分,最后通过快速有效的评价函数选出最佳结果并作调整.实验证明,该分词方法对主题信息文献的分词速度达92万字每秒,准确率为96%,表明该分词方法在主题信息文献的分词处理中具有较高性能.

关 键 词:中文分词  专有名词  词典机制  专有名词  快速  中文分词  Names  Special  Priority  Based  Method  Chinese Word Segmentation  高性能  分词处理  信息文献  验证  调整  结果  最佳  评价函数  机械  句子切分  机制

A Rapid Chinese Word Segmentation Method Based on Priority Special Names
LIANG Zhuo-ming,CHEN Ju-hua. A Rapid Chinese Word Segmentation Method Based on Priority Special Names[J]. Computer Technology and Development, 2008, 18(3): 24-27
Authors:LIANG Zhuo-ming  CHEN Ju-hua
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号