首页 | 本学科首页   官方微博 | 高级检索  
     

基于Lucene的中文分词模块的设计和实现
引用本文:罗宁,徐俊刚,郭洪韬. 基于Lucene的中文分词模块的设计和实现[J]. 电子技术, 2012, 39(9): 54-56
作者姓名:罗宁  徐俊刚  郭洪韬
作者单位:1. 中国科学院研究生院,北京,100049
2. 首都信息发展股份有限公司,北京,100029
摘    要:基于当前最流行的全文检索引擎架构Lucene,文章设计并实现了一个中文分词模块。分词模块中的核心算法是基于字符串匹配与统计相结合的中文分词算法,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力。通过实验发现,该模块的分词准确率较高,分词速度有进一步的提升空间。下一步我们将通过多种改进措施,来完善该分词模块,最终构建出一个高效的中文全文检索系统。

关 键 词:搜索引擎  中文分词  Lucene  哈希索引

Design and Implementation of Chinese Words Segmentation Based on Lucene
Luo Ning , Xu Jungang , Guo Hongtao. Design and Implementation of Chinese Words Segmentation Based on Lucene[J]. Electronic Technology, 2012, 39(9): 54-56
Authors:Luo Ning    Xu Jungang    Guo Hongtao
Affiliation:1.Graduate University of the Chinese Academy of Sciences Beijing 100029,China 2.CAPINFO Company Limited Beijing 100029,China 3.CAPINFO Company Limited,Beijing 100029,China)
Abstract:
Keywords:
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号