首页 | 本学科首页   官方微博 | 高级检索  
     

使用二级索引的中文分词词典
引用本文:张庆扬,柴胜. 使用二级索引的中文分词词典[J]. 计算机工程与应用, 2009, 45(19): 139-141. DOI: 10.3778/j.issn.1002-8331.2009.19.043
作者姓名:张庆扬  柴胜
作者单位:吉林大学,计算机科学与技术系,长春,130062;吉林大学,计算机科学与技术系,长春,130062
摘    要:中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。

关 键 词:中文分词  二级索引  正向最大匹配
收稿时间:2008-04-15
修稿时间:2008-7-23 

Chinese word segmentation dictionary using two-level index
ZHANG Qing-uang,CHAI Sheng. Chinese word segmentation dictionary using two-level index[J]. Computer Engineering and Applications, 2009, 45(19): 139-141. DOI: 10.3778/j.issn.1002-8331.2009.19.043
Authors:ZHANG Qing-uang  CHAI Sheng
Affiliation:ZHANG Qing-yang,CHAI Sheng Department of Computer Science , Technology,Jilin University,Changchun 130062,China
Abstract:As the basis of Chinese information processing,Chinese word segmentation plays a very important role in the fields of searching engine,automatic and so on.Chinese word dictionary is the basis of mechanic segmentation algorithm,it tells the algo-rithm what is a Chinese word.Because the algorithm needs the content of dictionary in order to match the string in the text,the storage structure of the dictionary will decide the method of the algorithm and its performance.Through making research into the existed th...
Keywords:Chinese word segmentation  two-level index  positive maximum matching
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号