首页 | 本学科首页   官方微博 | 高级检索  
     

一种中文分词词典新机制——四字哈希机制
引用本文:张培颖,李村合.一种中文分词词典新机制——四字哈希机制[J].微型电脑应用,2006,22(10):35-36,55.
作者姓名:张培颖  李村合
作者单位:中国石油大学(华东)计算机与通信工程学院,东营,257061
摘    要:词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。

关 键 词:中文信息处理  自动分词  分词词典  四字哈希
文章编号:1007-757X(2006)10-0035-02
收稿时间:2006-01-04
修稿时间:2006-01-04

A New Dictionary Mechanism for Chinese Word Segmentation
ZHANG Pei-Ying,LI Cun-he.A New Dictionary Mechanism for Chinese Word Segmentation[J].Microcomputer Applications,2006,22(10):35-36,55.
Authors:ZHANG Pei-Ying  LI Cun-he
Abstract:As a basic component of Chinese word segmentation system, the dictionary mechanism influences the speed and the efficiency of segmentation significantly. In this paper, we provide a new dictionary mechanism named four-character-hash-indexing (FCHI). This mechanism takes advantages of the the big memory of computers, so that FCHI improves the speed and the efficiency of segmentation.
Keywords:Chinese information processing Automatic word segmentation Segmentation dictionary Four-character-hash-indexing
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号