首页 | 本学科首页   官方微博 | 高级检索  
     

基于二进制串的Trie索引树分词词典机制的研究
引用本文:韩莹,丰继林,袁静,王茂发,张艳霞,陈福明,陈新房,潘志安.基于二进制串的Trie索引树分词词典机制的研究[J].计算机与现代化,2013(1):5-7.
作者姓名:韩莹  丰继林  袁静  王茂发  张艳霞  陈福明  陈新房  潘志安
作者单位:防灾科技学院灾害信息工程系;清华大学计算机科学与技术系
摘    要:分词词典是信息处理系统的一个基本组成部分,其查询效率将直接影响信息处理系统的性能。根据信息在计算机内都是以二进制编码存放的原理,本文把对字符串的处理转化成对二进制串的处理(支持任何语言的字符串),建立基于Trie索引树的分词词典机制。可以根据不同应用系统需求,自动调整二进制串的长度,建立不同的Trie树结构,便于在存储空间和查询效率之间寻找合适的平衡点。这种基于索引的查询速度与词库中词的多少无关,只与词本身的长度有关系;并且公共的前缀索引值随着词汇量的增大而节省大量内存空间。

关 键 词:信息处理  分词  词典机制  Trie索引树

Research on Dictionary Mechanism Based on Binary of Trie Index Trees
HAN Ying,FENG Ji-lin,YUAN Jing,WANG Mao-fa,ZHANG Yan-xia,CHEN Fu-ming,CHEN Xin-fang,PAN Zhi-an.Research on Dictionary Mechanism Based on Binary of Trie Index Trees[J].Computer and Modernization,2013(1):5-7.
Authors:HAN Ying  FENG Ji-lin  YUAN Jing  WANG Mao-fa  ZHANG Yan-xia  CHEN Fu-ming  CHEN Xin-fang  PAN Zhi-an
Affiliation:1(1.Department of Disaster Information Engineering,Institute of Disaster Prevention,Beijing 101601,China; 2.Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China)
Abstract:
Keywords:
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号