共查询到15条相似文献,搜索用时 328 毫秒
1.
2.
汉语词典的快速查询算法研究 总被引:5,自引:0,他引:5
汉语词典查询是中文信息处理系统的重要基础部分,对系统效率有重要的影响。本文对汉语词典查询算法研究作了简要回顾,设计实现了基于双数组TRIE机制的汉语词典查询算法,并提出了基于双编码机制的词典查询算法。最后以逐字二分法查询性能为基准,使用这两种词典询机制进行了词语直接查询和分词查询两种应用的性能测试。经过实验分析,双数组TRIE机制的词典查询算法在查询速度上提高明显,查询速度约是逐字二分法的5倍。双编码机制的的词典查询算法查询速度有一定提高,而且调整机制更加灵活。 相似文献
3.
分词词典是信息处理系统的一个基本组成部分,其查询效率将直接影响信息处理系统的性能。根据信息在计算机内都是以二进制编码存放的原理,本文把对字符串的处理转化成对二进制串的处理(支持任何语言的字符串),建立基于Trie索引树的分词词典机制。可以根据不同应用系统需求,自动调整二进制串的长度,建立不同的Trie树结构,便于在存储空间和查询效率之间寻找合适的平衡点。这种基于索引的查询速度与词库中词的多少无关,只与词本身的长度有关系;并且公共的前缀索引值随着词汇量的增大而节省大量内存空间。 相似文献
4.
5.
6.
《计算机应用与软件》2013,(5)
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。 相似文献
7.
8.
9.
词典是汉语机械分词的一个重要组成部分,分词词典机制的优劣直接影响到中文分词的速度和效率。在分析了几种典型的词典机制优缺点的基础上,提出一种基于memcached的动态四字双向词典机制。该词典机制有效减少了文章分词过程中对词典的访问次数,同时具有维护方便及快速添加和删除临时词等优点,适合在Web上采用双向最大匹配算法进行中文分词。 相似文献
10.
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂度。最后通过实验,比较了三种典型词典结构与新词典结构的时间效率。实验结果表明,新词典结构具有更高的词典查询速度和分词速度,可以有效满足中文处理系统的需求。 相似文献
11.
针对汉语分词词典中双字哈希索引机制未能充分利用索引分词,而分词效率又明显优于首字哈希索引机制的问题,在充分分析汉语构词特点的基础上,提出了基于三字哈希索引的分词词典机制,并通过将字串的三态标记与下一索引指针的乘积作为哈希值的链地址法,简化了词典结构,节省了内存空间。理论分析和真实语料仿真均证明了三字哈希索引机制与不同字数的其他索引机制相比,具有更好的分词效率。 相似文献
12.
GUO Yi 《数字社区&智能家居》2008,(7)
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。 相似文献
13.
针对Lucene自带中文分词器分词效果差的缺点,在分析现有分词词典机制的基础上,设计了基于全哈希整词二分算法的分词器,并集成到Lucene中,算法通过对整词进行哈希,减少词条匹配次数,提高分词效率。该分词器词典文件维护方便,可以根据不同应用的要求进行定制,从而提高了检索效率。 相似文献
14.
一种中文分词词典新机制——四字哈希机制 总被引:9,自引:0,他引:9
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。 相似文献
15.
中文分词是中文信息处理系统中的一个重要部分。主题信息检索系统对分词的速度和准确率有特殊的要求。文中回答了词库建立的词条来源和存储结构两大问题,提出了一种基于专有名词优先的快速中文分词方法:利用首字哈希、按字数分层存储、二分查找的机制,通过优先切分专有名词,将句子切分成碎片,再对碎片进行正反两次机械切分,最后通过快速有效的评价函数选出最佳结果并作调整。实验证明,该分词方法对主题信息文献的分词速度达92万字每秒,准确率为96%,表明该分词方法在主题信息文献的分词处理中具有较高性能。 相似文献