共查询到10条相似文献,搜索用时 31 毫秒
1.
2.
一种中文分词词典新机制——四字哈希机制 总被引:9,自引:0,他引:9
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。 相似文献
3.
词典是汉语机械分词的一个重要组成部分,分词词典机制的优劣直接影响到中文分词的速度和效率。在分析了几种典型的词典机制优缺点的基础上,提出一种基于memcached的动态四字双向词典机制。该词典机制有效减少了文章分词过程中对词典的访问次数,同时具有维护方便及快速添加和删除临时词等优点,适合在Web上采用双向最大匹配算法进行中文分词。 相似文献
4.
词典是自动分词基础,分词词典机制的优劣直接影响到中文分词速度和效率.本文在对中文编码体系和中文分词的算法进行研究的基础上,设计一种新的分词词典,以及基于该词典结构上的一种多次Hash自动分词算法.分析表明,该算法的时间复杂度有很大的改善. 相似文献
5.
6.
分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。 相似文献
7.
中文分词是中文信息处理的前提,本文研究了已有的分词算法、分词词典机制,提出了一种新的词典机制——带词长整词二分词典。该方法通过改进词典机制,提高了中文分词最大匹配算法的匹配速度以及分词的效率。文章最后对新的机制和已有的机制进行了比较和实验分析。 相似文献
8.
中文自动分词模块是自动答疑系统的一个重要功能模块.在分析自动答疑系统中问句特点的基础上,提出一种面向课程答疑的中文自动分词算法和分词词典设计方案,并探讨运用Visual-Prolog开发基于该算法的中文自动分词模块的关键技术,包括词的表示、构建分词词典、检索分词词典和分词谓词的实现. 相似文献
9.
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。分析了三种典型的分词词典结构,提出了一种具有三级索引的新词典结构,并提出了最大正向匹配的改进型匹配算法,从而降低了匹配过程的时间复杂度。最后通过实验,比较了三种典型词典结构与新词典结构的时间效率。实验结果表明,新词典结构具有更高的词典查询速度和分词速度,可以有效满足中文处理系统的需求。 相似文献