共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
3.
4.
提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的问题。算法时间复杂度为1.33,对比试验结果表明有较快的分词速度。基于改进Trie树结构的正向最大匹配算法提高了中文分词速度,尤其适用于词典结构需要实时更新的场合。 相似文献
5.
中文分词是汉语信息处理的前提,广泛应用于搜索引擎、自动翻译、中文文语转换(TTS)等领域。中文分词就是把没有明显分隔标志的中文字串切分为词串。基本算法主要有基于规则的方法和基于统计的方法及两者结合的方法。基于规则的方法的依据是分词词典和分词规则库,原理是字符串匹配,主要方法有正向最大匹配法、逆向最大匹配法、双向最大匹配法等。基于统计的方法的依据是字与字间、词与词间的同现频率,但必须以大规模的文本训练为前提。 相似文献
6.
分析了现有的几种中文分词的算法,提出了在逆向最大匹配算法的基础上结合语义理解的分词方法,利用最大概率分词的方法解决多种分词结果的问题,以此来改进Lucene[1]的中文分词的算法,提高了分词的速度和准确性。 相似文献
7.
中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。 相似文献
8.
9.
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。 相似文献
10.
中文分词是文本过滤的首要的基础性工作,也是智能化中文信息处理的关键。本文提出了一种结合正向最大匹配法和互信息的中文分词算法。实验结果说明,该算法能在一定程度上提高文本的分类性能。 相似文献
11.
12.
最佳匹配问题的DNA表面计算模型 总被引:1,自引:1,他引:0
基于最佳匹配问题的问题解空间,采用荧光标记的策略,给出了一种新的最佳匹配问题的DNA表面计算模型,该模型首先将问题解空间的DNA分子固定在固体载体上,然后通过进行相应的生化反应来求得最佳匹配问题的所有解.与已有的最大匹配问题的DNA表面计算模型相比,新模型在检测边的过程中不需要使用观察法,且边的排列顺序不影响解空间的生成过程.因此,新模型具有更好的性能. 相似文献
13.
针对Lucene自带中文分词器分词效果差的缺点,在分析现有分词词典机制的基础上,设计了基于全哈希整词二分算法的分词器,并集成到Lucene中,算法通过对整词进行哈希,减少词条匹配次数,提高分词效率。该分词器词典文件维护方便,可以根据不同应用的要求进行定制,从而提高了检索效率。 相似文献
14.
15.
文章提出了一种最大概率匹配的矢量量化编码算法,它为码书中的每一码字增加一个计数器,统计在编码图象时每个码字的出现的频数,并进行排序;在量化矢量时,根据当前码字出现频数大小依次选择侯选码字,即频数大的码字优先选为候选码字。该算法可以和已有的预测法结合,形成预测加最大概率匹配的联合矢量量化编码算法。实验表明,联合算法的效率较高,在最初几次的搜索中就能以较高的命中率命中最佳匹配码字。 相似文献
16.
17.
为了提高基于谱特征的图像匹配算法的精度和鲁棒性,提出了一种基于最大池的谱特征匹配算法。首先,利用图像特征点邻域信息提取具有旋转不变性和亮度线性变化不变性的谱特征;其次,将以谱特征描述的特征点作为节点、特征点之间的欧氏距离作为边构造属性关系图,将图像匹配问题转化为图匹配问题;最后,引入最大池匹配策略获取图匹配结果。大量实验结果表明,该算法提高了谱特征匹配算法的精度和鲁棒性。 相似文献
18.
随着主动服务研究的逐渐深入,各项主动服务的关键功能已开始逐步的实现,最大正向匹配算法可以实现构件搜索中用户需求描述的分解和关键词的提取。 相似文献