首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
介绍了中文分词算法和MFC应用程序,在中文分词方面,采用双向最大匹配算法,即正向最大匹配和逆向最大匹配算法。在系统设计方面,采用MFC应用程序框架实现整个系统的可视化。建立了一个包含44 000余词条的汉语电子词典及其后台数据库,完成了一个包含有汉语电子词典和中文分词功能的应用程序。  相似文献   

2.
最大匹配算法包括正向最大匹配和逆向最大匹配两种算法,是中文分词领域的基础性算法,目前被广泛应用于众多领域。文中在详细分析了最大匹配算法的优缺点的基础上,提出了一种改进的最大匹配分词算法。改进算法在分词前先对词库进行了规范化预处理,分词时由汉字检索到该字开头的词组,再按词组长度由长到短的顺序使用传统最大匹配算法检索词库。目的是解决传统方法匹配效率低下和不能切分长词的问题。经算法分析结果表明,改进的算法较传统的最大匹配算法高效,分词能力更强。  相似文献   

3.
对汉语的特点和分词概念作了简单介绍,详细说明了常用的分词算法,在此基础上,提出了一种改进的Ⅲ中文分词算法。该算法兼顾了最大正向匹配法(MM)和逆向最大匹配法(RMM)的优点,克服他们的不足,使得切分准确率和分词效率均有明显的提高,是一种比较实用的分词算法。实验也进一步证明,该算法能有效地提高切分准确率和分词效率。  相似文献   

4.
提出一种改进的Trie树结构,树节点记录了字符串与构词的位置信息,子节点采用哈希查找机制,在此基础上优化了中文分词的正向最大匹配算法。分词过程中利用自动机机制判断是否构成最长词,解决了正向最大匹配算法需要根据词长调整字符串的问题。算法时间复杂度为1.33,对比试验结果表明有较快的分词速度。基于改进Trie树结构的正向最大匹配算法提高了中文分词速度,尤其适用于词典结构需要实时更新的场合。  相似文献   

5.
中文分词是汉语信息处理的前提,广泛应用于搜索引擎、自动翻译、中文文语转换(TTS)等领域。中文分词就是把没有明显分隔标志的中文字串切分为词串。基本算法主要有基于规则的方法和基于统计的方法及两者结合的方法。基于规则的方法的依据是分词词典和分词规则库,原理是字符串匹配,主要方法有正向最大匹配法、逆向最大匹配法、双向最大匹配法等。基于统计的方法的依据是字与字间、词与词间的同现频率,但必须以大规模的文本训练为前提。  相似文献   

6.
分析了现有的几种中文分词的算法,提出了在逆向最大匹配算法的基础上结合语义理解的分词方法,利用最大概率分词的方法解决多种分词结果的问题,以此来改进Lucene[1]的中文分词的算法,提高了分词的速度和准确性。  相似文献   

7.
使用二级索引的中文分词词典   总被引:3,自引:0,他引:3       下载免费PDF全文
中文分词是中文信息处理的基础,在诸如搜索引擎,自动翻译等多个领域都有着非常重要的地位。中文分词词典是中文机械式分词算法的基础,它将告诉算法什么是词,由于在算法执行过程中需要反复利用分词词典的内容进行字符串匹配,所以中文分词词典的存储结构从很大程度上决定将采用什么匹配算法以及匹配算法的好坏。在研究现存分词词典及匹配算法的基础上,吸取前人的经验经过改进,为词典加上了多级索引,并由此提出了一种新的中文分词词典存储机制——基于二级索引的中文分词词典,并在该词典的基础上提出了基于正向匹配的改进型匹配算法,大大降低了匹配过程的时间复杂度。从而提高了整个中文分词算法的分词速度。  相似文献   

8.
邹嵩  赵诗阳  周新志 《微机发展》2012,(2):131-133,137
为了提高垂直搜索引擎的检索效率,介绍了垂直搜索引擎中的分词技术。文中主要通过研究最大长度匹配算法,提出了改进后的最大长度匹配算法以提高检索效率。改进后的算法显示,分词效果得到了一定的提升,体现了相对于普通最大长度匹配算法的优势。且通过将改进后的方法与普通最大长度匹配算法相比较可知,改进后的算法提高了搜索的正确率,提升了检索的效率,是一种对最大长度匹配算法的有效改进,由此也体现了搜索引擎中算法合理设计可以提升搜索性能。  相似文献   

9.
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。  相似文献   

10.
中文分词是文本过滤的首要的基础性工作,也是智能化中文信息处理的关键。本文提出了一种结合正向最大匹配法和互信息的中文分词算法。实验结果说明,该算法能在一定程度上提高文本的分类性能。  相似文献   

11.
基于内容检索技术的出现为信息检索领域的发展指明了方向,分析了最大匹配和最优匹配的特征,前者仅从视觉的角度反映了两个镜头的相似性,后者则在最大匹配的基础上从客观全面的角度反映了镜头内容的相似特征,但是最优匹配算法忽视了视频内容时间顺序性。提出了一种改进的最优匹配算法,实验结果表明,算法在查全率和查准率方面均能够获得较为理想的结果。  相似文献   

12.
最佳匹配问题的DNA表面计算模型   总被引:1,自引:1,他引:0  
基于最佳匹配问题的问题解空间,采用荧光标记的策略,给出了一种新的最佳匹配问题的DNA表面计算模型,该模型首先将问题解空间的DNA分子固定在固体载体上,然后通过进行相应的生化反应来求得最佳匹配问题的所有解.与已有的最大匹配问题的DNA表面计算模型相比,新模型在检测边的过程中不需要使用观察法,且边的排列顺序不影响解空间的生成过程.因此,新模型具有更好的性能.  相似文献   

13.
针对Lucene自带中文分词器分词效果差的缺点,在分析现有分词词典机制的基础上,设计了基于全哈希整词二分算法的分词器,并集成到Lucene中,算法通过对整词进行哈希,减少词条匹配次数,提高分词效率。该分词器词典文件维护方便,可以根据不同应用的要求进行定制,从而提高了检索效率。  相似文献   

14.
陈波  王延章 《计算机工程》2009,35(24):60-62
通过一组成员记录表示实体时,相似记录匹配问题被扩展为记录簇匹配问题。提出2种记录簇匹配模式,应用赋权二部图理论建立记录簇匹配数学模型,设计记录簇上下界匹配算法。快速推导出记录簇匹配阈值的上下界,以减少记录簇子记录最大权的匹配次数。实验结果证明该算法能提高记录簇匹配精度和计算效率。  相似文献   

15.
文章提出了一种最大概率匹配的矢量量化编码算法,它为码书中的每一码字增加一个计数器,统计在编码图象时每个码字的出现的频数,并进行排序;在量化矢量时,根据当前码字出现频数大小依次选择侯选码字,即频数大的码字优先选为候选码字。该算法可以和已有的预测法结合,形成预测加最大概率匹配的联合矢量量化编码算法。实验表明,联合算法的效率较高,在最初几次的搜索中就能以较高的命中率命中最佳匹配码字。  相似文献   

16.
一种改进的MM分词算法   总被引:28,自引:0,他引:28  
本文首先提出一种对中文句子进行分词预处理的方法,在预处理过程中就能完成分词过程中所有的数据库访问操作,这种方法可以不加修改地应用于所有机械分词算法以及消除歧义,然后在预处理的基础上实现一种改进的MM法,更加密全地遵照“长词优先”的原则,使分词系统在机械分词阶段能有比MM法更好的效果。  相似文献   

17.
为了提高基于谱特征的图像匹配算法的精度和鲁棒性,提出了一种基于最大池的谱特征匹配算法。首先,利用图像特征点邻域信息提取具有旋转不变性和亮度线性变化不变性的谱特征;其次,将以谱特征描述的特征点作为节点、特征点之间的欧氏距离作为边构造属性关系图,将图像匹配问题转化为图匹配问题;最后,引入最大池匹配策略获取图匹配结果。大量实验结果表明,该算法提高了谱特征匹配算法的精度和鲁棒性。  相似文献   

18.
随着主动服务研究的逐渐深入,各项主动服务的关键功能已开始逐步的实现,最大正向匹配算法可以实现构件搜索中用户需求描述的分解和关键词的提取。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号