首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
改进的中文近似字符串匹配算法   总被引:1,自引:0,他引:1  
范立新 《计算机工程与应用》2006,42(34):172-174,207
BPM-BM算法在针对汉字等大字符集的近似字符串匹配时取得了很好的实际效果,但该算法在最差情况下的总体时间复杂度为O(!+nm)。而提出的IBPM-BM算法由于具有记忆的能力,保证了过滤阶段的无回溯,可以在理论上保证最差情况下的总体时间复杂度为O(!+n),而在最佳情况下的时间复杂度与BPM-BM算法一致。  相似文献   

2.
基于过滤的中文多模式近似字符串匹配算法   总被引:1,自引:0,他引:1  
当前近似字符串匹配算法主要针对英文等中小字符集,该文针对汉字等大字符集的有效算法很少,尤其缺少适合汉字等大字符集的多模式近似匹配算法的情况,提出了一种适合汉字等大字符集的多模式近似匹配算法——MBPM-BM,通过实验证明了该算法的有效性。 近似字符串匹配;中文字符串匹配;多模式匹配;位并行运算;过滤  相似文献   

3.
字符串匹配是计算机科学中最经典、研究最广泛的问题之一,并且已经被应用到了众多领域当中。近似字符串匹配问题的研究虽然经历了不短的时间历程,但是其中的研究对象绝大多数主要是针对DNA等小型字符集或针对英文等中等大小字符集,而对于汉字乃至亚洲语音等大型字符集的研究却仍然不多。因此,研究高效的近似字符串匹配算法具有重要的理论价值和实际意义。  相似文献   

4.
字符串匹配是计算机科学中最经典、研究最广泛的问题之一,并且已经被应用到了众多领域当中。然而随着计算机和网络技术的飞速发展以及新问题的不断提出,人们逐渐发现在实际应用中有时更需要进行近似字符串匹配。因此,研究高效的近似字符串匹配算法具有重要的理论价值和实际意义。  相似文献   

5.
快速中文字符串模糊匹配算法   总被引:9,自引:3,他引:9  
本文解决了中文字符串模糊匹配的两个主要问题:空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多,应用位向量方法时,需要大量空间。对于某些内存很少的小型计算机,比如嵌入式系统,这将会是一个问题。本文改进了位向量方法,使其在应用于中文字符串时,空间需求降低到约5%。本文还利用汉字非常多的特点,提出一种新的基于过滤方法的中文字符串模糊匹配算法,BPM-BM,其速度比世界上最快的算法至少提高14%;在大部分情况下,是其速度的1.5~2倍。  相似文献   

6.
孙进  龚沛曾 《福建电脑》2010,26(2):59-61
本文提出一种字符串之间的模式产生算法。算法的思想来源于一个新颖的想法:通过比较两个字符串,得到两个字符串的不同之处.并采用一套事先定义的规则来泛化这些不同之处,从而得到一个能够同时匹配这两个字符串的模式.我们使用正规表达式来表示这个模式。为了计算两个字符串的不同之处,本文使用了字符串近似匹配的方法,并提出了一种基于动态规划的改进算法,降低了已有算法的时空复杂度。  相似文献   

7.
串匹配问题是计算机科学研究中比较广泛的问题之一,目前字符串匹配算法主要是针对英文等字符的匹配居多,而针对中文等字符的匹配比较少,本文将针对中文字符匹配的算法进行浅析,提出一种适合中文字符模式近似匹配算法的设计,通过实验证明了该算法的有效性。  相似文献   

8.
满都呼  宋展 《集成技术》2016,5(1):33-43
CUDA (Compute Unified Device Architecture)是一种重要的并行处理架构,但其具有相对复杂的线程管理机制和多重存储模块,从而使得基于CUDA的算法时间复杂度很难量化.针对这一问题,提出了一种分层存储理论模型—HMM (Hierarchical Memory Machine)模型,该模型所具有的分层存储结构可以有效地描述图形处理单元设备不同存储模块的物理特性,因此非常适用于对CUDA算法时间复杂度的量化评估.作为HMM模型的应用实例,文章提出了一种基于HMM模型的并行近似字符串匹配算法,并给出了相应算法时间复杂度的计算过程.与串行算法相比,该算法可以获得60倍以上的加速比.  相似文献   

9.
袁先平  仲红  黄宏升  易磊 《计算机工程》2011,37(20):142-144
数据库中字符串近似匹配查询不能完全保护查询双方的隐私信息。针对该问题,提出一种对数据库中字符串数据的近似匹配查询协议。采用安全计算编辑距离协议、同态加密、茫然传输等安全技术,在有效保护查询双方隐私信息的情况下,实现对字符串近似匹配的查询,并分析该协议的正确性、安全性及复杂性,结果表明,该方案是安全有效的。  相似文献   

10.
基于字符串匹配的通用数据压缩算法   总被引:1,自引:0,他引:1  
本文主要介绍基于字符串匹配的数据压缩算法原理,该算法从多方面时著名LZ77算法进行了改进,我们的算法所用到的工作缓冲区是一个循环历史表,摈弃了输入符号超前缓冲区;结果,匹配过程是边接收输入边进行,无需等待一组输入数据填满超前缓冲区才开始,同时,最大争配长度不再受超前缓冲区大小的限制,而且,不再需要做大量的平移工作缓立足点冲区的操作,另外,还涉及一些其他方面的改进,包括改等长压缩码为变长码和引入匹配  相似文献   

11.
经典的串匹配算法设计和分析中假设“字符互相独立并且等概率出现”,这与实际应用环境差异很大,导致出现很多问题.考虑了字符的概率分布和上下文的关联,同时兼顾应用的方便,提出了命中密度的概念.在给出基本定义和扩展定义后,通过对4种类型的代表性算法的理论和实验分析,给出了命中密度与算法性能之间的关系.同时,在对命中密度的分析中得出一些极具价值的结论.对命中密度概念的多角度理解以及对它与算法性能关系的深入剖析都说明,命中密度作为一个特征量,可以从一个侧面刻画模式串和文本之间的相关性,它对算法的设计和分析以及串匹配领域研究工作的扩展都具有指导意义.  相似文献   

12.
串匹配算法中模式串与文本之间关系的研究   总被引:2,自引:0,他引:2  
刘萍  刘萍  刘燕兵  郭莉  方滨兴 《软件学报》2010,21(7):1503-1514
经典的串匹配算法设计和分析中假设“字符互相独立并且等概率出现”,这与实际应用环境差异很大,导致出现很多问题.考虑了字符的概率分布和上下文的关联,同时兼顾应用的方便,提出了命中密度的概念.在给出基本定义和扩展定义后,通过对4种类型的代表性算法的理论和实验分析,给出了命中密度与算法性能之间的关系.同时,在对命中密度的分析中得出一些极具价值的结论.对命中密度概念的多角度理解以及对它与算法性能关系的深入剖析都说明,命中密度作为一个特征量,可以从一个侧面刻画模式串和文本之间的相关性,它对算法的设计和分析以及串匹配领域研究工作的扩展都具有指导意义.  相似文献   

13.
邓一贵 《计算机科学》2008,35(6):168-170
本文提出的基于字符使用频率及分治法的改进字符串模式匹配算法可以在扫描被匹配目标串时每次跳过的字符在统计结果上比目前广泛使用的Boyer-Moore算法跳过的字符更多,进一步减少了匹配的统计次数.  相似文献   

14.
字符串模糊匹配问题在计算机中有着广泛的应用.尝试探讨一种无论从算法时间复杂度上讲还是编程复杂度上都比较优秀的一种模糊匹配算法。  相似文献   

15.
We give a randomized algorithm in deterministic time O(Nlog  M) for estimating the score vector of matches between a text string of length N and a pattern string of length M , i.e., the vector obtained when the pattern is slid along the text, and the number of matches is counted for each position. A direct application is approximate string matching. The randomized algorithm uses convolution to find an estimator of the scores; the variance of the estimator is particularly small for scores that are close to M , i.e., for approximate occurrences of the pattern in the text. No assumption is made about the probabilistic characteristics of the input, or about the size of the alphabet. The solution extends to string matching with classes, class complements, ``never match' and ``always match' symbols, to the weighted case and to higher dimensions. Received July 20, 1997; revised April 20, 1998, and June 1, 1999.  相似文献   

16.
基于组件合并的手写体汉字串分割   总被引:5,自引:0,他引:5  
吕岳  施鹏飞  张克华 《软件学报》2000,11(11):1554-1559
人们对孤立的手写体汉字字符的离线 识别做了大量的研究工作,而走向实用化的进展并不快.除了单字识别率不理想以外,从文本 中正确分割出单个汉字字符也是一个主要难题,因为字符的识别离不开正确分割.利用汉字的 基本结构特征,根据两个组件之间的上下、左右和包围关系,对组件进行合并形成完整的汉字 图像.对整个汉字字符串中组件的宽度和相邻组件的间距进行分析,有助于左右关系组件的合 并.实验结果表明,该方法对手写体汉字字符串具有理想的分割效果.  相似文献   

17.
近似串匹配是生物信息学、文本检索、信号处理等领域的一个基础问题,如何提高近似串匹配的速度一直都是研究的关键问题。提出一种新的在大文本库中快速查找近似匹配的无损过滤算法。为保证在大文本库中的匹配速度,本算法使用了查询速度较快的q-gram索引。为通过提高过滤算法的过滤效率达到提升算法整体性能的目的,详细分析了含有匹配串的文本区域,提取了一些基于尾匹配q-gram特征的新过滤条件,然后用这些特征优化了过滤算法的过滤标准。实验数据表明,新过滤条件有效地提高了算法的过滤效率,提升了算法的整体性能。结果显示新算法适合各种匹配错误率下的近似匹配,算法的通用性较强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号