首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
改进的中文近似字符串匹配算法   总被引:1,自引:0,他引:1  
范立新 《计算机工程与应用》2006,42(34):172-174,207
BPM-BM算法在针对汉字等大字符集的近似字符串匹配时取得了很好的实际效果,但该算法在最差情况下的总体时间复杂度为O(!+nm)。而提出的IBPM-BM算法由于具有记忆的能力,保证了过滤阶段的无回溯,可以在理论上保证最差情况下的总体时间复杂度为O(!+n),而在最佳情况下的时间复杂度与BPM-BM算法一致。  相似文献   

2.
袁先平  仲红  黄宏升  易磊 《计算机工程》2011,37(20):142-144
数据库中字符串近似匹配查询不能完全保护查询双方的隐私信息。针对该问题,提出一种对数据库中字符串数据的近似匹配查询协议。采用安全计算编辑距离协议、同态加密、茫然传输等安全技术,在有效保护查询双方隐私信息的情况下,实现对字符串近似匹配的查询,并分析该协议的正确性、安全性及复杂性,结果表明,该方案是安全有效的。  相似文献   

3.
PRAM和LARPBS模型上的近似串匹配并行算法   总被引:15,自引:1,他引:15  
钟诚  陈国良 《软件学报》2004,15(2):159-169
近似串匹配技术在网络信息搜索、数字图书馆、模式识别、文本挖掘、IP路由查找、网络入侵检测、生物信息学、音乐研究计算等领域具有广泛的应用.基于CREW-PRAM(parallel random access machine with concurrent read and exclusive write)模型,采用波前式并行推进的方法直接计算编辑距离矩阵D,设计了一个允许k-差别的近似串匹配动态规划并行算法,该算法使用(m+1)个处理器,时间复杂度为O(n),算法理论上达到线性加速;采取水平和斜向双并行计算编辑距离矩阵D的方法,设计了一个使用((m+1)个处理器和O(n/(+m)时间的、可伸缩的、允许k-差别的近似串匹配动态规划并行算法,.基于分治策略,通过灵活拆分总线和合并子总线动态重构光总线系统,并充分利用光总线的消息播送技术和并行计算前缀和的方法,实现了汉明距离的并行计算,设计了两个基于LARPBS(linear arrays with reconfigurable pipelined bus system)模型的通信高效、可扩放的允许k-误配的近似串匹配并行算法,其中一个算法使用n个处理器,时间为O(m);另一个为常数时间算法,使用mn个处理器.  相似文献   

4.
快速中文字符串模糊匹配算法   总被引:9,自引:3,他引:9  
本文解决了中文字符串模糊匹配的两个主要问题:空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多,应用位向量方法时,需要大量空间。对于某些内存很少的小型计算机,比如嵌入式系统,这将会是一个问题。本文改进了位向量方法,使其在应用于中文字符串时,空间需求降低到约5%。本文还利用汉字非常多的特点,提出一种新的基于过滤方法的中文字符串模糊匹配算法,BPM-BM,其速度比世界上最快的算法至少提高14%;在大部分情况下,是其速度的1.5~2倍。  相似文献   

5.
We give a randomized algorithm in deterministic time O(Nlog  M) for estimating the score vector of matches between a text string of length N and a pattern string of length M , i.e., the vector obtained when the pattern is slid along the text, and the number of matches is counted for each position. A direct application is approximate string matching. The randomized algorithm uses convolution to find an estimator of the scores; the variance of the estimator is particularly small for scores that are close to M , i.e., for approximate occurrences of the pattern in the text. No assumption is made about the probabilistic characteristics of the input, or about the size of the alphabet. The solution extends to string matching with classes, class complements, ``never match' and ``always match' symbols, to the weighted case and to higher dimensions. Received July 20, 1997; revised April 20, 1998, and June 1, 1999.  相似文献   

6.
异构机群系统上近似串匹配并行算法   总被引:1,自引:0,他引:1       下载免费PDF全文
基于可分负载理论的最优原则,在假定正文串分配顺序固定的前提下,考虑处理机节点具有不同计算速度、不同通信能力的情况,提出一种异构机群计算环境下的最优正文串分配策略,给出最优正文串分配的闭合解。对于节点具有不同计算速度、通信能力、存储容量的异构机群系统,建立正文串最优分配的线性规划模型。针对几种特殊情况讨论正文串的最优分配顺序。实验结果表明,与平均分配正文串策略以及按照从处理机能力分配正文串策略相比,利用该策略进行近似串匹配并行处理所需时间分别缩短了10%~40%和5%~20%。  相似文献   

7.
一种基于链码的三维心血管图像匹配算法   总被引:3,自引:0,他引:3       下载免费PDF全文
为了快速准确地进行三维心血管图像匹配,以帮助医生更加准确地进行心血管疾病的治疗,提出一种基于链码理论的三维心血管图像心血管中轴线的匹配方法,即首先将二维的Freeman编码拓展至三维空间,然后将其用于对已获取的三维心血管进行编码,以便于实现对不同时刻的三维心血管图像心血管中轴线的匹配。另外,还对模式识别中链码的串匹配算法作了一个简要介绍,并讨论了其中的编码、代价函数、归一化的链间距离等难点。为了验证该算法的效果,还选择了两种构造替换代价函数的方法对三维心血管进行了实验,并利用标准公式对实验结果进行了评估。实验结果表明,利用两种代价函数都可以实现图像的匹配,但是匹配的程度有较大差异,其中利用第2种代价函数可以得到更加令人满意的匹配结果。  相似文献   

8.
近似串匹配是生物信息学、文本检索、信号处理等领域的一个基础问题,如何提高近似串匹配的速度一直都是研究的关键问题。提出一种新的在大文本库中快速查找近似匹配的无损过滤算法。为保证在大文本库中的匹配速度,本算法使用了查询速度较快的q-gram索引。为通过提高过滤算法的过滤效率达到提升算法整体性能的目的,详细分析了含有匹配串的文本区域,提取了一些基于尾匹配q-gram特征的新过滤条件,然后用这些特征优化了过滤算法的过滤标准。实验数据表明,新过滤条件有效地提高了算法的过滤效率,提升了算法的整体性能。结果显示新算法适合各种匹配错误率下的近似匹配,算法的通用性较强。  相似文献   

9.
地址编码数据库在城市信息化建设中具有极其重要的地位.本文从绍兴市地名实际出发,就地址编码数据库的关键技术:地址标准化和地址匹配及数据库设计等方面进行了探讨,并重点介绍了多模式近似串匹配算法在地址匹配阶段的应用.在地址标准化中,讨论了规范化地址内容的表达形式,把标准地址表达为行政区划名、主地址、子地址三部分构成,建立层级地址数据模型和地址输入模型,基于行政区划代码进行地址代码编制;讨论了地址标准化的过程,给出了标准化示例.最后还给出了近似串匹配算法在地址匹配阶段应用的伪代码.  相似文献   

10.
基于编辑距离的字符串近似查询算法一般是先给定阈值k,然后计算那些与查询串的编辑距离小于或等于k的结果。但是对于近似子串查询,结果中有很多是交叠的,并且是无意义的,于是提出了一种局部最优化匹配的概念,只计算那些符合阈值条件,并且是局部最优的结果,这样不仅避免了结果的交叠,而且极大节省了时间开销。给出了支持局部最优化匹配的近似子串查询的定义,相应提出了一种基于gram索引的局部最优化近似子串查询算法,分析了子串近似匹配过程中的规律,研究了基于局部最优化匹配的边界限定和过滤策略,给出了一种过滤优化的局部最优化近似子串查询算法,提高了查询效率。  相似文献   

11.
几种字符串匹配算法的分析和比较   总被引:1,自引:0,他引:1  
欧嵬  吴纯青 《微处理机》2007,28(4):59-61
字符串匹配技术在许多领域里被广泛应用。分析了BF、KMP、BM算法以及一些重要的改进算法,并对其性能进行了测试,为不同的应用领域采用适当的算法提供了思路。  相似文献   

12.
图(Graph)在众多的科学领域和工程领域(如模式识别和计算机视觉)中具有广泛的应用 ,其具备 强大的信息表达能力。当图被用来表示物体结构时,衡量物体的相似程度将会被转化成计算两个图的相似度,这就是图匹配(Graph Matching)。近几十年来,对图匹配相关技术和算法的研究已经成为了研究领域内的一个重要课题,尤其是随着大数据时代的来临,图作为数据之间关系的一种表示形式,将会受到越来越多的关注。文中对图匹配技术的发展现状进行了综述,详细介绍了该技术的理论基础,梳理了解决图匹配问题的几种主流思路。最后,结合图匹配技术的一种具体应用对几种算法的性能进行了对比分析。  相似文献   

13.
如何在大型文本库中快速找出给定串的近似串是大数据时代要解决的关键问题。基于多种子的近似串匹配算法因匹配速度快而得到众多学者的青睐,但巨大的索引空间消耗也使其难以处理大型文本库。提出了一种支持多种子的q-gram索引结构,通过该索引能够快速地计算出给定任意长度连续种子的地址集合,解决了多种子近似串匹配算法中种子的数目和长度受存储空间限制的问题。实验数据显示,新索引方案成倍地减少了存储空间的消耗。实验结果表明,提出的索引方案在大数据环境下的多种子近似匹配中具有一定的优势。  相似文献   

14.
网络信息审计系统中的多模式相似匹配算法   总被引:5,自引:0,他引:5       下载免费PDF全文
针对网络信息审计系统的需要,提出一种新颖的基于Episode距离的快速多模式相似串匹配算法.该算法把模式串集合转换为多个有限自动机,然后利用模式串集合建立一个状态驱动器.依次用待匹配串的字符驱动状态驱动器,由状态驱动器驱动各个有限自动机,实现了中英文混合的允许插入错误的相似多模式匹配.该算法不需要匹配每个字符,能充分利用匹配过程中本次匹配不成功的信息并结合改进的文本窗机制,跳过尽可能多的字符;能够控制每个模式串的允许错误上限;匹配速度与允许插入的错误字符教k无关.该算法在信息审计、数据库、信息检索等领域有  相似文献   

15.
一种快速的字符串匹配算法   总被引:8,自引:0,他引:8  
字符串匹配技术在许多领域里广泛应用,本文在分析了BF、BM算法以及一些重要的改进算法的基础上,提出了一种新的改进算法——BMH2C,该算法利用两个字符计算右移量并保存在二维数组里,使右移量增大,比较次数减少,有效地提高了匹配速度.最后本文还给出了几种匹配算法的测试结果。  相似文献   

16.
异构机群系统上基于多轮分配方式的近似串匹配并行算法   总被引:1,自引:0,他引:1  
在给定正文串分配轮数的前提下,考虑处理机节点具有不同计算速度、不同通信能力的情形,根据从处理机是否允许重叠执行计算和通信操作,提出异构机群计算环境下的最优正文串多轮分配策略;同时提出一种周期性的正文串多轮分配策略并给出了相应的正文串多轮分配的闭合解,此策略可以求出最优的分配轮数.实验结果表明,正文串多轮分配策略比正文串单轮分配策略大大缩短了近似串匹配并行处理的时间,并且在正文串多轮分配策略中,当近似串匹配应用的规模较小时,分配轮数比参与近似串匹配并行处理的从处理机数更能影响近似串匹配并行处理的完成时间,反之,从处理机数对近似串匹配并行处理的完成时间影响更大.  相似文献   

17.
满都呼  宋展 《集成技术》2016,5(1):33-43
CUDA (Compute Unified Device Architecture)是一种重要的并行处理架构,但其具有相对复杂的线程管理机制和多重存储模块,从而使得基于CUDA的算法时间复杂度很难量化.针对这一问题,提出了一种分层存储理论模型—HMM (Hierarchical Memory Machine)模型,该模型所具有的分层存储结构可以有效地描述图形处理单元设备不同存储模块的物理特性,因此非常适用于对CUDA算法时间复杂度的量化评估.作为HMM模型的应用实例,文章提出了一种基于HMM模型的并行近似字符串匹配算法,并给出了相应算法时间复杂度的计算过程.与串行算法相比,该算法可以获得60倍以上的加速比.  相似文献   

18.
在分析传统的模板匹配算法的基础上提出了一种新的基于字符串匹配的快速匹配算法。算法的思路是在模板图像上任意确定一列像素,并将这一列像素的灰度值看成是一个字符串,以此对原图像的每一列进行字符串匹配。如果在原图像上的某一列上找到了完全匹配的串,或者找到最大匹配的串,就找到了所要匹配的模板在图像中的可能位置。然后在所有找到的位置上再做进一步的字符串匹配。如此继续就可以确定模板图像在待匹配图像上的位置。算法在统计意义上保证了匹配效果,且提高了匹配速度。实验结果表明该算法是一种有效的图像匹配算法。  相似文献   

19.
基于匹配区域特征的相似字符串匹配过滤算法孙德才   总被引:1,自引:0,他引:1  
相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-gram命中的均匀性和q-gram有效命中的区域性.新算法利用这些新特征优化了传统过滤标准,提高了算法的过滤效率;并改进了QUASAR中基于分块策略的过滤区确定方案.实验结果表明,新算法与改进前相比有效地加快了匹配速度,尤其在误差率较小时改进效果更佳.  相似文献   

20.
M?kinen  Ukkonen  Navarro 《Algorithmica》2008,35(4):347-369
Abstract. We focus on the problem of approximate matching of strings that have been compressed using run-length encoding. Previous studies have concentrated on the problem of computing the longest common subsequence (LCS) between two strings of length m and n , compressed to m' and n' runs. We extend an existing algorithm for the LCS to the Levenshtein distance achieving O(m'n+n'm) complexity. Furthermore, we extend this algorithm to a weighted edit distance model, where the weights of the three basic edit operations can be chosen arbitrarily. This approach also gives an algorithm for approximate searching of a pattern of m letters (m' runs) in a text of n letters (n' runs) in O(mm'n') time. Then we propose improvements for a greedy algorithm for the LCS, and conjecture that the improved algorithm has O(m'n') expected case complexity. Experimental results are provided to support the conjecture.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号