首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 157 毫秒
1.
一种基于反向有限自动机的多模式匹配算法   总被引:1,自引:1,他引:0       下载免费PDF全文
在基于有限自动机的多模式匹配算法DFSA的基础上,结合改进的BM单模式匹配算法的优点,提出一种快速的多模式字符串匹配算法。在一般情况下,该算法不需要匹配目标文本串的每个字符,能充分利用匹配过程中本次匹配不成功的信息和已成功的信息,跳过尽可能多的字符。实验表明,模式串较短时,该算法需要的时间约为DFSA的1/2,模式串较长时,所需时间约为DFSA算法的1/3。  相似文献   

2.
在经典的AC多模式字符串匹配算法的基础上,结合BMH算法的优点,提出了一种快速的多模式字符串匹配算法。一般情况下,该算法不需要匹配目标文本串中的每个字符,而是在实际比较之前跳过尽可能多的字符,以减少字符比较的操作,实现快速匹配。在模式串较长和较短的情况下,算法都有很好的性能。实验表明,在模式串较短时,本算法所需的时间仅为AC算法的50%~30%;在模式串较长时,所需时间为AC算法的26.7%~15.2%。  相似文献   

3.
王浩  张霖 《计算机应用与软件》2012,29(5):114-116,129
提出一种基于坏字符序检测的快速模式匹配算法(BCSBM)。该算法利用相邻字符序列在模式串中不出现的概率较单字符高的特性,基于好字符和坏字符序表实现字符匹配过程的"跳跃"。BCSBM算法显著减少了匹配窗口内字符的匹配次数,同时增大了匹配窗口的平均移动距离。算法的实际测试效率较高,在文本或模式串相对较长的情况下该算法的效率提高明显。  相似文献   

4.
王锋 《福建电脑》2010,26(7):77-79
串匹配算法在数字通信等方面应用广泛,BM算法是主要的串匹配算法之一。文章在分析了BM算法过程和一些现有的改进算法,对这些算法进行了比较,并结合BMG算法,提出了一个新的改进算法。该算法考虑了模式匹配时出现重复字符时,比较的前一个字符的出现情况以及模式串首字符的特性,提高了模式串移动m+1位的概率,提高了匹配速度。  相似文献   

5.
基于有序二叉树的快速多模式字符串匹配算法   总被引:1,自引:0,他引:1       下载免费PDF全文
周燕  侯整风  何玲 《计算机工程》2010,36(17):42-44
将有序二叉树和QS算法相结合,提出一种快速多模式字符串匹配算法,实现在多模式匹配过程中不匹配字符的连续跳跃。为提高匹配速度,利用已匹配的字符串信息进行跳跃式的比较,避免文本扫描指针的回溯。实验结果表明,与SMA算法相比,该算法在预处理阶段构造速度和匹配速度更快,在模式串较长的情况下,性能更优越。  相似文献   

6.
基于KMP算法的改进算法KMPP   总被引:1,自引:0,他引:1  
KMP算法和BM算法是经典的单模式匹配算法,但KMP算法中文本指针i每次只能移动一个字符,整体的匹配效率并不高,结合KMP算法和BM算法的优点提出一种改进算法(KMPP)。算法的思想是模式串与文本在j处不匹配时,预算出模式串移动next[j]后末字符在文本中的位置,当该位置的文本字符与末字符不匹配时,则用该字符进行坏字符匹配,这两步的跳跃距离就是文本指针i移动的距离,从而使指针i每次移动的距离达到最大。实验结果表明,该算法匹配次数远低于KMP算法的匹配次数,提高了模式匹配的效率。  相似文献   

7.
多模式匹配是串处理系统中最重要的操作之一,而Wu-Manber算法是多模式串匹配算法中平均性能表现最好的算法.针对Wu-Manber多模式匹配算法在规则集中存在短模式串时性能下降的问题,提出一种按字长匹配的多模式匹配算法.改进的算法是在32位机器上实现,哈希的字符块长度取2,每次匹配的单位由原来的一个字符变为一个机器字,缩小了访存时间,同时利用机器字长存储的特点合理设计哈希函数,加快了字符块哈希值的计算,极大的提高了有短模式串存在时模式集的匹配性能.与原Wu-Manber算法对比,当最短模式串长度小于6时,改进后的算法搜索时间平均缩短了40%.当最短模式串长度为2和3时,搜索时间缩短了60%以上.  相似文献   

8.
网络信息审计系统中的多模式相似匹配算法   总被引:5,自引:0,他引:5       下载免费PDF全文
针对网络信息审计系统的需要,提出一种新颖的基于Episode距离的快速多模式相似串匹配算法.该算法把模式串集合转换为多个有限自动机,然后利用模式串集合建立一个状态驱动器.依次用待匹配串的字符驱动状态驱动器,由状态驱动器驱动各个有限自动机,实现了中英文混合的允许插入错误的相似多模式匹配.该算法不需要匹配每个字符,能充分利用匹配过程中本次匹配不成功的信息并结合改进的文本窗机制,跳过尽可能多的字符;能够控制每个模式串的允许错误上限;匹配速度与允许插入的错误字符教k无关.该算法在信息审计、数据库、信息检索等领域有  相似文献   

9.
BM算法是一类效率较高的单模式匹配算法,通常改进的BM算法往往从提高字符首次不匹配概率和匹配窗口的最大移动距离入手,但为实现此目的所带来的高访存开销使算法实际效率受到影响。DCSBM算法以适当减小关键步长为代价,在利用双字符序检测提高首次匹配失败概率的同时,对匹配窗口移动关键步长字符距离所需的查表次数和访存次数进行优化。经测试,DCSBM算法显著提高了匹配窗口的平均移动距离。在文本或模式串相对较长情况下,该算法实际测试效率优于BM、BMHS、BMN等算法。  相似文献   

10.
提出了一种基于确定有穷自动机的快速多模式串匹配算法,在匹配过程中能尽可能多地跳过待查文本串字符。算法的特性为现代网络搜索引擎的复合条件查询提供了有力的软件支撑。实验表明可有效地改善网络搜索引擎的性能。  相似文献   

11.
An efficient algorithm for matching multiple patterns   总被引:6,自引:0,他引:6  
An efficient algorithm for performing multiple pattern match in a string is described. The match algorithm combines the concept of deterministic finite state automata (DFSA) and the Boyer-Moore algorithm to achieve better performance. Experimental results indicate that in the average case, the algorithm is able to perform pattern match operations sublinearly, i.e. it does not need to inspect every character of the string to perform pattern match operations. The analysis shows that the number of characters to be inspected decreases as the length of patterns increases, and increases slightly as the total number of patterns increases. To match an eight-character pattern in an English string using the algorithm, only about 17% of all characters of the strong and 33% of all characters of the string, when the number of patterns is seven, are inspected. In an actual testing, the algorithm running on SUN 3/160 takes only 3.7 s to search seven eight-character patterns in a 1.4-Mbyte English text file  相似文献   

12.
基于过滤的中文多模式近似字符串匹配算法   总被引:1,自引:0,他引:1       下载免费PDF全文
当前近似字符串匹配算法主要针对英文等中小字符集,该文针对汉字等大字符集的有效算法很少,尤其缺少适合汉字等大字符集的多模式近似匹配算法的情况,提出了一种适合汉字等大字符集的多模式近似匹配算法——MBPM-BM,通过实验证明了该算法的有效性。 近似字符串匹配;中文字符串匹配;多模式匹配;位并行运算;过滤  相似文献   

13.
论文从实用的角度,着重研究了有限自动机算法在文本的不精确匹配中的应用,提出了一种用于中文精确匹配的自动机的构建思想,两种用于中文同音字匹配的自动机的构建思想,以及利用自动机的原理去除无用字符对文本匹配的干扰的方法。编程实现了上述三种自动机算法并对其作了测试,给出了三种算法各自的性能测试数据。  相似文献   

14.
共指消解是自然语言处理的核心任务之一。在传统机器学习方法使用的平面特征基础上,该文提出一种利用中心语信息的新方法。该方法首先引进一种基于简单平面特征的实例匹配算法用于共指消解。在此基础上,又引入了先行语与照应语的中心语字符串作为新特征,并提出一种竞争模式对将中心语约束融合进实例匹配算法,提升了消解效果。该方法与其他只使用平面特征的传统机器学习方法相比,能充分地利用每一个训练实例的特征信息,进一步融合中心语字符串特征使消解效果更加准确。  相似文献   

15.
为了获得高效的拼接结果,针对新测序技术产生的较短测序片段,提出了通过对测序片段编码,将其映射到能够快速查找的自定义表中,结合高效位并行字符串模糊匹配算法-BPM,从自定义表中寻找较长连通路径的方法,实现了对短测序片段的快速拼接.实验结果表明,该算法针对500M的高质量源数据,在耗时136s的情况下,准确度可达79%,覆盖度可达82%;针对错误率为0.1%的500M源数据,在耗时150s的情况下,准确度可达72%,覆盖度可达73%.在短时间内较好的完成了拼接任务.  相似文献   

16.
雷东  王韬  马云飞 《计算机科学》2017,44(1):128-133
为解决比特流频繁序列挖掘效率不高以及易受用户数据影响而导致准确率低的问题,首先从理论上论证了短频繁序列挖掘存在的局限性,根据不同长度的频繁序列挖掘时存在的特点,将其分为长频繁序列与短频繁序列,提出比特流协议头部字段定位算法;基于AC多模式匹配算法分别针对长、短频繁序列挖掘的不同特点,提出了相应的挖掘方法,提高了挖掘结果的准确性。最后通过实验验证了所提算法的有效性。  相似文献   

17.
一种适用于大规模特征集的快速匹配算法   总被引:1,自引:0,他引:1  
提出了一种适用于大规模特征集的快速匹配算法——SRS算法,该算法性能优异,在特征集达到100000条时,匹配速度比经典算法快10倍以上。该算法适用于内容过滤、防病毒、反垃圾邮件、短信过滤、网络入侵检测和防御等众多领域。  相似文献   

18.
RETE算法是一种效率很高的模式匹配算法,但若实现得不当,也会出现效率低下的状况,其中模式的次序是影响效率的重要因素,鉴于此,在专家系统工具OCLIPS中,提出了几项原则用以调整模式间的次序,提高推理效率,文中最后,给出了有关的数据结构及实现算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号