首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
介绍了基于词法规则的语义对象匹配算法,通过有限状态自动机将文本与描述语义对象的规则匹配,分析连续匹配成功的片段,以计算文本与语义对象的综合相似度,确定二者的匹配程度。该算法的特点是通过引入相似度计算,有效地解决了规则的不完全匹配问题。  相似文献   

2.
AAC算法(Advanced AC)是使用最为广泛的多模式串匹配算法,匹配性能高,匹配时间稳定。针对AAC算法为判定转移目标状态是否为终结状态,在匹配时每读入一个字符都要访问output表,代价较高的问题,通过两种方法改进了AAC算法。第一种方法为拷贝自动机中的终结状态,将其附加在AAC自动机后,并将原自动机中指向终结状态的转移目标修改为附加状态,直接根据转移目标位置判断当前状态是否是终结状态,从而提出Advanced AC with Additive state(AACA)算法。第二种改进方法为将自动机中指向终结状态的状态转移值置为负数,根据转移目标的值直接判断目标状态是否为终结状态,从而提出Advanced AC with Negative state(AACN)算法。以上两种改进算法只有在发现模式匹配时才需进行output表的访问。实验数据表明:AACA和AACN算法性能均高于AAC算法,特别在中小规模匹配上,性能提升更为明显。  相似文献   

3.
金军航  张大方  黄昆 《计算机工程》2010,36(19):269-271
为对现有的高性能正则表达式匹配算法进行综合比较与分析,实现诸如DFA、D2FA、CD2FA、mDFA及XFA等最新算法,采用Snort规则集综合评估这些算法的存储空间和匹配时间。实验结果表明,在存储空间方面,与mDFA相比,XFA的存储空间减少84.9%~89.9%;在匹配效率方面,与mDFA相比,XFA的匹配时间增加了38.9%~174.6%;XFA在存储空间和匹配效率上具有良好的可伸缩性,即当规则数增加到8倍时,mDFA的存储空间增长了64倍,而XFA的存储空间仅增加了16倍,匹配时间仅增加了61.3%。  相似文献   

4.
在语句语义相似度计算的算法中,没有考虑语句中的不同词语对语句之间相似度值的不同贡献程度,以致计算结果不理想。为此提出了基于频率函数的改进词语相似度算法,该算法将词语在语料库中的频率函数作为权重值,引入至语句的词语相似度计算中,以降低高频率词语在语句相似度值中的比重,提高算法精确率。由于当前审计方法存在散、乱、重复等现象,为了更好地复用已有的审计方法,将根据审计方法建立审计规则库,在此基础上,利用上述改进的语义相似度算法,计算用户输入与审计规则之间的相似度值,返回满足相似度阈值条件的审计规则所对应的审计方法,用户根据所返回的审计方法,选择合适的审计方法进行审计工作。实际应用表明,该算法的应用减少了人工搜索审计方法的时间,提高了审计效率。  相似文献   

5.
论文从实用的角度,着重研究了有限自动机算法在文本的不精确匹配中的应用,提出了一种用于中文精确匹配的自动机的构建思想,两种用于中文同音字匹配的自动机的构建思想,以及利用自动机的原理去除无用字符对文本匹配的干扰的方法。编程实现了上述三种自动机算法并对其作了测试,给出了三种算法各自的性能测试数据。  相似文献   

6.
多模式串匹配算法是网络内容过滤系统的核心技术之一.自动机的存储空间大小和Cache性能是影响多模式串匹配算法速度的关键因素.随着模式串规模的扩大,自动机的巨大存储开销导致现有的串匹配算法性能大幅度下降.从压缩存储空间以提高Cache命中率的思想出发,提出了一种对经典SBOM算法的优化策略,它用Suffix Tree代替SBOM算法中的Factor Oracle结构,同时用剪枝的方法将Suffix Tree降低为近似线性的空间复杂度,然后用双数组Trie表示之,以压缩存储空间.与SBOM算法相比,改进算法不仅能够有效地节省存储空间,而且显著地提高了串匹配的速度,非常适合于在线高速匹配的应用环境.  相似文献   

7.
图像匹配是图像处理应用于诸多领域的一项关键技术,基于不变特征的图像匹配是近年来图像匹配的研究热点。尺度不变特征是最有效的平移、尺度、旋转和亮度局部不变特征之一,但该算法一般会产生大量的错误匹配点。首先给出了交叉线和"一对多"类型的错误匹配点的剔除方法。然后针对一般性错误匹配点,提出了一种基于相似三角形的剔除方法,并通过实验将该算法与另外两种常用剔除算法进行了比较,证实本文提出的方法速度更快,且在剔除错误匹配点的同时保留了较多的正确匹配点。  相似文献   

8.
在基于有限自动机的多模式匹配算法DFSA的基础上,结合改进的BM单模式匹配算法的优点,提出一种快速的多模式字符串匹配算法。在一般情况下,该算法不需要匹配目标文本串的每个字符,能充分利用匹配过程中本次匹配不成功的信息和已成功的信息,跳过尽可能多的字符。实验表明,模式串较短时,该算法需要的时间约为DFSA的1/2,模式串较长时,所需时间约为DFSA算法的1/3。  相似文献   

9.
路网数据融合是路网数据更新以及提升数据质量的重要方法之一。而路网数据融合的关键技术在于路网匹配。结合路网数据源的特点,提出了一种顾及路段和结点拓扑关系,基于语义、几何和拓扑多种相似度量指标的路网匹配算法。通过实验表明,该算法能在不同尺度的路网数据中准确识别出互相匹配的路段,具备可操作性和实用性。  相似文献   

10.
本文给出了一种新的基于模式树构造的多模式并行匹配算法,算法高效简单且实现了匹配的并行化,特别适合于信息检索,摸式识别,入侵检测等的方面的多关键字查找。对比分析表明,新算法有较大的移动步长,能够有效减少了实际匹配的规模,使时间和资源消耗均得到了降低,提高了查找速度。  相似文献   

11.
改进的中文近似字符串匹配算法   总被引:1,自引:0,他引:1  
范立新 《计算机工程与应用》2006,42(34):172-174,207
BPM-BM算法在针对汉字等大字符集的近似字符串匹配时取得了很好的实际效果,但该算法在最差情况下的总体时间复杂度为O(!+nm)。而提出的IBPM-BM算法由于具有记忆的能力,保证了过滤阶段的无回溯,可以在理论上保证最差情况下的总体时间复杂度为O(!+n),而在最佳情况下的时间复杂度与BPM-BM算法一致。  相似文献   

12.
许家铭  李晓东  金健  马盈 《计算机工程》2014,(3):315-320,F0003
在Fan-Su(FS)多模式字符串匹配算法基础上,结合BM-Horspool(BMH)算法和Quick Search(QS)算法的优点,提出一种高效的多模式字符串匹配算法。该算法能够充分利用本次匹配失败和部分匹配成功的信息,一方面增加模式树根节点失配的概率,提高匹配过程中失配时的跳跃距离。另一方面避免不必要的状态转移,实现不匹配时的连续跳转。分析指出,在最好情况和平均情况下,时间复杂度均优于ACBM算法和FS算法。实验结果表明,一般情况下该算法的查找时间仅为AC算法的10%~35%,ACBM算法的50%~60%,FS算法的70%左右,FSQB算法的65%左右。  相似文献   

13.
目前,电信骨干网络大量采用2.5Gbps和10Gbps链路,对这类链路的流量进行审计必然需要采取机群方式,因此,如何进行负载平衡,如何尽可能减少后端分析系统的负载是迫切需要解决的问题.本文提出了一种基于两级审计的网络信息审计系统T-DNIAS,它由三部分组成:预处理分流结点、审计结点和控制结点.实际应用表明,它能有效地对内容进行审
计,识别非法信息,并且所需要的审计结点非常少.  相似文献   

14.
快速中文字符串模糊匹配算法   总被引:9,自引:3,他引:9  
本文解决了中文字符串模糊匹配的两个主要问题:空间问题和时间问题。目前字符串模糊匹配的两个主要方法是位向量方法和过滤方法。由于汉字众多,应用位向量方法时,需要大量空间。对于某些内存很少的小型计算机,比如嵌入式系统,这将会是一个问题。本文改进了位向量方法,使其在应用于中文字符串时,空间需求降低到约5%。本文还利用汉字非常多的特点,提出一种新的基于过滤方法的中文字符串模糊匹配算法,BPM-BM,其速度比世界上最快的算法至少提高14%;在大部分情况下,是其速度的1.5~2倍。  相似文献   

15.
一种有效的字符串有序跳跃模式近似匹配算法   总被引:1,自引:0,他引:1  
字符串的模式匹配问题是计算机科学的基本问题之一,而近似模式匹配更是近期的研究热点。本文分析了文本分析领域中出现的一种特殊的近似模式匹配问题,即字符串有序跳跃模式近似匹配问题,提出了一种基于有限自动机的组件组合分析算法。算法的特点在于将组件匹配过程与组配过程进行分离,这样既降低了问题的复杂度,又可以实现按策略组配的灵活性。组件匹配过程中利用有限自动机对跳跃模式的组件进行匹配查找;组件的组配过程中先对查找到的组件进行组合分析,然后再对各种组合进行初步筛选和基于策略的优选。初步筛选工作是依据顺序性、唯一性和最大数三条原则进行;而优选工作是根据四个设计的评价参数选择其中最佳组合。实验结果表明,该算法的确能解决字符串有序跳跃模式匹配问题,完全可以适用于句型匹配与主题词跳词匹配。  相似文献   

16.
满都呼  宋展 《集成技术》2016,5(1):33-43
CUDA (Compute Unified Device Architecture)是一种重要的并行处理架构,但其具有相对复杂的线程管理机制和多重存储模块,从而使得基于CUDA的算法时间复杂度很难量化.针对这一问题,提出了一种分层存储理论模型—HMM (Hierarchical Memory Machine)模型,该模型所具有的分层存储结构可以有效地描述图形处理单元设备不同存储模块的物理特性,因此非常适用于对CUDA算法时间复杂度的量化评估.作为HMM模型的应用实例,文章提出了一种基于HMM模型的并行近似字符串匹配算法,并给出了相应算法时间复杂度的计算过程.与串行算法相比,该算法可以获得60倍以上的加速比.  相似文献   

17.
中文信息检索系统的模糊匹配算法研究和实现   总被引:3,自引:0,他引:3  
在现代中文信息检索系统中,用户输入的字符串和实际数据库中的条目往往存在局部偏差,而基于关键词匹配的检索技术不能很好地解决这一问题。本文参考并改进了Tarhio和Ukkonen提出的过滤算法[1],针对汉字拼音输入法中常出现的同音字/近音字混用现象,将算法进一步扩展到广义的Edit Distance上。实验表明,本文提出的算法能有效提高中文信息检索系统的召回率,在实际应用中可达到“子线性”的效率。  相似文献   

18.
基于匹配区域特征的相似字符串匹配过滤算法孙德才   总被引:1,自引:0,他引:1  
相似字符串匹配过滤算法因其适合大库查找而被广泛应用,为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法.该算法将模式串和文本串分割成固定长度为kq+1的逻辑块,并从各块中提取了2个新的匹配区域特征:q-gram命中的均匀性和q-gram有效命中的区域性.新算法利用这些新特征优化了传统过滤标准,提高了算法的过滤效率;并改进了QUASAR中基于分块策略的过滤区确定方案.实验结果表明,新算法与改进前相比有效地加快了匹配速度,尤其在误差率较小时改进效果更佳.  相似文献   

19.
We give a randomized algorithm in deterministic time O(Nlog  M) for estimating the score vector of matches between a text string of length N and a pattern string of length M , i.e., the vector obtained when the pattern is slid along the text, and the number of matches is counted for each position. A direct application is approximate string matching. The randomized algorithm uses convolution to find an estimator of the scores; the variance of the estimator is particularly small for scores that are close to M , i.e., for approximate occurrences of the pattern in the text. No assumption is made about the probabilistic characteristics of the input, or about the size of the alphabet. The solution extends to string matching with classes, class complements, ``never match' and ``always match' symbols, to the weighted case and to higher dimensions. Received July 20, 1997; revised April 20, 1998, and June 1, 1999.  相似文献   

20.
提出了一种基于确定有穷自动机的快速多模式串匹配算法,在匹配过程中能尽可能多地跳过待查文本串字符。算法的特性为现代网络搜索引擎的复合条件查询提供了有力的软件支撑。实验表明可有效地改善网络搜索引擎的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号