首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
张毅超  车玫  马骏 《计算机仿真》2007,24(12):97-100,116
高效求解2个字符串的最长公共子串(Longest Common Substring)是实现很多字符串算法的关键.文中首先给出了求解LCP问题的动态规划算法,广义后缀树算法,研究并分析了这两种算法,得出动态规划算法易于理解,但时间复杂度较高;广义后缀树算法的时间复杂度较低,但实现较为复杂并且广义后缀树占用的空间也较多.最后提出了一个新算法,该算法使用2个字符串的广义后缀数组,在保持和广义后缀树时间复杂度相等的基础上,可以简单地实现并且占用较少的空间.  相似文献   

2.
移动用户的位置轨迹中蕴含着用户的运动规律,行为模式等丰富的信息。重点关注用户轨迹中的停留区域,从轨迹间共同停留区域的时空重叠中挖掘用户行为兴趣的相似性,提出一种基于最长公共子序列的用户时空行为兴趣相似性计算方法。提取轨迹中的停留区域,利用最小包围盒技术描述轨迹中的停留区域,结合最长公共子序列算法提出一种基于最长公共子包围盒长度的用户相似性计算方法。实验收集60个志愿者6周的真实时空轨迹数据来评价该方法,实验结果表明该方法具有较高的准确率。  相似文献   

3.
在移动对象轨迹预测中,针对低阶马尔可夫模型预测准确率不高、高阶模型状态空间膨胀的问题,提出一种基于概率后缀树(PST)的动态自适应变长马尔可夫模型预测方法。首先依时间先后将移动对象的轨迹路径序列化;然后根据移动对象的历史轨迹数据进行学习训练,计算序列上下文的概率特征,建立路径序列的概率后缀树模型,结合当前实际轨迹数据,动态自适应预测将来的位置信息。实验结果表明,该模型在二阶时取得最高的预测精度,随着阶数的增加,预测精度保持在82%左右,能取得较好的预测效果;同时空间复杂度呈指数级减少,大大节省了存储空间。该方法充分利用历史轨迹数据和当前轨迹信息预测未来轨迹,能够提供更加灵活、高效的基于位置服务。  相似文献   

4.
在传统的字符串处理算法中往往分别考虑字符串的频度和长度.然而,在实际应用中,将字符串的频度和长度结合考虑是有意义的.基于这点我们提出了频长积的概念,规定字符串的频度和长度的乘积为字符串的频长积.并基于广义后缀树和Ukkonen算法,提出了时间复杂度为O(N)的查找算法.效率实验证实了该算法的高效性.语义实验表明,本算法找出的最大频长积字符串相比于最大频度字符串或最大长度字符串,其实际语义更为明确.这样的字符串在文本压缩、基因序列的分析以及其他注重语义的应用中将具有很高的应用价值.  相似文献   

5.
传统的欧几里德距离度量函数计算轨迹相似性时,要求轨迹的每个位置点都要有对应点。由于噪声点的存在,导致轨迹距离出现较大偏差,降低轨迹相似性,增加轨迹的信息损失。针对这一问题,本文结合LCSS(最长公共子序列)距离函数和(k, δ)—匿名模型设计了LCSS-TA(最长公共子序列轨迹匿名)算法。该算法通过将轨迹位置点之间的距离映射成0或1来减小噪声点可能导致的较大距离。在合成数据集和含噪声的数据集下的实验结果表明,本文提出的算法在满足轨迹k-匿名隐私保护的基础上,可以有效降低噪声干扰,减少轨迹的信息损失。  相似文献   

6.
廖豪  陈洁  谭建龙 《计算机工程》2011,37(23):27-29,32
提出一种适用于大规模语料的频繁模式增量发现算法。统计局部区域提取的字符串频度,对局部相对低频字符串进行剪枝。利用多模式串匹配算法,统计剪枝后局部相对高频字符串在整个语料中的频度,得到频度大于阈值的频繁模式。实验结果表明,该算法具有较低的空间复杂度和时间复杂度,内存消耗为基于后缀数组的频繁模式发现算法的20%左右。  相似文献   

7.
随着移动服务和移动网络的持续发展,基于LBS的连续查询服务被广泛应用。基于单点的K-匿名位置隐私保护算法已经不能满足连续查询下用户位置隐私需求。针对用户轨迹隐私保护提出新的保护方法,该方法采用不可信第三方中心匿名器,用户获取自己的真实位置后首先在客户端进行模糊处理,然后提交给第三方匿名器,第三方匿名器根据用户的隐私需求结合用户某时刻的真实位置信息生成虚假用户,然后根据历史数据生成虚假轨迹。为了进一步提高虚假轨迹与用户真实轨迹的相似性,该算法提出了虚假轨迹生成的两个约束条件:虚假轨迹距用户真实轨迹的距离约束和相似性约束。经大量实验证明,该算法与传统的不同时刻K-匿名算法相比,不仅可以满足连续查询的用户轨迹隐私保护而且可以满足基于快照的LBS用户位置隐私保护。  相似文献   

8.
针对经典的基于编辑距离的字符串相似度计算方法计算效率低且准确率差的不足,提出一种基于编辑距离和最长公共子串的改进字符串相似度求解方法,引入最长公共前缀和最长公共后缀,定义新的相似度计算公式。将该方法应用于基于异构平台的动态异构web服务系统模型,通过网页篡改检测实验验证,与经典算法和经典公式相比,改进的相似度计算方法能够在适应自身差异性的基础上,提高相似度计算的准确性和计算效率。  相似文献   

9.
王璐  刘晓清  何震瀛 《计算机工程》2022,48(2):79-85+91
查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求。利用基于频率树的快速频繁词序列挖掘算法(TS_Mining),在保持后缀树线性构造时间的情况下实现文本集合中频繁词序列的查询,并采用树型索引结构避免多次扫描文本集合,降低算法时间复杂度。针对连续时间区间内的频繁词序列查询问题,提出改进的剪枝挖掘算法(TS_Pruning),通过减少频率树的扫描范围进一步提高挖掘效率。实验结果表明,TS_Mining与TS_Pruning算法的运行时间相比经典Apriori挖掘算法约减少了2个数量级,具有更高的频繁词序列挖掘效率。  相似文献   

10.
所谓的LCS(Longest Common Subsequence)问题,就是寻找生物序列的最长公共子序列。传统的算法都是基于字符串的比较。近几年不少学者给出了生物序列的图形表示,本文就利用DNA序列的一种二维图形表示采寻找最长公共子序列。  相似文献   

11.
基于改进编辑距离的字符串相似度求解算法   总被引:1,自引:0,他引:1  
编辑距离(LD)算法在求解两个字符串的相似问题时只考虑了编辑操作次数,未考虑字符串之间的公共子串对相似度的影响。为此,提出一种基于改进编辑距离的字符串相似度求解算法,对字符串相似度度量公式及Levenshtein矩阵计算方法进行改进。在计算编辑距离时,以原有矩阵求出两字符串的最长公共子串及所有LD回溯路径。选取一个单词作为源串,一组与源串不同程度相似的单词为目标串,将改进的相似度度量公式与现有的字符串相似度计算方法进行比较,改进公式减少了进入胜者表的目标串数,相似度的样本极差和标准差分别为0.331和0.150。实验结果表明,改进算法在不改变空间复杂度的情况下,计算字符串相似度的准确性更高,且查询方式更灵活。  相似文献   

12.
基于RFID路径数据的异常路径检测   总被引:1,自引:0,他引:1  
RFID技术在物流、供应链管理等需要跟踪物品流动的领域的广泛使用产生了大量路径数据。路径数据描述了物品在RFID系统中的移动轨迹, 路径数据中每个节点同时包含地点和时间信息, 使路径数据比一般的序列数据更复杂。针对现有的序列数据异常点检测算法不适合处理路径数据的情况, 对路径数据的异常路径检测进行了研究, 提出适用于路径数据的扩展概率后缀树(EPST)模型和一种采用该模型检测异常路径的方法。该模型用来计算每个路径和路径数据集的相似度, 在计算相似度时主要利用了路径数据的“短期记忆”性质, 同时考虑了地点和时间信息对路径数据相似度的不同影响。实验表明提出的算法能够准确地检测出异常路径, 并具有较低的空间复杂度。  相似文献   

13.
赵红 《计算机工程》2012,38(5):111-113
提出一种基于KMP的高效半脆弱音频水印算法,该算法可以容忍一定程度的常规信号处理操作,检测出对多媒体数据的恶意篡改并定位篡改区域。利用同步信号定位水印的嵌入位置,以提高水印提取的正确率,通过在水印检测系统中引入KMP搜索方法,在保证同步信号准确定位的同时提高算法效率。在篡改定位过程中,无需原始水印的参与。实验结果表明,该算法对篡改区域的定位较精确,效率高,有较好的抗裁剪性能。  相似文献   

14.
动态规划字符串匹配算法在曲线对比中的应用   总被引:2,自引:1,他引:1       下载免费PDF全文
曲线对比是地层对比的基础手段。提出了一种基于字符串的曲线对比方法,通过对地质事件的识别来符号化测井曲线,采用动态规划方法计算二个序列的最长公共子序列,将字符序列的相似性计算用于曲线对比中;算法允许在匹配过程跳过一定的字符数,实现了曲线的不连续对比。算法对于地层重复与缺失状况下的地层对比具有很好的适用性。  相似文献   

15.
李海林  邬先利 《计算机应用》2018,38(11):3204-3210
针对传统异常片段检测方法在处理增量式时间序列时效率低的问题,提出一种基于频繁模式发现的时间序列异常检测(TSAD)方法。首先,将历史输入的时间序列数据进行符号转化;其次,利用符号化特征找出历史序列数据集中的频繁模式;最后,结合最长公共子序列匹配方法度量频繁模式与当前新增加时间序列数据之间的相似度,从而发现新增加数据中的异常模式。与基于滑动窗口预测的水文时间序列异常检测方法(TSOD)和基于扩展符号聚集近似的水文时间序列异常挖掘方法(ESAA)相比,对于实验选择的三种类型的时间序列数据,TSAD的检测率都超过90%;TSOD对规则性较强的序列检测率较高,能达到99%,但对噪声干扰较大的序列检测率较低,对数据偏向性较强;ESAA对三种类型的数据检测率均不超过70%。实验结果表明,TSAD在时间序列异常检测中能够较好地发现异常片段。  相似文献   

16.
针对传统模糊支持向量机(FSVM)对于不确定性信息处理的局限性,提出一种基于模糊相似测量和高维空间模糊映射的改进模糊支持向量机方法。首先,构建不确定信息集的模糊相似测量函数, 从不确定性信息本质出发,利用Gregson相似度,构建具有模糊特征的相似测量函数;然后,根据空间映射理论,将模糊相似测量函数应用于FSVM,构建满足Mercer理论的FSVM相似内核;最后,利用该方法对旋转超声加工中材料切屑率(MRR)中的不确信性信息进行建模。对比具有传统内核的FSVM,所提方法能够利用较少的运算步骤完成较好的不确定性信息处理,有效提高不确定信息处理的准确性,且计算复杂度低。  相似文献   

17.
针对匿名用户数据的海量性与冗余性等特点,为提高数字证据的用户身份鉴定性能,文章提出基于用户行为模式的匿名数据鉴定方法.首先,文章研究了基于BIDE算法的用户频繁行为模式挖掘方法,为数据鉴定提供了高质量的用户频繁序列行为模式库.然后,采用基于最长公共子序列的相似度方法得到模式综合相似度,全面描述用户数据之间的吻合程度.最...  相似文献   

18.
在逆向工程的研究中,逻辑重构中的等级簇聚合算法计算效率较低。为了改进计算效率,基于最长公共子序列(LCS)与高内聚的思想提出改进的逻辑重构算法。利用组件和数据表的关系以及存在交集的组件之间的相似程度来生成模块,并循环迭代,从而可以得到清晰的组件关系。与现有的等级簇聚合算法相比,该算法无需反复计算距离,时间复杂度更低,计算效率更高。  相似文献   

19.
基于粒子群优化的高斯核函数聚类算法   总被引:2,自引:1,他引:1  
于进  钱锋 《计算机工程》2010,36(14):22-23
针对视频帧数据在时间轴上的高斯分布特征,提出基于样本和高斯核相似性度量的聚类算法,采用度量方法考虑概率分布密度因素,同时利用改进的粒子群优化算法加速聚类过程。实验结果表明,与基于C均值聚类算法相比,该算法具有较强的全局搜索能力和聚类精度,在视频数据聚类分析中具有更高的效率和更佳的聚类效果。  相似文献   

20.
String inclusion and non-inclusion problems have been vigorously studied in such diverse fields as molecular biology, data compression, and computer security. Among the well-known string inclusion or non-inclusion notions, we are interested in the longest common nonsuperstring. Given a set of strings, the longest common nonsuperstring problem is finding the longest string that is not a superstring of any string in the given set. It is known that the longest common nonsuperstring problem is solvable in polynomial time.In this paper, we propose an efficient algorithm for the longest common nonsuperstring problem. The running time of our algorithm is linear with respect to the sum of the lengths of the strings in the given set, using generalized suffix trees.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号