共查询到20条相似文献,搜索用时 78 毫秒
1.
2.
刘佳新 《计算机技术与发展》2012,(5)
为了减少在序列模式挖掘过程中由于重复运行挖掘算法而产生的时空消耗,提出了一种基于频繁序列树的交互式序列模式挖掘算法(ISPM). ISPM算法采用频繁序列树作为序列存储结构,频繁序列树中存储数据库中满足频繁序列树支持度阈值的所有序列模式及其支持度信息.当支持度发生变化时,通过减少本次挖掘所要构造投影数据库的频繁项的数量来缩减投影数据库的规模,从而减少时空消耗.实验结果表明,ISPM算法在时间性能上优于PrefixSpan算法和Inc-Span算法 相似文献
3.
网络告警序列中的频繁情景规则挖掘算法 总被引:4,自引:1,他引:4
网络告警序列中隐含着丰富的关于网络自身行为特征的模式知识,对其进行有效挖掘和利用将显著提高网络故障管理智能化程度.本文研究网络告警序列中的知识发现问题,提出并实现了一种基于滑动窗口的情景规则挖掘算法。 相似文献
4.
生物医学领域信息量的飞速增长,极大地促进了人们的交流和研究,同时也使人们在海量的信息面前无所适从:这就提出了对信息进行分类筛选的需求。词库对于文本分类的结果有着至关重要的作用,只有能实时更新新词的词库才能适应使用的需要。该文章提出并实现一种基于频繁序列的新词挖掘算法,能够正确提取出中文文本中的新词,从而及时更新维护词库,使文本分类更为准确。 相似文献
5.
由于频繁闭序列在数量上要远小于频繁序列且与频繁序列有着相同的表达能力在近几年倍受关注.频繁闭序列挖掘过程中最耗时同时也是最关键的步骤是序列间的包容关系检查,作者分析了频繁闭序列自身的特点以及已有的频繁闭序列挖掘算法,提出了一个挖掘频繁闭序列的算法FCSeq,该算法通过引入快速包含检查策略大大减少了不必要的包容关系判断,对提高算法的性能有着显著的作用,实验表明该算法有效. 相似文献
6.
生物医学领域信息量的飞速增长,极大地促进了人们的交流和研究,同时也使人们在海量的信息面前无所适从;这就提出了对信息进行分类筛选的需求。词库对于文本分类的结果有着至关重要的作用,只有能实时更新新词的词库才能适应使用的需要。该文章提出并实现一种基于频繁序列的新词挖掘算法,能够正确提取出中文文本中的新词,从而及时更新维护词库,使文本分类更为准确。 相似文献
7.
预取作为一种提升存储系统性能的有效手段被广泛使用,然而传统的预取算法大多基于顺序性访问特征的探测,这使得它们在非顺序数据访问环境下很难奏效,甚至可能因为预取准确率较低而对存储系统的性能带来负面影响.而基于频繁序列挖掘的预取算法则能够通过分析数据的访问行为找出潜在规律,从而能在非顺序访问模式下也取得一定的性能提升.同时,为了应对某些缓存受限的应用场景,如嵌入式系统,预取算法通过提高分析的准确率减少预取可能对缓存带来的不利影响.新提出的预取算法基于频繁序列挖掘技术,并使用字典树组织预取规则,通过多步匹配和子树分割技术精细地控制规则的使用,提升预取的准确率,从而使得预取算法能够有效提升存储系统的性能. 相似文献
8.
针对当数据集含有敏感信息时,直接发布频繁序列模式本身及其支持度计数都有可能泄露用户隐私信息的问题,提出一种满足差分隐私(DP)的频繁序列模式挖掘(DP-FSM)算法。该算法利用向下封闭性质生成候选序列模式集,基于智能截断方法从候选模式中挑选出频繁的序列模式,最后采用几何机制对所选出模式的真实支持度添加噪声进行扰动。另外,为了提高挖掘结果的可用性,设计了一个阈值修正的策略来减小挖掘过程中的截断误差和传播误差。理论分析证明了该算法满足ε-差分隐私。实验结果表明了该算法在拒真率(FNR)和相对支持度误差(RSE)两个指标上明显低于对比算法PFS2,有效地提高了挖掘结果的准确度。 相似文献
9.
一种基于频繁序列树的增量式序列模式挖掘算法 总被引:1,自引:0,他引:1
针对目前现有的增量式序列模式挖掘算法没有充分利用先前的挖掘结果,当数据库更新时,需要对数据库进行重复挖掘的问题。本文提出一种基于频繁序列树的增量式序列模式挖掘算法(ISFST),ISFST采用频繁序列树作为序列存储结构,当数据库发生变化时,ISFST算法分两种情况对频繁序列树进行更新操作,通过遍历频繁序列树得到满足最小支持度的所有序列模式。实验结果表明,ISFST算法在时间性能上优于PrefixSpan算法和IncSpan算法。 相似文献
10.
11.
为了有效地解决客户序列视图数据库的数据挖掘问题,借鉴了关联规则挖掘最大频繁项目集DMFIA算法的相关思想.详细阐述了该算法,针对原算法不能有效地解决客户序列视图数据库的数据挖掘这一问题,在原算法的基础上结合序列模式提出了改进的DMFIA算法,并在原算法的基础上有了较大的改进.为了验证算法的正确性,运用Ora-cle9i数据库的PL/SQL进行了相应的验证.实验结果证实了改进算法的有效性和实用性,并具有较好的创新性和理论价值. 相似文献
12.
阐述了挖掘最大频繁项目序列集ISS_DM算法,针对该算法不能有效地解决客户序列视图数据库的数据挖掘问题,结合序列模式提出了改进的ISS_DM算法,并进行了相应的验证.实践证明,改进后的算法同原算法相比,对相同的数据量进行挖掘,算法执行时间明显减少,效益较高. 相似文献
13.
14.
利用元学习技术提出了一种分布式挖掘频繁闭合模式算法;为适应不同的分布式环境,还给出了该算法的一个变种;最后通过实验讨论了不同分布式下选取算法的策略。算法具有挖掘效率高、通信量少、可靠性高的特点,适合分布式挖掘。 相似文献
15.
张军 《计算机工程与应用》2008,44(12):161-165
从数学规划的角度重新表述了单维布尔型频繁项挖掘问题,利用新定义的加法和数乘及范数运算将其归结为一个非线性0-1规划问题,并利用遗传算法进行求解。在分析频繁项挖掘问题困难原因的基础上,提出了利用原数据库记录确定初始种群的方法,并在IBM公布的ticeval2000数据库上进行了数值实验。实际计算结果表明,该方法一般在几代内即可找到一批长频繁模式。 相似文献
16.
在频繁模式挖掘过程中能够动态改变约束的算法比较少.提出了一种基于约束的频繁模式挖掘算法MCFP.MCFP首先按照约束的性质来建立频繁模式树,并且只需扫描一遍数据库,然后建立每个项的条件树,挖掘以该项为前缀的最大频繁模式,并用最大模式树来存储,最后根据最大模式来找出所有支持度明确的频繁模式.MCFP算法允许用户在挖掘频繁模式过程中动态地改变约束.实验表明,该算法与iCFP算法相比是很有效的. 相似文献
17.
AGM算法最早将Apriori思想应用到频繁子图挖掘中。AGM算法结构简单,以递归统计为基础,但面临庞大的图数据集时,由于存在子图同构的问题,在生成候选子图时容易产生很多冗余子图,使计算时间开销很大。基于AGM算法,针对候选子图生成这一环节对原算法进行改进,减少了冗余子图的生成,使改进后的算法在计算时间上具有高效性;测试了在不同最小支持度情况下改进方法的时间开销。实验结果表明改进算法比原算法缩短了计算时间,提高了频繁子图的挖掘效率。 相似文献
18.
对现有的基于MapReduce的并行频繁项集挖掘算法进行了研究, 提出一种基于后缀项表的并行闭频繁项集挖掘算法, 通过后缀项表的引入及以闭频繁项集挖掘的形式, 减少组分间的数据传送量, 提高挖掘效率。实验表明, 该算法可以有效缩短平均挖掘时间, 对于高维大数据具有较好的性能。 相似文献
19.