首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 890 毫秒
1.
针对动态数据库随时间发生改变的特性,提出了一种新的在动态数据库中挖掘频繁子树的算法,引入树的转变概率、子树期望支持度和子树动态支持度等概念,提出了动态数据库中的支持度计算方法和子树搜索空间,从而解决了数据动态变化的频繁子树挖掘问题。随着子树搜索的进行,算法定义裁剪公式和混合数据结构,能有效地减少子树搜索空间和提高频繁子树的同构速度。实验结果表明,新算法有效可行,且具有较好的运行效率。  相似文献   

2.
基于投影分支的快速频繁子树挖掘算法   总被引:10,自引:1,他引:9  
频繁子树挖掘在生物信息、Web挖掘等很多领域都具有较高的应用价值.在频繁子树挖掘中引入投影分支的概念,并提出基于投影分支的快速频繁子树挖掘算法——FTPB.FTPB算法充分利用树结构本身的特点,在计算投影分支的同时解决树同构的判断问题,扫描数据库后能够根据当前的频繁模式树直接生成新的频繁模式树,可减少数据库的扫描次数和候选模式的搜索空间,从而降低算法复杂度.理论分析和实验结果表明,该算法较其他同类算法相比具有较高的效率,是有效可行的.  相似文献   

3.
基于投影编码的频繁子树挖掘算法   总被引:2,自引:0,他引:2  
频繁子树挖掘被广泛地应用于Web挖掘、生物信息学、XML数据挖掘等领域.提出一种新的算法--PETreeMiner.算法利用序列中无候选产生的技术--前缀投影技术来挖掘频繁子树.在树的先序遍历序列中加入结点的范围属性,在投影过程中进行编码,使得挖掘到的频繁子序列直接对应成一棵频繁子树.实验结果表明算法优于其他算法.  相似文献   

4.
目前大多数频繁子树算法都是挖掘频繁子树完全集,这些算法数据搜索空间的内存开销和输出的结果集都非常庞大.为了减小结果集,提出基于子树约束的最大频繁子树算法--CSMTreeMiner,采用垂直和层次扩展的方法来枚举频繁子树,并使用覆盖关系来对不可能生成最大频繁子树的模式进行删除.实验结果验证CSMTreeMiner算法的有效性和稳定性.  相似文献   

5.
PFTM:一种基于投影的频繁子树挖掘算法   总被引:1,自引:1,他引:1  
频繁子树在Web挖掘、XML文档分析、生物信息处理等领域有着重要的应用。提出了一种新的基于投影的频繁子树挖掘算法(PFTM),通过对数据库和候选节点集进行投影,并采用递推式候选节点集更新技术来有效地压缩搜索空间。以高效地从森林中挖掘出频繁子树。PFTM不需要产生候选子树。性能对比实验表明,PFTM是有效和可扩展的,而在算法效率上,PFTM要比FREQT平均高出40%左右。  相似文献   

6.
为提高频繁子树挖掘算法效率,结合原有频繁子树挖掘算法FSubtreeM的相关技术提出了新的全局树引导结构及其相关引理,并证明了其正确性.最后提出了新的频繁子树挖掘算法FSM_CGTG,并通过实验证明了该算法在现实数据集上的有效性且比现有频繁子树挖掘算法FSubtreeM性能优越.  相似文献   

7.
夏英  李洪旭 《计算机应用》2017,37(9):2439-2442
无序树常用于半结构化数据建模,对其进行频繁子树挖掘有利于发现隐藏的知识。传统的频繁子树挖掘方法常常输出大规模且带有冗余信息的频繁子树,这样的输出结果会降低后续操作的效率。针对传统方法的不足,提出了一种用于挖掘覆盖模式(MCRP)算法。首先,采用宽度孩子数编码对树进行编码;然后,通过基于最大前缀编码序列的边扩展方式生成所有的候选子树;最后,在频繁子树集和δ'-覆盖概念的基础上输出覆盖模式集。与传统的挖掘频繁闭树模式和极大频繁树模式的算法相比,该算法能够在保留所有频繁子树信息的情况下输出更少的频繁子树,并且将处理效率提高15%到25%。实验结果表明,所提算法能有效减小输出频繁子树的规模,减少冗余信息,在实际操作中具有较高的可行性。  相似文献   

8.
在挖掘无序树频繁模式的过程中,大多数的算法都是先产生候选者,再进行模式匹配判断它是否为频繁子树.产生候选者本身就需要消耗很大的空间来保存,并且要在复杂的树结构里做匹配也是件难事,它会影响整个挖掘过程的效率.为了尽量避免产生不必要的候选者,提高发现频繁模式的效率,基于对相关算法的研究,引进树投影资料库的概念,并在RootedTreeMiner算法的基础上,采用其模式延伸方法和广度优先标准型式概念,提出子树频繁度、频繁可延伸点串的概念,从而更有效系统地枚举所有的频繁模式树,并给出无序频繁子树挖掘算法FVTreeMiner.经系列实验结果证实了该算法合理、高效,并可以减少一定的内存开销和运行时间开销.  相似文献   

9.
本文提出了一种基于升序FP-tree的频繁模式挖掘算法,该算法按照支持度升序构造升序FP-tree,并通过在其中搜索扩展频繁集及归并子树来挖据频繁模式。实验表明,与FP-growth算法相比,算法的挖掘速度提高了将近2倍,此外新算法还具有比较好的伸缩性。  相似文献   

10.
高效挖掘无序频繁子树   总被引:4,自引:0,他引:4  
频繁模式挖掘是数据挖掘领域的中一个重要问题,其研究范围包括事务,序列,树和图.频繁子树挖掘广泛应用于生物信息学,web挖掘,化合物结构分析和挖掘等领域.本文提出用模式增长方法在由无序树构成的森林中挖掘直接频繁子树.算法利用规范化方法将元序树化为为唯一的表示形式,利用最右路径扩展方法构造完整的模式增长空间,然后根据待增长模式的拓扑结构确定其增长点并构造相应投影库,从而将挖掘频繁子树模式问题转化为在各投影库中寻找频繁节点问题.通过与HybridTreeMiner算法的实验比较,表明其具有更高的效率。  相似文献   

11.
12.
高效用模式挖掘是数据挖掘领域的一个基础研究方向,其中关于top-k高效用模式的挖掘算法也越来越多,其中k指的是用户需要挖掘的高效用模式的个数。它们可以归纳为两类:二阶段top-k算法和一阶段top-k算法。两者的主要区别是,前者在挖掘的过程中会产生大量的候选模式,这个是影响算法性能的主要因素;后者在挖掘的过程中不产生候选模式。为了更加高效地挖掘效用值最高的k个模式,一阶段算法TKHUP被提出。该算法在进行数据挖掘的过程中主要是通过四个有效策略来减少时间和空间消耗的。通过大量的实验数据表明,TKHUP在时间性能上优于其它top-k高效用模式挖掘算法。  相似文献   

13.
14.
15.
一种基于栈变换的高效关联规则挖掘算法   总被引:12,自引:0,他引:12  
在一个模式信息保全引理的基础上,提出了一个基于频繁模式栈变换的关联规则挖掘算法FPST,给出了相应的栈构造和栈变换的算法描述,并进行了算法的性能分析和比较试验,结果表明算法性能优良。  相似文献   

16.
本文对数据挖掘课程的特点以及应用领域、数据预处理方法以及关键的四项技术、Web挖掘与个性化推荐以及算法实现及应用上做了分析,并且在教学实践中做了尝试,提出了一些经验和不足。  相似文献   

17.
In this paper, we present a new approach to derive groupings of mobile users based on their movement data. We assume that the user movement data are collected by logging location data emitted from mobile devices tracking users. We formally define group pattern as a group of users that are within a distance threshold from one another for at least a minimum duration. To mine group patterns, we first propose two algorithms, namely AGP and VG-growth. In our first set of experiments, it is shown when both the number of users and logging duration are large, AGP and VG-growth are inefficient for the mining group patterns of size two. We therefore propose a framework that summarizes user movement data before group pattern mining. In the second series of experiments, we show that the methods using location summarization reduce the mining overheads for group patterns of size two significantly. We conclude that the cuboid based summarization methods give better performance when the summarized database size is small compared to the original movement database. In addition, we also evaluate the impact of parameters on the mining overhead.  相似文献   

18.
正常用户行为活动是随时间变化的,一个异常分析系统要能适应这种变化更新正常行为模型,避免误报警.对增量更新算法进行了研究,使用线性回归的方法对相似度进行估计,如果实际相似度与估计值差值大于某个阈值,则产生报警;否则采用改进的滑动窗增量挖掘的方法,更新正常活动模型.并用DARPA-MIT 1999数据集验证其可行性.  相似文献   

19.
直接挖掘跨层关联规则的新方法   总被引:4,自引:2,他引:4  
文章定义了一种跨层扩展频繁项目图Clefig,提出了基于Clefig直接产生频繁模式算法Clefig-Prod。它能高效地挖掘单层、多层特别是跨层关联规则。实验表明,在多层、跨层和支持率阀值较小的单层挖掘上,Clefig-Prod效率优于Cumulate、Apriori等经典算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号