首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
FP-growth算法是挖掘频繁项集的经典算法,它利用FP-树这种紧凑的数据结构存储事务数据库与频繁项集挖掘相关的全部信息,但对于挖掘加权频繁项集并不合适。分析了现有加权频繁项集挖掘算法中存在的问题,并对FP-树进行改进,构造新的加权FP-树,提出了有效挖掘加权频繁项集的算法。最后举例说明了算法的挖掘过程,并通过实验验证了算法的有效性。  相似文献   

2.
为解决加权图遍历模式的挖掘问题,提出了一种从加权有向图中挖掘加权频繁模式算法.在该算法中,利用图全局拓扑结构和顶点权值信息评估遍历模式的权支持度,从而将剪枝问题转化成模式可扩展性问题,再利用可扩展模式产生候选模式集.本算法把图,顶点权值融合进来,提高了挖掘结果的准确度.实验结果表明,该算法可以有效地进行基于加权向图的权频繁模式挖掘.  相似文献   

3.
加权频繁模式挖掘比传统的频繁模式挖掘更加的具有实际意义,针对数据流中的数据只能扫描有限次的性质,提出了基于滑动窗口模型的数据流加权频繁模式挖掘方法WFP-SW,该算法中数据存储采用的是矩阵数据结构,通过矩阵之间的相关操作来产生加权频繁模式。实验结果显示,该算法在产生加权频繁模式的时候不产生冗余模式,比传统的频繁模式挖掘算法有更好的效率。  相似文献   

4.
一种基于加权的高效关联规则挖掘算法的设计与实现   总被引:8,自引:2,他引:6  
文章研究了在大型事务数据库中挖掘加权关联规则的问题,给出了加权频繁模式树的定义,在挖掘算法MIN-WAL(O)和MINWAL(W)的基础上,提出了一种基于加权频繁模式树的加权关联规则挖掘算法-WFPTA,并做了相应的算法比较,试验结果表明算法WFPTA是有效的。  相似文献   

5.
陈文 《计算机工程》2012,38(6):63-65
提出一种不产生候选项目集的加权频繁模式挖掘算法。对每个项目集权重进行归一化操作,避免加权支持率大于1,证明该算法满足加权向下封闭性。在此基础上,构建基于加权Fp树的剪枝策略。实例分析和实验结果表明,该算法能减少加权频繁项目集生成过程中的计算量,提高加权频繁项目集的生成效率。  相似文献   

6.
基于Apriori的加权频繁项集挖掘算法存在扫描数据集次数多的问题。为此,提出一种基于动态项集计数的加权频繁项集算法。该算法采用权值键树的数据结构和动态项集计数的方法,满足向下闭合特性,并且动态生成候选频繁项集,从而减少扫描数据集的次数。实验结果证明,该算法生成的加权频繁项集具有较高的效率和时间性能。  相似文献   

7.
分析了New-Apriori和MWFI(Mining Weighted Frequent Itemsets)算法之不足,提出了一种挖掘加权频繁项集的New-MWFI算法。该算法按属性的权值对事务进行分类,并依次求出每个类别内的加权频繁项集。由于每个类别内的频繁项集满足Apriori性质,因而可以利用Apriori算法或其他改进算法进行挖掘,从而克服了原来算法的不合理和效率低下的缺陷。实验表明该算法能更有效地从数据集中挖掘出加权频繁项集。  相似文献   

8.
加权最大频繁子图挖掘算法的研究   总被引:2,自引:1,他引:1       下载免费PDF全文
如何从大量的图中挖掘出令人感兴趣的子图模式已经成为数据挖掘领域研究的热点之一。传统的频繁子图挖掘方法对满足最小支持度阈值的子图同等对待,但在真实数据库中不同的子图往往具有不同的重要程度。为解决上述问题,提出了一种深度优先的挖掘加权最大频繁子图的新算法。首先给出了一种新的用于计算图的邻接矩阵规范编码的结点排序策略,大大降低了求图规范编码的复杂度,并可以加速子图规范编码匹配的速度。其次,给出了加权最大频繁子图的定义,不仅可以找出较为重要的最大频繁子图,而且可以使挖掘结果同样具有反单调性,从而可加速剪枝。实验结果表明,提出的算法不仅可以有效地减少挖掘结果的数量,而且具有较高的效率。  相似文献   

9.
社会网络上的模式挖掘是近年来的研究热点之一,合作模式是社会网络上个体间的合作方式,这种模式可以通过社会网络的子结构表示。已有的基于频繁模式的挖掘算法主要考虑合作关系的结构特征,并且往往需要给定支持度阈值来控制结果的规模。在本文中,我们认为社会网络中的模式不一定需要是频繁的,模式与社区也并不需要精确匹配。我们在合作模式中考虑节点的社会地位,并在加权图上给出了一种模式的定义方法,和一种基于互相似性的模式匹配衡量标准,目的在于找出网络中具有"代表性"的合作模式。我们设计了一种基于距离的聚类方法用于抽取这种模式,并在一个大规模的真实数据集上进行了验证。  相似文献   

10.
为解决加权遍历模式挖掘问题,概括了加权有向图的种类,提出一种边加权有向图与顶点加权有向图间的变换模型,并基于该模型提出一种基于图遍历的加权序列模式挖掘算法GTWSPMiner.该算法根据遍历模式中的项的连续性特点,采用一种加权前缀投影序列模式增长方法,将原挖掘序列数据库的任务分解成一组挖掘局部投影数据库的小任务.对比实验结果表明,该算法能快速有效地挖掘加权频繁遍历模式.  相似文献   

11.
随着社交网络的流行,对其进行频繁子图挖掘的需求越来越强烈.大数据时代的到来,社交网络规模不断扩大,频繁子图挖掘工作变得愈发困难.在实际应用中,往往并不需要精确地挖掘出频繁子图,采样的方法在保证一定准确率的前提下能够显著提高频繁子图挖掘的效率.现有采样算法大多是根据节点的度进行采样,不适用于频繁子图挖掘.提出了一种基于频繁边的采样算法DIMSARI(distributed Monte Carlo sampling algorithm based on random jump and graph induction),在蒙特卡罗算法的基础上增加了根据频繁边进行随机跳的操作,并对其结果进行了图感应操作,进一步增加了算法的准确性,并在理论上证明了该方法的无偏性.实验结果显示:使用DIMSARI算法采样后进行频繁子图挖掘,准确性比现有其他的采样算法有较大的提高,在不同的采样率下采样后的子图的节点度都保持更小的归一化均方偏差.  相似文献   

12.
从图数据库中挖掘频繁跳跃模式   总被引:4,自引:0,他引:4  
刘勇  李建中  高宏 《软件学报》2010,21(10):2477-2493
很多频繁子图挖掘算法已被提出.然而,这些算法产生的频繁子图数量太多而不能被用户有效地利用.为此,提出了一个新的研究问题:挖掘图数据库中的频繁跳跃模式.挖掘频繁跳跃模式既可以大幅度地减少输出模式的数量,又能使有意义的图模式保留在挖掘结果中.此外,跳跃模式还具有抗噪声干扰能力强等优点.然而,由于跳跃模式不具有反单调性质,挖掘它们非常具有挑战性.通过研究跳跃模式自身的特性,提出了两种新的裁剪技术:基于内扩展的裁剪和基于外扩展的裁剪.在此基础上又给出了一种高效的挖掘算法GraphJP(an algorithm for mining jump patterns from graph databases).另外,还严格证明了裁剪技术和算法GraphJP的正确性.实验结果表明,所提出的裁剪技术能够有效地裁剪图模式搜索空间,算法GraphJP是高效、可扩展的.  相似文献   

13.
陈文 《计算机工程》2010,36(13):59-61
针对交易数据库中数据项重要性不同的现象,引入加权支持度和最小支持期望的概念,提出一种基于关联图的加权关联规则模型,并在该模型基础上,设计了改进的加权关联规则挖掘算法。该算法扫描数据库仅一次,采用关联图存储频繁2项集信息,通过构建基于图的剪枝策略,减少验证频繁项集的计算量,有效提高加权频繁项集的生成效率。  相似文献   

14.
从不确定图中挖掘频繁子图模式   总被引:8,自引:0,他引:8  
邹兆年  李建中  高宏  张硕 《软件学报》2009,20(11):2965-2976
研究不确定图数据的挖掘,主要解决不确定图数据的频繁子图模式挖掘问题.介绍了一种数据模型来表示图的不确定性,以及一种期望支持度来评价子图模式的重要性.利用期望支持度的Apriori性质,给出了一种基于深度优先搜索策略的挖掘算法.该算法使用高效的期望支持度计算方法和搜索空间裁剪技术,使得计算子图模式的期望支持度所需的子图同构测试的数量从指数级降低到线性级.实验结果表明,该算法比简单的深度优先搜索算法快3~5个数量级,有很高的效率和可扩展性.  相似文献   

15.
图挖掘是数据挖掘的一个重要研究方向,而图挖掘主要集中在图数据集内频繁子图的挖掘。频繁子图挖掘技术的关键是建立有效机制减少冗余候选子图,以便高效计算和处理所需的频繁子图。提出了一种基于路径的频繁子图挖掘算法,该算法首先找出所有频繁边从而挖掘出频繁单路径,然后通过组合、双射和操作扩展出较多的频繁路径,再通过连接操作产生所有频繁子图候选集。通过定理证明了该算法的正确性和完整性,从理论上分析了该算法时间复杂度低于现有的算法,最后进行了2个图数据集实验,在候选集产生的数量和时间性能2方面验证了算法的优越性。  相似文献   

16.
近似频繁模式衍生于频繁模式,综合了频繁项集与频繁子图的特点。针对该模式的研究集中在无标签图上,其应用场景主要为社交网络、语义网络、智能电网等。近似频繁模式挖掘过程同时涉及频繁项集挖掘和频繁子图挖掘,因此已有的处理频繁模式挖掘算法无法较好地解决近似频繁模式挖掘问题。基于近似频繁模式结构,将其拓展到带标签图中,引入标签集约束,并设计标签集约束近似频繁模式挖掘算法LCPP(Label-Constraint Proximity Pattern),该算法并行部署在MapReduce计算模型中,弥补了开源pFP算法处理大规模数据时效率不高的缺点。实验结果验证了该算法的有效性和可扩展性,表明了LCPP算法是pFP算法的极佳补充。  相似文献   

17.
随着图数据收集技术在许多科学领域的发展,对图数据分类已成为机器学习和数据挖掘领域的重要课题.目前已经提出许多图分类方法.其中,一些图分类方法采用3步来构筑分类模型;一些图分类方法采用2步来构筑分类模型.这些方法在挖掘频繁子图或特征子图时,只考虑到子图的结构信息,而没有考虑到子图的嵌入信息.为此,在L-CCAM子图编码的基础上,提出了一种基于嵌入集的图分类方法.该方法采用基于类别信息的特征子图选择策略,不但考虑了子图的结构信息,而且在频繁子图挖掘过程中充分利用嵌入信息——嵌入集,通过一步即直接选择特征子图以及生成分类规则.实验结果表明:在对化合物数据分类时,在分类精度上该方法优于采用3步的图分类方法;在运行效率上该方法优于采用2步和3步的图数据分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号