首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
FP-Growth算法的改进   总被引:1,自引:0,他引:1  
基于FP树的FP-Growth算法在挖掘频繁模式过程中需要两次扫描事务集来建立FP树,这不仅降低了算法的效率,而且给数据库服务器带来负担.在原有经典FP-Growth算法的基础上,提出一种基于二维表的方法对原算法进行改进,改进算法通过使用二维向量记录频繁度仅需遍历一次事务集,从而省略FP-Growth算法在生成新条件FP树时对条件模式基的第一次遍历,大大缩短了建立FP树的时间.实验结果表明,该算法的改进优于经典算法.  相似文献   

2.
在关联规则挖掘算法中基于FP-树的FP-Growth挖掘算法在挖掘频繁模式的过程中需要递归产生大量的条件FP—树,效率不高,FP-Growth算法不太适合应用到入侵中多种要素交叉的关联关系的挖掘中.因为入侵的方法及要素很多,在检测中需要对入侵样本进行条件约束下的定量分析.文中分析入侵检测的特点,提出基于条件频繁项的频繁模式树CP-Tree以及在此树挖掘的改进算法MineCPT.分析与实验结果表明,MineCPT算法在效率和可靠性等方面比FP-Growth 算法更优越,在入侵检测中取得了较好的效果.  相似文献   

3.
虽然FP-Growth算法能够有效地从数据库中挖掘频繁模式,但如何由其挖掘出的频繁模式中高效地产生关联规则仍是一个相当复杂的问题。该文提出了用于组织频繁模式的线索频繁模式树(TFPT)和一个从TFPT中挖掘关联规则的高效算法—最短模式优先算法(SPF)。挖掘模式Y的关联规则时,SPF算法应用了两个优化策略,避免了对大量的不可能成为规则XY-X左部的Y的子集的检查,从而获得了很好的性能。实验表明:与类FP-Growth算法结合时,SPF算法运行速度远远快于Apriori算法,并有相当好的可伸缩性。  相似文献   

4.
关联规则挖掘算法FP-Growth虽然效率比Apriori要快一个数量级,但存在频繁模式树可能过大而内存无法容纳和数据挖掘过程串行处理等两大缺点。提出一种分布式并行关联规则挖掘算法,该算法针对分布式应用数据架构,不需要产生全局FPtree,避免全局FP-tree可能过大而内存无法容纳的问题,算法在各个主要步骤上都实现了并行处理。算法测试结果和分析表明,与传统的关联规则挖掘算法FP-Growth相比,该算法通过多节点分布式并行处理显著提高了执行效率和处理能力。  相似文献   

5.
针对FP-Growth算法在构建FP-tree过程中需要对事务数据库扫描两次,同时在利用FP-tree挖掘频繁项集过程中产生大量条件模式基和条件模式树的问题,提出一种改进的FP-Growth算法。该算法只需扫描一次事务数据库,就能构建一棵无相同节点的新的FP-tree;弃用项头表,新增与新的FP-tree关联的节点表,将构建新的FP-tree过程中"多余"的项信息存入节点表;利用新的FP-tree和节点表挖掘频繁项集。实验结果表明了该算法的可行性和有效性,其提高了数据挖掘的效率。  相似文献   

6.
目前,每年测试高校大学生的体质健康,会产生大量的数据,为了提高关联规则对体测数据的挖掘效率,提出了一种面向高校学生体质测试数据的模式挖掘方法。利用经典的关联规则挖掘方法如Apriori算法和频繁模式树(Frequent Pattern Tree,FP-Growth)算法,对体测数据进行关联规则挖掘。实验结果表明,该模式挖掘的最小数据集能有效提高关联规则算法对体测数据的模式挖掘效率。  相似文献   

7.
本文研究如何快速有效地从XML数据中挖掘频繁模式,提出了从XML数据中挖掘频繁模式的增量式算法FreqtTree.该算法首先将XML文档转化成DOM树,然后从DOM树中挖掘所有频繁模式.FreqtTree算法采用最右扩展技术,对DOM树仅遍历一次,因此具有很高的效率.在此基础上详细描述了基于DOM树的关联规则挖掘算法DFreqtTree.最后将本文提出的算法用Java语言实现,并进行性能分析,结果表明算法是高效可行的.  相似文献   

8.
一种改进的FP-Growth算法及其在业务关联中的应用   总被引:2,自引:0,他引:2  
基于FP-树的FP-Growth算法在挖掘频繁模式过程中需要递归地产生大量的条件FP-树,效率不高,并且不太适合应用在移动通信业务交叉销售等具有业务约束的关联规则挖掘中。因此,提出了基于项目约束的频繁模式树ICFP-树和直接在此树上进行挖掘的新算法——ICFP-Mine。理论分析和实验结果表明,ICFP-Mine算法在内存占用和时间开销等方面比FP-Growth算法更优越,在移动通信业务交叉销售领域的应用中取得了较好的效果。  相似文献   

9.
一种新的高效生成FP-Tree条件模式基的算法   总被引:1,自引:1,他引:0  
FP-Tree模式的提出,提高了挖掘效率,是关联规则挖掘史上的一个历程碑。频繁模式增长算法在求取条件模式基时,重复遍历FP-Tree的路径,造成了性能上的浪费。针对此问题,提出一种解决方法,即在遍历FP-Tree每条由叶子到根路径过程中,依次将路径上的所有结点对应项的条件模式基信息求出并保存,避免了同一路径的重复遍历。理论分析和实验结果表明,修改后的算法的性能明显优于原算法。  相似文献   

10.
一种基于MFP树的快速关联规则挖掘算法   总被引:1,自引:0,他引:1  
在关联规则挖掘FP-Growth算法的基础上,提出一种基于MFP树的快速关联规则挖掘算法。文中给出了MFP算法的工作原理。MFP算法能在一次扫描事务数据库的过程中,把该数据库转换成MFP树,然后对MFP树进行关联规则挖掘。MFP算法比FP-Growth算法减少一次对事务数据的扫描,因此具有较高的时间效率。  相似文献   

11.
Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法。然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式增长算法CWBPFP。算法在Spark框架上实现并行计算,数据分组时利用负载均衡策略,存入分组的数据是相应频繁项的编码。每个工作节点将分组数据中每一个事物中项的联通信息存入一个下三角联通权重矩阵中,使用被约束子树来加快每个工作节点挖掘频繁模式时创建条件FP-tree的速度,再用联通权重矩阵避免每次挖掘分组中频繁模式时对条件模式基的第一次扫描。由于联通权重矩阵和被约束子树的结合应用于每一个工作节点的FP-tree挖掘过程,因此提升了并行挖掘FP-tree性能。通过实验表明,所提出的并行算法对大的数据有较高性能和可扩展性。  相似文献   

12.
针对已有算法为了减少PF-tree中路径被重复遍历的次数,需要保存FP-tree中所有频繁1-项集的条件模式基的问题,对FP-tree的数据结构进行修改,使得只需要保存FP-tree中每个叶子节点的父节点到根节点路径上项目组成的条件模式基,降低了保存条件模式基的存储空间开销。在分析最大频繁项目集挖掘算法中搜索空间以及数据表示方法的基础上,通过理论分析和证明,设计了剪枝策略和压缩策略,缩小了算法搜索空间,压缩了FP-tree的规模,提高了算法的执行效率。最后将新算法分别与NHTFPG算法、FpMAX算法进行对比,验证算法的正确性和有效性。实验结果表明,新算法保存FP-tree条件模式基所需要的存储空间不到NHTFPG算法的50%,执行效率比FpMAX算法提高了2~3倍。  相似文献   

13.
提出了一种分布多库环境下的全局库分类规则发现算法——FGCMAR。FGCMAR在各个站点采用CMAR算法分别生成频繁模式树,并在各个站点间传送条件模式基来形成全局条件频繁模式树,最终通过挖掘条件频繁模式树来得到全局分类规则。该算法能够有效的减小网络通信量,提高挖掘效率。理论分析和实验结果表明该算法是有效可行的。  相似文献   

14.
针对云服务器使用过程中参数异常的问题,介绍了云服务器的参数数据获取、数据清洗整理和有效分析过程。针对现有频繁模式增长(FP-Growth)算法中存在的条件FP-tree构建过程过于冗余以及数据量级越大处理效率越低的问题,提出了一种改进的FP-Growth算法,引入数组标记策略,每个FP-tree节点只保留指向父节点的指针。改进算法在挖掘过程中无需生成条件FP-tree,减少了时空消耗。实验结果表明,改进后的FP-Growth并行算法能够有效地提高云平台虚拟机异常数据的关联分析效率,并且改进算法也适用于较大规模数据集的数据挖掘工作。  相似文献   

15.
钱雪忠  惠亮 《计算机应用》2011,31(5):1339-1343
基于FP-tree的最大频繁模式挖掘算法是目前较为高效的频繁模式挖掘算法,针对这些算法需要递归生成条件FP-tree、产生大量候选最大频繁项集等问题,在分析FPMax、DMFIA算法的基础上,提出基于降维的最大频繁模式挖掘算法(BDRFI)。该算法改传统的FP-tree为数字频繁模式树DFP-tree,提高了超集检验的效率;采用的预测剪枝策略减少了挖掘的次数;基于降低项集维度的挖掘方式,减少了候选项的数目,避免了递归地产生条件频繁模式树,提高了算法的效率。实验结果表明,BDRFI的效率是同类算法的2~8倍。  相似文献   

16.
一种直接在Trans-树中挖掘频繁模式的新算法   总被引:5,自引:1,他引:5  
范明  王秉政 《计算机科学》2003,30(8):117-120
Frequent pattern mining plays an essential role in many important data mining tasks. FP-growth is a very efficient algorithm for frequent pattern mining. However, it still suffers from creating conditional FP-tree separately and recursively during the mining process. In this paper, we propose a new algorithm, called Least-Item-First Pat-tern Growth (LIFPG), for mining frequent patterns. LIFPG mines frequent patterns directly in Trans-tree withoutusing any additional data structures. The key idea is that least items are always considered first when the current pat-tern growth. By this way, conditional sub-tree can be created directly in Trans-tree by adjusting node-links and re-counting counts of some nodes. Experiments show that, in comparison with FP-Growth, our algorithm is about fourtimes faster and saves half of memory;it also has good time and space scalability with the number of transactions,and has an excellent performance in dense dataset mining as well.  相似文献   

17.
关联规则中FP-tree的最大频繁模式非检验挖掘算法   总被引:1,自引:0,他引:1  
惠亮  钱雪忠 《计算机应用》2010,30(7):1922-1925
基于FP-tree的最大频繁模式挖掘算法是目前较为高效的频繁模式挖掘算法,针对这些算法需要递归生成条件FP-tree、做超集检验等问题,在分析DMFIA-1算法的基础上,提出了最大频繁模式的非检验挖掘算法NCMFP。该算法改进了FP-tree的结构,使挖掘过程中不需要生成条件频繁模式树也不需要超集检验。算法采用的预测剪枝策略减少了挖掘的次数,采用的求取公共交集的方式保证了挖掘结果的完整性。实验结果表明在支持度相对较小情况下,NCMFP的效率是同类算法的2~5倍。  相似文献   

18.
孙志强 《微机发展》2006,16(12):233-236
数据挖掘可以利用各种分析工具从海量数据中发现模型和数据间的关系并做出预测。为了解决入侵检测在不降低精度的同时提高检测速度的问题,提高算法的效率,将FP-Growth算法应用于入侵检测系统中,提出对FP-Growth算法改进FP-tree的头表结构并引入关键属性来挖掘原始审计数据中的频繁模式,实验结果表明改进后的算法比传统的关联算法在入侵检测中的应用效果更好。可以看出,将FP-Growth算法应用于入侵检测中是可行的。  相似文献   

19.
基于改进FP-树的最大项目集挖掘算法*   总被引:1,自引:0,他引:1  
挖掘最大频繁项目集是多种数据挖掘应用中的关键问题。FP-growth算法是目前最有效的频繁模式挖掘算法之一,其在挖掘最大项目集时要递归生成大量的条件FP-树,存在时空效率不高的问题。于是结合改进的FP-树,提出了一种快速挖掘最大项目集的算法。该算法利用改进的FP-树是单向的且每个节点只保留指向父节点的指针,可以节约大量的存储空间;同时引入项目序列集和它的基本操作,使挖掘最大频繁项目集时不生成含大量候选项目的集合或条件FP-树,可以快速地挖掘出所有的最大频繁项目集。实例分析证明所提出的算法是可行的。  相似文献   

20.
基于逆向FP-树的频繁模式挖掘算法   总被引:8,自引:0,他引:8  
赵艳铎  宋斌恒 《计算机应用》2005,25(6):1385-1387
提出了一种称为逆向FP 合并的算法,该算法逆向构造FP 树并通过在其中寻找频繁扩展项集与合并子树来挖掘频繁模式。新算法在时空效率方面均优于FP 增长算法,其中时间效率提高了2倍以上。此外,新算法还具有良好的伸缩性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号