首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
随着数据量的增长,如何快速有效发现频繁项集已成为挖掘关联规则的核心问题,而并行计算和闭频繁项集分别是一种处理大量数据直接有效的方法和频繁项集的无失真信息最小集合。分析一些经典闭频繁项集算法和并行关联规则算法及其不足,提出一种基于多核微机的并行闭频繁项集挖掘算法,提高了闭频繁项集挖掘的效率。  相似文献   

2.
信息系统产生的大量事务日志数据蕴含着潜在的伴随模式,伴随模式是指在时空上频繁共现的一组对象.由于传统的滑动窗口算法和FP-Growth算法只能调用单一线程进行计算,随着数据规模的扩张,会导致挖掘伴随模式的时间急剧增加.为此本文提出了一种基于Fork/Join并行技术的伴随模式挖掘框架,其能够实现从单线程到多线程的迁移,充分利用多核配置的加速性能.该框架由划定伴随数据集、频繁项集挖掘和关联规则挖掘三部分组成.首先,提出了基于Fork/Join的多核并行滑动窗口算法,以缩短从事务日志中划定伴随数据集的时间;然后,提出基于Fork/Join的多核并行FP-Growth算法,以并行地挖掘伴随数据集中的频繁项集;最后,引入支持度、置信度和提升度3个参数,对伴随模式中各对象间的关联规则进行挖掘.基于门禁刷卡数据的实验结果表明,相比传统算法,本文所提出的框架能够挖掘出更多的伴随模式,同时挖掘效率较高.  相似文献   

3.
关联规则挖掘中最主要的工作是如何高效地挖掘频繁项集。目前在单机平台上,由于计算量大等原因,大数据集上的关联规则挖掘很难得到理想结果。在分析现有频繁项集挖掘算法的基础上,结合Eclat和dEclat挖掘算法优点,针对大数据集和片上多核共享内存计算环境,提出一种高效的并行频繁项集挖掘算法PEclat,算法实现了任务级并行挖掘频繁项集,并在大数据集上进行了多项测试。实验结果表明,无论数据稠密程度如何,该算法均能取得较好的性能。  相似文献   

4.
分布式环境下挖掘约束性关联规则的算法研究   总被引:2,自引:0,他引:2  
关联规则是数据挖掘的重要研究内容。基于约束的关联规则挖掘可以促进交互式探查与分析。该文主要研究了分布式环境中挖掘约束性关联规则的问题。在并行关联规则挖掘算法CD和约束性关联规则挖掘算法Direct的基础上,提出了一种新的分布式挖掘约束性关联规则算法DMA_IC。该算法对于解决分布式挖掘约束性关联规则的问题是十分有效的。同时,文章还对DMA_IC算法的通信性能进行了讨论。  相似文献   

5.
在比较了当前几种并行关联规则挖掘算法的基础上,对并行关联规则算法进行了比较全面的分析,为了解决其性能和效率方面存在的问题,提出了一种快速挖掘策略的并行处理算法(FPARM),并对这种快速并行关联规则算法的性能作了比较分析。经过计算机仿真实验的性能比较,采用快速并行算法的性能和效率提高了,达到了算法优化的目的。  相似文献   

6.
为了减少并行挖掘关联规则过程中产生的网络流量及同步次数,提高挖掘效率,在Tree-DM算法的基础上,提出了不生成候选项目集的并行关联规则挖掘算法Ptree-DM。给出了Ptree-DM算法的执行示例,并对该算法的效率进行了分析和讨论。  相似文献   

7.
关联规则挖掘是最常用、最重要的数据挖掘任务之一,经典的关联规则挖掘算法有Apriori、FP-Growth、Eclat等。随着数据的爆炸式增长,传统的算法已不能适应大数据挖掘的需要,需要分布式、并行的关联规则挖掘算法来解决上述问题。MapReduce是一种流行的分布式并行计算模型,因其使用简单、伸缩性好、自动负载均衡和自动容错等优点,得到了广泛的应用。本文对已有的基于MapReduce计算模型的并行关联规则挖掘算法进行了分类和综述,对其各自的优缺点和适用范围进行了总结,并对下一步的研究进行了展望。  相似文献   

8.
基于PVM的并行算法研究   总被引:1,自引:0,他引:1  
随着数据库规模的增长,数据挖掘技术变得非常重要,而且从数据库中挖掘隐藏的规则也变得十分必要.提出了一种在数据库中发现关联规则的并行Apriori算法,并在并行虚拟机(PVM)环境下实现了该算法.该算法是通过在处理器间分割数据来实现数据的并行化的.  相似文献   

9.
传统单标签挖掘技术研究中,每个样本只属于一个标签且标签之间两两互斥。而在多标签学习问题中,一个样本可能对应多个标签,并且各标签之间往往具有关联性。目前,标签间关联性研究逐渐成为多标签学习研究的热门问题。首先为适应大数据环境,对传统关联规则挖掘算法Apriori进行并行化改进,提出基于Hadoop的并行化算法Apriori_ING,实现各节点独立完成候选项集的生成、剪枝与支持数统计,充分发挥并行化的优势;通过Apriori_ING算法得到的频繁项集和关联规则生成标签集合,提出基于推理机的标签集合生成算法IETG。然后,将标签集合应用到多标签学习中,提出多标签学习算法FreLP。FreLP利用关联规则生成标签集合,将原始标签集分解为多个子集,再使用LP算法训练分类器。通过实验将FreLP与现有的多标签学习算法进行对比,结果表明在不同评价指标下所提算法可以取得更好的结果。  相似文献   

10.
关联规则挖掘是近年来数据挖掘研究中一个非常活跃的领域,给出了关联规则及相关术语的定义,对关联规则挖掘中的频繁模式、频繁闭模式及并行/分布式挖掘作了阐述,着重介绍了近几年来发表的一些新算法,并对未来的发展趋势进行了预测和展望。  相似文献   

11.
Mining class association rules (CARs) is an essential, but time-intensive task in Associative Classification (AC). A number of algorithms have been proposed to speed up the mining process. However, sequential algorithms are not efficient for mining CARs in large datasets while existing parallel algorithms require communication and collaboration among computing nodes which introduces the high cost of synchronization. This paper addresses these drawbacks by proposing three efficient approaches for mining CARs in large datasets relying on parallel computing. To date, this is the first study which tries to implement an algorithm for parallel mining CARs on a computer with the multi-core processor architecture. The proposed parallel algorithm is theoretically proven to be faster than existing parallel algorithms. The experimental results also show that our proposed parallel algorithm outperforms a recent sequential algorithm in mining time.  相似文献   

12.
根据MapReduce模型并行运行实现的特点,针对可扩展性差的传统Apriori的特点和传统Apriori算法,采用了"云"强大的廉价计算处理方式和关联规则挖掘算法,改进提高Apriori算法的运算效率。通过改进在云计算环境下MapReduce编程框架,并且结合验证MR-Apriori算法的实验为基础,这对传统意义上的Apriori算法在数据挖掘过程中所出现的客观问题进行处理,从而真正意义上的完成了本文研究的基于MapReduce并行的Apriori算法的扩展性提升的目标,并且表明了元计算技术结合关联规则挖掘算法的可能性。  相似文献   

13.
为了在多核处理器上充分利用多核资源以提升挖掘性能,提出了一种动态与静态任务分配机制相结合的基于多核的并行序列模式挖掘算法。该算法采用数据并行与任务并行相结合的策略,在各处理器核生成局部序列模式后,再与其他处理器核协同,以最终获得所有的全局序列模式。算法通过并行局部归约技术消除了局部序列的重复生成与计算,并可结合静态与动态任务分配机制解决处理器的负载不均衡问题。理论分析和实验都证实了该算法可有效利用多核计算平台及多核体系结构优势,具有较高的运行效率和加速比。  相似文献   

14.
基于规则量和提取率度量标准,提出一种使用并行克隆退火遗传策略的关联规则挖掘算法。该算法结合了遗传算法、模拟退火算法和免疫克隆算法的优点,采用克隆、变异和交叉操作获取问题的最优解。理论分析和仿真实验结果表明,该算法能高效、快速地解决关联规则挖掘问题。  相似文献   

15.
《Parallel Computing》2014,40(10):768-785
Association rule mining (ARM) is an important task in data mining with many practical applications. Current methods for association rule mining have shown unstable performance for different database types and under-utilize the benefits of multi-core shared memory machines. In this paper, we address these issues by presenting a novel parallel method for finding frequent patterns, the most computational intensive phase of ARM. Our proposed method, named ShaFEM, combines two mining strategies and applies the most appropriate one to each data subset of the database to efficiently adapt to the data characteristics and run fast on both sparse and dense databases. In addition, our newlock-free design minimizes the synchronization needs and maximizes the data independence to enhance the scalability. The new structure lends itself well to dynamic job scheduling resulting in a well-balanced load on the new multi-core shared memory architectures. We have evaluated ShaFEM on 12-core multi-socket servers and found that our method run up to 5.8 times faster and consumes memory up to 7.1 times less than the state-of-the-art parallel method. For some test cases, ShaFEM can save up to 4.9 days of execution time over the compared method.  相似文献   

16.
FPT(模式增长树)算法是一种不产生候选项集的串行关联规则挖掘算法,在效率上都优于基于Apriori的系列算法,因此该文利用FPT算法思想提出一种无候选集生成的并行关联规则算法PFPT,并与CD算法进行比较,结果表明该算法效率较CD算法优。  相似文献   

17.
基于经典的BIDE算法,提出一种多核并行闭合序列模式挖掘算法——MT_BIDE。该算法在频繁序列扩展判断前进行剪枝,在扩展过程中动态调整频繁序列及其伪投影数据集,平衡不同线程间挖掘闭合序列模式的计算量差异。实验结果表明,该算法具有较高的运行效率和加速比。  相似文献   

18.
一个最优分类关联规则算法   总被引:1,自引:0,他引:1  
分类和关联规则发现是数据挖掘中的两个重要领域。使用关联规则算法挖掘分类规则被叫做分类关联规则算法,是一个有较好前景的方法。本文提出了一个最优分类关联规则算法——OCARA。该算法使用最优关联规则挖掘算法挖掘分类规则,并对最优规则集排序,从而获得一个分类精度较高的分类器。将OCARA与传统分类算法C4.5和一般分类关联规则算法CBA、RMR在8个UCI数据集上进行实验比较,结果显示OCARA具有更好的性能,证明OCARA是一个有效的分类关联规则挖掘算法。  相似文献   

19.
挖掘关联规则的并行算法   总被引:3,自引:0,他引:3  
从大型数据库中挖掘关联规则是数据挖掘中一个重要的课题 .从挖掘要求的时间和空间上看 ,传统的顺序算法已很难适应于现实中不断增大的数据库规模 .而研究和发展高性能、可扩展的并行算法对解决这一问题就显得十分必要 .本文介绍了挖掘关联规则一些主要的并行算法 ,并对它们进行了一定分析 ,指出了发展并行算法要考虑的一些问题 .  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号