首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
分布式数据挖掘计算过程--DDCP算法研究   总被引:1,自引:0,他引:1  
提出了一种关联规则挖掘大项集生成的并行和分布式处理的计算框架的算法,该算法以大规模事务数据库为基础,将数据有效地分片后作分布或者并行处理,通过节点之间的通信降低了节点间传输的数据量.通过算法实例验证了算法的正确性和可行性,可以在分布式或者并行环境里实现高效的数据挖掘.  相似文献   

2.
一种多重最小支持度关联规则挖掘算法   总被引:5,自引:0,他引:5  
针对单一最小支持度挖掘关联规则不能反应不同数据项出现频度与性质的问题,提出了一个基于频繁模式树的多重支持度关联规则挖掘算法MSDMFIA(Multiple minimum Supports for Discover Maximum Fre-quent Item sets Algorithm),根据不同数据项的特点定义多重支持度,通过挖掘数据库中的最大频繁项目集,计算最大频繁候选项目集在数据库中的支持度来发现关联规则.该算法可以解决关联规则挖掘中经常出现的稀少数据项问题,并解决了传统的关联规则挖掘算法中的生成频繁候选集和多次扫描数据库的性能瓶颈.实验结果表明,本文提出的算法在功能和性能方面均优于已有算法.  相似文献   

3.
提出了一种关联规则挖掘大项集生成的并行和分布式处理的计算框架的算法,该算法以大规模事务数据库为基础,将数据有效地分片后作分布或者并行处理,通过节点之间的通信降代了节点间传输的数据量,通过算法实例验证了算法的正确性和可行性,可以在分布式或者并行环境里实现高效的数据挖掘。  相似文献   

4.
Apriori算法是挖掘关联规则频繁项集的最有影响的算法之一,它通过连接、剪枝等步骤产生频繁项集,进而产生强关联规则。由于面临海量数据,因此将会产生大量的候选项集,尤其是候选2-项集,严重影响了挖掘的效率。提出了一种改进的算法,此算法不产生小项候选集而直接产生大项候选集,从而提高了算法的效率。  相似文献   

5.
在关联规划挖掘理论研究上,首次给出了项目序列集格空间,并且探讨了在这个空间上的基本操作算子、基于项目序列集格空间及其操作,建立了关联规则挖掘模型.在关联规则挖掘算法方面,设计了基于项目序列集操作理论的关联规则挖掘算法SIS,该算法执行时间整体上优于Apriori算法,而且随着数据量的增大,该算法执行时间的增长幅度也小于Apriori算法.  相似文献   

6.
挖掘关联规则是数据挖掘中的一个重要课题.针对挖掘关联规则典型算法中的某种不足,介绍了一个不需要产生候选集的挖掘关联规则的算法FP-tree.经过深入研究,对它进行了分析和评价.  相似文献   

7.
为进一步解决对大型数据库进行关联规则挖掘时产生的CPU时间开销大和I/O操作频繁问题,给出一种改进的关联规则挖掘算法(ARMAC).该算法引入有向无环图和tidlist结构用以提高频繁项目集的计算效率,并将数据库划分为内存可以满足要求的若干部分,解决了对大型数据库挖掘时磁盘操作频繁的问题,从而有效地适用于大型数据库的关联规则挖掘.该算法吸取连续关联规则挖掘(CARMA)算法的优势,只需扫描两次数据库便可完成挖掘过程.实验结果表明:该算法在大型事务数据库中具有更高的执行效率.  相似文献   

8.
基于Apriori数据挖掘算法研究   总被引:3,自引:0,他引:3  
关联规则是从数据集中识别出频繁出现的属性值集,然后利用这些频繁集创建描述关联关系的规则过程.在分析经典关联规则挖掘算法的基础上,讨论了经典的Apriori算法,并提出改进的Apriori关联规则算法,对算法进行了实验数据的算法性能分析及运行时间对比.结果表明,改进的算法在运行速度和挖掘性能上都较经典的Apriori算法都有显著提高.  相似文献   

9.
一个改进项目的加权关联规则挖掘算法   总被引:1,自引:0,他引:1  
提出了一个改进的项目加权关联规则挖掘算法.该算法利用一个加权频繁项目集必须满足的加权支持度下界,对加权频繁候选项目集进行剪枝,该下界计算简便,可以减少挖掘的计算量.理论分析和实验表明本算法和MINWAL(W)相比,具有生成候选集数量少、挖掘效率高等特点,特别在项目权值相差不大时,本算法的优势更明显.  相似文献   

10.
传统的关联规则并行挖掘算法中存在着产生大量的候选项集和通信量高的缺点,本文在分析已有并行挖掘关联规则算法的优缺点的基础上,提出了一个效率较高的并行优化关联规则挖掘算法EPMAR(Efficient Parallel Mining Association Rules),并与其它相应的算法进行了比较.实验结果证明:算法EPMAR是有效的,具有一定的扩展性.  相似文献   

11.
海量数据上挖掘关联规则的并行算法   总被引:3,自引:0,他引:3  
针对目前关联规则挖掘算法中数据库规模很大时算法执行时间太长的问题。指出了并行计算是解决该问题的一个有效方法。利用新提出的可以忽略仅仅在少于1/4的结点机上的局部频繁项集,给出了一种新的并行随机抽样方法,并利用机群并行计算机的自治能力和I/O高度并行的特点,提高了抽样算法对海量数据的处理能力和效率。理论分析和实验数据显示,该算法的加速比接近于处理机的个数p,通信复杂性为处理机的个数p的对数,具有良好的扩展性和海量处理能力,且精确度较高。  相似文献   

12.
挖掘告警序列间关联规则的算法都受到最小支持度的限制,仅能够得到频繁告警序列间的关联规则. 对此,提出了一种以高相关度、高置信度为条件,通过聚类找到特征相同的网元告警群,然后基于相关度统计的挖掘算法. 实验结果表明,该算法可以高效、准确地挖掘出电信网络告警数据库中频繁和非频繁告警序列间的关联规则.  相似文献   

13.
最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的Top-N最频繁项集挖掘算法。同样,给出了几个命题和推论,并把它们用于该文算法以提高性能,实验结果表明,所提算法的规则有效率和时间性能优于NApriori算法和IntvMatrix算法。  相似文献   

14.
针对结构化数据进行关联规则挖掘的经典Apriori算法和由W3C推出的XML文档查询语言XQuery相结合,设计并实现了一个针对XML文档进行挖掘的算法XQ-Apriori.该算法可以直接对包括电子病历在内的各种XML格式的文档进行关联规则挖掘,挖掘过程无需进行数据转换。测试表明,该算法具有较高的效率。  相似文献   

15.
关联规则挖掘是数据挖掘的重要领域之一,目前多数监督学习算法对满足最小支持度和最小置信度的关联规则进行深入分析的较少。剖析了分类关联规则挖掘算法CAR-Apriori算法,并提出了一种基于多最小支持度和支持度差别限制的分类关联规则挖掘算法MSCAR-Apriori算法。实验结果表明,改进算法不仅可以挖掘出满足给定条件的分类关联规则,同时还可以保留稀有但用户感兴趣且可能蕴涵巨大利润的规则项。  相似文献   

16.
关联规则挖掘算法是通信网告警相关性分析中的重要方法。在处理数量庞大的告警数据库时,算法的效率显得至关重要,而经典的FP-growth算法会产生大量的条件模式树,加权算法MINWAL (O)则需要多次扫描数据库,使得在通信网环境下挖掘关联规则的难度非常大。该文提出了一种高效的基于加权频繁模式树的通信网告警关联规则挖掘算法,算法性能测试表明,该算法与已有的加权关联规则挖掘算法相比较,节约了大量的存储空间,提高了算法的挖掘速度,对通信网的故障诊断和故障定位有着积极的意义。  相似文献   

17.
Based on the rough set theory which is a powerful tool in dealing with vagueness and uncertainty, an algorithm to mine association rules in incomplete information systems was presented and the support and confidence were redefined. The algorithm can mine the association rules with decision attributes directly without processing missing values. Using the incomplete dataset Mushroom from UCI machine learning repository, the new algorithm was compared with the classical association rules mining algorithm based on Apriori from the number of rules extracted, testing accuracy and. execution time. The experiment results show that the new algorithm has advantages of short execution time and high accuracy.  相似文献   

18.
挖掘电信告警关联模式方法   总被引:1,自引:0,他引:1  
关联模式挖掘算法通常受到最小支持度的限制,仅能得到频繁告警序列间的关联模式,针对这一问题,基于图论思想提出了一种挖掘电信网络告警间关联模式的方法.首先在单遍扫描数据库的条件下挖掘网络中的二项关联模式,然后直接发现其最大关联模式,从而避免大量中间项集的产生. 基于实际网络告警数据的实验结果表明,该方法不仅具有较高的效率,而且有效.  相似文献   

19.
Apriori算法分析与改进综述   总被引:5,自引:0,他引:5  
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性.通过对关联规则挖掘技术及其相关算法Apriori进行分析,发现该技术存在的问题.本文介绍了能优化该技术的各种算法,分析了这些算法各自的优缺点,并针对这些问题提出了未来的研究方向.  相似文献   

20.
通过分析Apriori核心算法,使用案例描述Apriori算法设计思想上所存在的不足,引入兴趣度阈值对Apriori关联规则进行了改进.并将该改进后的算法对电子病历数据库中数据进行关联规则提取,建立了基于兴趣度的Apriori算法的医疗诊断模型.通过实验证明,该模型能够提取具有诊断价值的关联规则并提高医生的诊断效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号