首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 671 毫秒
1.
关联规则挖掘算法的改进   总被引:2,自引:1,他引:2  
为了提供一种更加准确高效的关联规则算法,在传统的Apriori算法的基础上引入分而治之的理念和加权的思想。先把数据库分成互不相交的块,根据需求分析从每一个块中产生用户感兴趣的子集,把所有的子集合并成挖掘对象,再利用普通的关联规则算法产生频繁项集,最后在该项集的基础上产生加权频繁项集。该算法基本上克服了传统Apriori算法的缺点,从而大大地提高了运算效率,最大限度解决了“项集生成瓶颈”问题,并且使得生成的关联规则更加科学、准确。  相似文献   

2.
为了提供一种更加准确高效的关联规则算法,在传统的Apriori算法的基础上引入分而治之的理念和加权的思想.先把数据库分成互不相交的块,根据需求分析从每一个块中产生用户感兴趣的子集,把所有的子集合并成挖掘对象,再利用普通的关联规则算法产生频繁项集,最后在该项集的基础上产生加权频繁项集.该算法基本上克服了传统Apriori算法的缺点,从而大大地提高了运算效率,最大限度解决了"项集生成瓶颈"问题,并且使得生成的关联规则更加科学、准确.  相似文献   

3.
OLAP中基于FP-增长的关联规则挖掘   总被引:1,自引:0,他引:1  
关联规则挖掘是一种发现属性问关系的方法,主要用于在商务事务记录中挖掘事务问关系。本文将已经广泛使用的FP-增长(frequent-pattern growth,频繁模式增长)算法进行改进,实现了OLAP中的关联规则挖掘。改进算法分别针对单维、多维、混合维三种关联规则,将多维立方体转化成不同的关系表,通过关系表产生关联规则.并利用立方体中的事实值作为进一步约束,生成了更有价值的规则。  相似文献   

4.
基于Galois联络的最小非冗余关联规则挖掘   总被引:1,自引:0,他引:1       下载免费PDF全文
关联规则挖掘是NP难题,关键是如何约简频繁项集。本文以Galois联络为理论基础,应用Galois联络的闭包运算及其性质定义数据库中的频繁项和封闭频繁项,提出了挖掘关联规则生成子、精确关联规则生成基和近似关联规则本征基的概念,并由此构造最小非冗余精确关联规则和近似关联规则挖掘的MNRM算法。该算法与Apriori算法相比较,挖掘的关联规则是最小非冗余的,降低了计算复杂度,而且规则具有不丢失任何信息、最小前件和最大后件以及对用户最实用和最相关等优点。  相似文献   

5.
一种基于约束的关联规则挖掘算法   总被引:1,自引:1,他引:0  
基于约束的关联规则挖掘是一种重要的关联挖掘,能按照用户给出的条件来实行有针对性的挖掘。大多数此类算法仅处理具有一种约束的挖掘,因而其应用受到一定程度的限制。提出一种新的基于约束的关联规则挖掘算法MCAL,它同时处理两种类型的约束:非单调性约束和单调性约束。算法包括3个步骤:第一步,挖掘当前数据集的频繁1项集;第二,应用约束的性质和有效剪枝策略来寻找约束点,同时生成频繁项的条件数据库;最后,递归地应用前面两步寻找条件数据库中频繁项的约束点,以生成满足约束的全部频繁项集。通过实验对比,无论从运行时间还是可扩展性来说,本算法均达到较好的效果。  相似文献   

6.
为了解决大规模数据环境下挖掘出的关联规则过多,用户需要耗费大量时间在这些关联规则中寻找自己感兴趣规则的问题,提出了一种基于Map/Reduce并行化编程模型的前后部项约束关联规则挖掘算法FRPFP.通过对用户感兴趣的规则前后部项进行标记和分组挖掘,并在各分组挖掘过程中根据标记的规则前后部约束项,对事务集进行压缩,从而筛选出有效的频繁项集,最终得到含有用户感兴趣项的关联规则.该算法在Spark框架中实现,实验结果表明,该算法能够有效地减少冗余规则的产生,计算开销较少,具有较好的规模增长性.  相似文献   

7.
影响关联规则挖掘效率的主要因素是如何快速地求出频繁项目集,文章在分析关联规则挖掘基本原理及算法的基础上,研究一种从最大频繁项集生成所有强关联规则的优化方法,对快速生成关联规则具有一定意义。  相似文献   

8.
基于数据立方体的多维关联规则的挖掘方法   总被引:17,自引:0,他引:17  
高学东  王文贤  武森 《计算机工程》2003,29(14):74-76,153
总结了现有基于数据立方体的多维关联规则挖掘算法,在此基础上将联机分析处理(OLAP)的钻取操作引入关联规则挖掘过程,提出Apriori_cubc算法的改进算法。通过动态调整立方体的维层次,来挖掘出用户感兴趣的关联规则。  相似文献   

9.
关联规则挖掘作为近年来的研究热点之一,其经典算法Apriori算法因需要多次扫描数据库且会产生大量候选项集,严重影响了关联规则的挖掘效率.在此基础上提出了一种基于矩阵压缩的加权关联规则挖掘算法,只需扫描一次数据库,并将其转换为0-1矩阵,根据相关性质对矩阵进行压缩,从而降低了算法执行过程中的计算量;同时,考虑到项目的重要性,采取加权的方法,用求概率的方式设置项目属性的权值.同Apriori算法相比,本算法在挖掘过程中能直接查找高阶频繁项集.实验结果表明,本算法能有效提高关联规则的挖掘效率.  相似文献   

10.
提出一种基于人工免疫方法的关联规则提取算法,将人工免疫方法应用于关联规则的提取。本算法采取“随机并行搜索”策略,快速识别出候选关联规则,整个挖掘过程最后只需扫描数据库一遍,也不需生成大量的频繁项目集,从而提高关联规则挖掘的总体性能。  相似文献   

11.
王伟  高亮  吴涛 《微机发展》2008,18(4):19-21
在数据挖掘中,关联规则的挖掘是一项核心内容,且规则的生成主要集中在如何寻找频繁项集上。一般情况下,寻找频繁项集是困难的,且项数越多越难,而最长频繁项集隐含了几乎所有的频繁集,因此,寻找频繁项集就转化为寻找最长频繁项集。文中利用遗传算法的全局最优和海量数据处理性来搜索最长频繁项集,该法只需扫描一次数据库,大大节约了时间。实验也说明了该算法的可行性。  相似文献   

12.
王明  宋顺林 《计算机应用》2010,30(9):2332-2334
发现频繁项集是关联规则挖掘的主要途径,也是关联规则挖掘算法研究的重点。关联规则挖掘的经典Apriori算法及其改进算法大致可以归为基于SQL和基于内存两类。为了提高挖掘效率,在仔细分析了基于内存算法存在效率瓶颈的基础上,提出了一种发现频繁项集的改进算法。该算法使用了一种快速产生和验证候选项集的方法,提高了生成项目集的速度。实验结果显示该算法能有效提高挖掘效率。  相似文献   

13.
关联规则挖掘的主要任务是根据对事务的统计找出项之间的关系。传统的挖掘算法要求项具有逻辑属性,并在挖掘过程中产生大量的中间项集,成为算法的瓶颈。给出一种基于关联路径树的表格数据组织形式,并采用模式指导的方式进行频繁项集挖掘,该方法不要求项具有逻辑属性,初始模式不同的项集组合迭代可以分配到不同的CPU完成,提高了算法的执行效率。该算法对美国1984年国会选举数据进行了实验,结果完全正确。  相似文献   

14.
采掘关联规则是数据采掘的重要研究内容.本文针对交易项目中广泛存在的包含和泛化关系,充分利用已采掘出交易项目集的频繁模式集合,提出了一种快速的基于概念提升的多层次关联规则更新采掘方法与算法UMARCP.  相似文献   

15.
最频繁项集挖掘是文本关联规则挖掘中研究的重点和难点,它决定了文本关联规则挖掘算法的性能。针对当前在最频繁项集挖掘方面的不足,将集合论引入倒排表以对其进行改进,然后以此为基础提出了几个命题和推论,并结合最小支持度阈值动态调整策略,提出了一个基于改进的倒排表和集合理论的最频繁项集挖掘算法,最后对所提算法进行验证。实验结果表明,所提算法的规则有效率和时间性能比常用的两个最频繁项集挖掘算法,即NApriori和IntvMatrix算法都好。  相似文献   

16.
黄勇  赵靖 《微机发展》2011,(2):147-150
分布式系统下关联规则挖掘算法的挖掘效率取决于频繁项目集的确定和网络各站点间的通讯量。为提高频繁项目集的生成效率,提出了关系数据库下一种新的数据预处理方法以及一种基于数组形式的频繁项目集生成算法。新的数据预处理方法可以降低候选项目集的数量,基于二进制的数组只需进行逻辑与运算便可生成频繁项目集,将该算法结合星型网络结构下的分布式挖掘算法SDMA应用于实验挖掘,理论分析与实验结果表明,算法提高了挖掘效率,是可行的。  相似文献   

17.
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.在对关联规则挖 掘中基于Apriori算法的改进算法进行深入分析和研究后,本文根据Apriori算法的不足,提出了一种改进策略,从而得到一种优化的Apriori算法.最后,对频繁项集挖掘算法的发展方向进行了初步的探讨.  相似文献   

18.
Apriori算法是一种找频繁项集的基本算法,它常常被用于单维关联规则的数据挖掘,本文结合数据立方体技术对Apriori算法做了一些变形,给出了一种适用于维间关联规则挖掘的算法,并将此算法结合Apriori算法,在教学管理系统中挖掘出混合维间的关联规则。  相似文献   

19.
在关联规则挖掘算法中,Apriori由于多次对数据库进行扫描会产生较多的候选集,在多次扫描数据库的情况下容易产生I/O开销问题,并引起数据挖掘效率低。矩阵关联规则在数据挖掘过程中没有删除非频繁项集,致使存在较多的无效扫描,对于挖掘效率的提高也不明显。该文提出了一种改进的矩阵和排序索引关联规则数据挖掘算法,首先,删除不需要的事务和项,通过矩阵相乘和查找表获得频繁的二项式集合,结合排序索引得到剩下的频繁k-项集。与矩阵关联规则算法和Apriori算法进行比较,提出的算法可以直接查找频繁项集并对数据库进行扫描,当产生频繁项集比较多或者数据库需要进行动态更新时,该算法具有较好的可行性和执行效率。实验表明,提出的矩阵排序索引算法很好地降低了内存的使用率和I/O的开销,提高了数据挖掘的效率且具有较好的可扩展性。  相似文献   

20.
在数据挖掘中发现关联规则是一个基本问题,而关联规则发现中最昂贵的步骤便是寻找频繁模式。FP_growth(frequent-patern growth)方法在产生长短频繁项集时不产生候选项集,从而大大提高了挖掘的效率,但是FP_growth在挖掘频繁模式时候产生大量的条件FP树从而占用大量空间,对FP_growth进行研究提出一种改进算法不仅利用FP_growth 算法所有优点,而且避免FP_growth的缺陷。主要通过建立有限棵条件FP树(数目为事务数据库的属性个数)来挖据长短频繁模式,大大节省FP_growth算法所需要空间,实验证明本文算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号