首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
在研究多段支持度数据挖掘算法的基础上提出并行挖掘相联规则的算法。给出了在并行条件下以负载平衡为目的的种子项集的划分的贪心算法策略。基于多段支持度特征,为减少各个处理机之间的制约,提出按事务长度进行数据集划分的方案,并具体实现了多段支持度的并行算法。实验结果表明该算法具有很高的效率,特别是在双CPU情况下,并行算法的效率接近顺序算法的两倍,如果把算法修正和推广到群集环境下,会更一步增加相联规则的实用性。  相似文献   

2.
多最小支持度规则的挖掘算法   总被引:4,自引:0,他引:4  
杨炳儒  陈泓婕 《计算机工程》2003,29(6):40-41,115
支持度是数据挖掘中度量客观兴趣度的重要指标,最小支持度的设置提高了数据挖掘过程的有效性。但是,由于事件在现实中发生和存在额度上有很大的不一致性,始终保持单一的最小支持度显然是不合理的。该文提出了一种多最小支持度规则的挖掘算法,并应用于蘑菇数据库的挖掘过程,结果证明该算法是合理有效的。  相似文献   

3.
基于人工蜂群优化的多段支持度数据挖掘仿真   总被引:1,自引:0,他引:1  
  相似文献   

4.
针对数据集中交易记录和数据项的重要性不同问题,提出了一种多最小支持度的加权关联规则挖掘算法,允许用户设定多个最小支持度,给出交易记录不同的权重,从而发现有价值的关联规则。该算法按项目的最小支持度升序对交易记录进行分类,按类别依次求出每一类别内的加权频繁集。在挖掘过程中由于剔除了冗余项目并对相同项集累加计数,且不需多次重复扫描数据库,从而提高了挖掘效率。实验结果表明,新算法能有效地从数据集中挖掘出加权关联规则。  相似文献   

5.
王培培  孟芸 《计算机仿真》2021,38(5):282-286
针对传统数据关联挖掘过程只适用于单段数据集,导致内存负担重、挖掘频繁项集效率不高等问题,提出一种多段支持度数据频繁模式关联规则挖掘方法.运用多支持度算法对数据集逐步搜索,数据集按照数据项的MIS大小有序排列,采用最小值作为最小支持度,确保该算法的地推性.构建FP_ tree树,利用FP_tree算法对待选项实施剪枝,从...  相似文献   

6.
分组多支持度关联规则研究   总被引:4,自引:1,他引:3  
关联规则是数据挖掘的重要任务之一,传统关联规则算法只有一个最小支持度,假设项出现的频率大致相同,而在谮实际中并非如此,由此产生了多支持度关联规则问题.该问题针对每个项给定不同的支持度,而在实际应用中项可以划分成若干个组,每组有一个支持度.由此提出了分组多支持度关联规则问题,针对该问题给出了基于多支持度性质对项进行分组的方法.该方法可以降低2-项候选集的数目.在此基础上,进一步给出了相应的多支持度关联规则发现算法,并通过实验证明了算法的有效性.  相似文献   

7.
关联规则挖掘一直是数据挖掘中的重要组成部分。提出一个新算法DPCFP-growth算法。DPCFP-growth算法是基于MSApirori算法,采用了CFP-growth分而治之的思想,并弥补了CFP-growth算法的不足。CFP-growth算法运行时要把整个数据库中的数据压缩到一个MIS-tree中然后进行频繁模式挖掘。在大型数据库中CFP-growth算法会建立一个深度很深宽度很宽的CFP-tree,以至于内存往往不能满足其要求,被迫使用大量的辅存,致使算法的运行效率急剧下降。DPCFP-growth算法根据CFP-tree的特征,有效地把大数据库分为若干个内存可以满足其要求的子数据库,然后在每个子数据库中进行局部频繁模式挖掘,最终汇总这些频繁模式生成全局频繁模式。实验表明该算法是正确的,并且在大型数据挖掘中,比CFP-growth算法有一定的优越性。  相似文献   

8.
Apriori算法是关联规则挖掘中的经典算法。通过对Apriori算法的基本思想和性能的研究分析,提出了一种基于垂直事务列表的树形结构的挖掘算法,减少了候选频繁项集的数量,提高了挖掘算法的效率。实验结果表明新算法具有良好的性能。  相似文献   

9.
数据挖掘中关联规则算法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
目前,人们已经提出了许多挖掘关联规则的算法及其变型,其中最著名的是Apriori算法,但传统的算法效率太低。为了解决这些问题,本文提出了一种快速更新的关联挖掘算法。  相似文献   

10.
医学数据挖掘中的数据预处理与Apriori算法改进   总被引:2,自引:0,他引:2  
医学数据挖掘是提高医院信息管理水平,为疾病的诊断和治疗提供科学的、准确的决策的需要。分析了医疗数据的特点,并以慢肺阻疾病诊断的数据集为例,阐述了把医疗数据转换成事务数据格式的方法,描述了关联规则挖掘在医疗数据分析中应用所遇到的难题,针对这些难题给出了一些算法的改进措施,并用数据进行测试。结果表明,此算法优于原来算法,它可以减少产生的规则的数量,从而能快速发现有趣的医疗关联规则。  相似文献   

11.
传统的关联规则挖掘算法不能在同一事务数据库中连续挖掘多个最小支持度的频繁项目集。为此,提出基于多个最小支持度的频繁项目集挖掘算法。运用集合论定义模型库的概念,将事务数据库转化成模型库,通过检索模型库得到频繁项目集,从而降低频繁项目集的挖掘时间。实验结果表明,该算法的挖掘效率高于Apriori算法。  相似文献   

12.
基于属性分组的高效挖掘关联规则算法   总被引:6,自引:0,他引:6  
挖掘频繁项集在数据挖掘中有着重要的作用。目前,关于频繁项集的挖掘问题已经提出了一些算法,虽然实现了一次扫描数据库即可以发现所有的频繁项集,但是当属性数目很多时,算法的执行效率下降很快。论文首次提出了利用属性分组作为挖掘关联规则的工具,给出了基于属性分组的频繁项集挖掘算法,用矩阵来存储数据库属性间的信息并提取频繁项集,而且不产生候选项集。经实验验证该算法是快速有效的。  相似文献   

13.
对关联规则的挖掘是数据挖掘中的一个重要问题。在挖掘之前先对数据库扫描,以获得一些辅助的信息,能极大地加速挖掘过程。ARSC算法以建立一种称为分段信息表的数据结构来提高关联规则挖掘的效率。分段信息表所占用的空间很小,生成所需要的时间也很短,却能够获得很好的性能。它还有很强的通用性,能在多种数据挖掘任务和多种算
算法中使用。  相似文献   

14.
运用关联规则发现方法对人事信息库进行数据挖掘,生成了对当前数据库有效的关联规则,为高校管理决策提供科学依据。但数据库的更新操作经常发生,原来有效的部分规则可能在更新后的数据库中会成为无效,原无效的部分规则也同样有可能会成为有效。文章提出了EPUA算法,有效解决了数据更新后关联规则的更新问题,对FUP2算法进行了补充和改进。  相似文献   

15.
Apriori算法是经典的频繁项目集生成算法,在数据挖掘界起着里程碑的作用。但是该算法要求多次扫描可能非常大的交易数据库。文章在Apriori算法的基础上,提出了一种改进的关联规则挖掘算法-GBARM。该算法能够使得每次扫描的事务数大大减少,并且能够逐步减小候选k-项集的规模,从而改善算法的性能。  相似文献   

16.
数据挖掘是基于数据仓库的知识发现技术,当数据仓库数据海量时,进行穷举搜索是不可行的,必须采取一种有效的搜索策略。遗传算法不仅具有很好的全局搜索能力,同时它能较好的处理数据库中不同属性之间的相互关系。该文论述了如何把遗传算法应用于数据挖掘领域。  相似文献   

17.
基于幂集的关联规则挖掘算法研究   总被引:15,自引:2,他引:13  
首次提出了利用幂集作为挖掘关联规则的工具,给出了基于幂集的关联规则挖掘算法。该算法有效解决了传统算法中需对数据库多次扫描的不足,实现了对数据库一次扫描就可挖掘出所有频繁集的功能。  相似文献   

18.
赵静 《电脑开发与应用》2012,25(7):16-17,20
A priori算法是经典的关联规则挖掘算法,它利用逐层搜索的迭代方法完成频繁模式的挖掘工作,反复进行连接剪枝操作,思路简单易操作,但也伴随着产生庞大候选集,多次扫描数据库产生巨大I/O开销的问题,提出一种改进算法:基于矩阵的关联规则挖掘算法,同A priori算法比较,该算法只需扫描一遍数据库,就可直接查找k-频繁项集,尤其是当频繁项集较高的时候,该算法具有更高的执行效率,在大数据量的情况下更具有可行性。  相似文献   

19.
采用向量矩阵进行关联规则挖掘,较之一般的挖掘算法在发现频繁项目集方面有更高的效率。本文提出的算法只需要对数据库扫描一遍,并且存放辅助信息所需要的空间也少,因此具有很好的实用性。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号