共查询到20条相似文献,搜索用时 62 毫秒
1.
一种基于散列技术和事务压缩的关联规则挖掘算法 总被引:6,自引:0,他引:6
文章以DHP算法为基础,在产生频繁项集时考虑了一种可以直接删除非频繁项集的散列函数,并压缩了文中提出的几种冗余事务,提出TFDHP算法,其性能优于传统的Apriori算法和DHP算法。 相似文献
2.
关联规则挖掘是数据挖掘领域中的一个非常重要的研究内容,其主要目标就是发现数据库中一组对象之间某种关联。频繁项集挖掘是关联规则挖掘的关键步骤,它在很大程度上决定了关联规则挖掘的效率。介绍了Apriori算法及其算法改进。该改进算法对剪枝步进行了优化,提高了连接效率,并且不断减小数据库的规模,去掉无效事务,减少了每次扫描数据库所花费的时间,提高了算法效率。经过试验论证,性能比原有算法提高,具有一定的实用性。 相似文献
3.
数据挖掘中常用关联规则挖掘算法 总被引:3,自引:3,他引:3
文中首先介绍了数据挖掘中关联规则的经典算法--Apiori算法.再从宽度、深度、划分、采样、增量式更新等几个角度对关联规则挖掘进行了分类讨论.然后运用文献查询和比较分析的方法对常见的关联规则挖掘算法进行了概述,主要包括FP-growth算法、DHP算法、Partition算法、FUP算法、CD算法等算法.最后对关联规则挖掘的发展远景进行了展望. 相似文献
4.
5.
医学数据挖掘中的数据预处理与Apriori算法改进 总被引:2,自引:0,他引:2
医学数据挖掘是提高医院信息管理水平,为疾病的诊断和治疗提供科学的、准确的决策的需要。分析了医疗数据的特点,并以慢肺阻疾病诊断的数据集为例,阐述了把医疗数据转换成事务数据格式的方法,描述了关联规则挖掘在医疗数据分析中应用所遇到的难题,针对这些难题给出了一些算法的改进措施,并用数据进行测试。结果表明,此算法优于原来算法,它可以减少产生的规则的数量,从而能快速发现有趣的医疗关联规则。 相似文献
6.
一种基于矩阵的频繁项集更新算法* 总被引:2,自引:0,他引:2
针对相关算法在处理频繁项集更新时所存在的问题,提出了一种基于矩阵的频繁项集更新算法。该算法首先以时间为基准将更新后的数据库分为原数据库和新增数据库,分别将它们转换为0-1矩阵,通过矩阵裁剪、位运算产生新增频繁项集,并利用已有频繁项集更新原有频繁项集。实验仿真结果不但证明了该算法的可行性和高效性,而且还证明了它适合大型、稠密性数据库的频繁项集更新。 相似文献
7.
本文利用频繁项集的一个性质,对Apriori算法中的生成候选项集这一步进行改进,大大减少不必要的计算,从而加快候选项集生成的速度。 相似文献
8.
基于频繁项集挖掘算法的改进与研究 总被引:1,自引:1,他引:1
关联规则挖掘是数据挖掘领域中重要的研究内容,频繁项集挖掘又是关联规则挖掘中的关键问题之一。针对已有的频繁项集挖掘算法存在的问题,通过对Apriori算法的分析,提出了Inter-Apriori频繁项集挖掘算法。该算法使用交集策略减少扫描数据库的次数,从而使算法达到较高的效率。实验结果表明,Inter-Apriori算法是Apriori算法效率的2~4倍。 相似文献
9.
一种基于栈变换的高效关联规则挖掘算法 总被引:12,自引:0,他引:12
在一个模式信息保全引理的基础上,提出了一个基于频繁模式栈变换的关联规则挖掘算法FPST,给出了相应的栈构造和栈变换的算法描述,并进行了算法的性能分析和比较试验,结果表明算法性能优良。 相似文献
10.
11.
数据挖掘中关联规则挖掘算法比较研究 总被引:27,自引:12,他引:15
分析数据挖掘中关联规则挖掘算法的研究现状,提出关联规则新的价值衡量方法和关联规则挖掘今后进一步的研究方向。以核心Apfiofi算法为基点,运用文献查询和比较分析方法对典型的关联规则挖掘算法进行了综合研究:Apfiofi法即使进行了优化,一些固有的缺陷仍然无法克服,还需进一步研究;②今后的研究方向将是提高处理极大量数据和非结构化数据算法的效率、与OLAP相结合以及生成结果的可视化。 相似文献
12.
在分析研究具有代表性的关联知识挖掘算法的基础上,提出了挖掘频繁模式的一个新的数据库存储结构AFP-树,并在此结构上设计了一个频繁模式挖掘算法。理论研究已经阐明了AFP-树的有效性和相关算法的高效性。 相似文献
13.
针对Apriori和AprioriTid算法中存在的项集生成瓶颈问题,提出了一种基于事务集压缩、候选项集压缩和支持度布尔矩阵的改进AprioriTid算法。该算法中通过删去不必比较的事务来有效缩减数据集;优化频繁项集的自连接方式来减少生成的候选项集个数;使用支持度布尔矩阵来加快候选项集的验证速度。实验结果表明改进算法确实能有效减少相关计算量,比已有算法执行效率明显提高,同时验证了该算法在旋转机械故障诊断中的有效性。 相似文献
14.
关联规则挖掘的应用日益广泛,但已经提出的大多关联规则挖掘算法都是把数据仓库中各个项目按平等一致的方式加以处理的.然而,在现实世界中,不同的项目往往有着不同的重要性.现有的有关加权关联规则的研究中,大多采用的加权方法不太好,或挖掘算法效率不够高.为此,提出了一种新的挖掘加权关联规则的算法,该算法采用矩阵和位串技术,只需要对数据库扫描一遍,可快速挖掘出所有的加权频繁项集,并且存放辅助信息所需要的空间也较少.研究表明该算法比已有的算法更高效. 相似文献
15.
生成关联规则算法FAS,能够迅速区分某频繁项集的所有关联规则的前件和后件,生成给定频繁项目集的关联规则。基于FAS算法,设计并实现了一个基于最近挖掘结果的数据挖掘系统AR—Miner。该系统主要包括数据预处理、频繁集初始计算、频繁集更新计算、频繁集选择、关联规则生成五部分,不仅实现了关联规则挖掘的可视化和生成结果按“支持度一可信度”形式的可视化,还为基于频繁集的交互式挖掘提供了方便、友好的界面。 相似文献
16.
基于频繁模式树的分布式关联规则挖掘算法 总被引:1,自引:0,他引:1
提出一种基于频繁模式树的分布式关联规则挖掘算法(DMARF).DMARF算法设置了中心结点,利用局部频繁模式树让各计算机结点快速获取局部频繁项集,然后与中心结点交互实现数据汇总,最终获得全局频繁项集.DMARF算法采用顶部和底部策略,能大幅减少候选项集,降低通信量.理论分析和实验结果均表明了DMARF算法是快速而有效的. 相似文献
17.
针对Apriori寻找频繁项集问题,提出了基于垂直事务列表的树形结构的挖掘算法。该算法结合项集的有序特性,使生成树的每一层结点从左往右按支持度大小升序排列,这样得到的候选频繁项集的集合是最小的,大大减少了候选频繁项集的数量,而且能保持频繁项集的完整性,从而节约了计算开销,提高了算法的效率。 相似文献
18.
一种有效的挖掘关联规则更新方法 总被引:1,自引:0,他引:1
在挖掘关联规则过程中,用户往往需要多次调整(增加或减少)最小支持度,才能获得有用的关联规则。给出一个利用已存信息有效产生新候选项目集的PSI算法,结果表明每次扫描数据库时能有效地减少候选项目集的数。 相似文献
19.
针对已有概率频繁项集挖掘算法采用模式增长的方式构建树时产生大量树节点,导致内存空间占用较大以及发现概率频繁项集效率低等问题,提出了改进的不确定数据频繁模式增长(PUFP-Growth)算法。该算法通过逐条读取不确定事务数据库中数据,构造类似频繁模式树(FP-Tree)的紧凑树结构,同时更新项头表中保存所有尾节点相同项集的期望值的动态数组。当所有事务数据插入到改进的不确定数据频繁模式树(PUFP-Tree)中以后,通过遍历数组得到所有的概率频繁项集。最后通过实验结果和理论分析表明:PUFP-Growth算法可以有效地发现概率频繁项集;与不确定数据频繁模式增长(UF-Growth)算法和压缩的不确定频繁模式挖掘(CUFP-Mine)算法相比,提出的PUFP-Growth算法能够提高不确定数据概率频繁项集挖掘的效率,并且减少了内存空间的使用。 相似文献
20.
分析了New-Apriori和MWFI(Mining Weighted Frequent Itemsets)算法之不足,提出了一种挖掘加权频繁项集的New-MWFI算法。该算法按属性的权值对事务进行分类,并依次求出每个类别内的加权频繁项集。由于每个类别内的频繁项集满足Apriori性质,因而可以利用Apriori算法或其他改进算法进行挖掘,从而克服了原来算法的不合理和效率低下的缺陷。实验表明该算法能更有效地从数据集中挖掘出加权频繁项集。 相似文献