共查询到20条相似文献,搜索用时 125 毫秒
1.
一般关联规则挖掘算法分为两步:第一步是发现频繁项目集;第二步是利用频繁项目集产生关联规则.文章讨论了现今关联规则挖掘算法的特点和不足,同时提出一种效率更高的挖掘算法.与其它算法不同的是,该算法侧重于知识领域的使用和关联规则系统应用的预备. 相似文献
2.
军用加密数据为了达到保密的目的,人为设定了较多的加密规则,打破了数据之间常规的关联性.在进行军用数据挖掘建立关联规则时,由于数据关联规则被人为隐藏,递归生成关联条件模式树的过程中,传统的FP-tree算法挖掘算法,由于加密数据的关联复杂性,会递归生成大量条件模式树,导致后期挖掘过程占用了大量的挖掘算法资源,挖掘效率较低.提出基于改进FP-tree的海量加密军用数据下频繁项目集挖掘算法,依据海量加密军用数据下频繁项目集挖掘原理,在FP-tree 算法的基础上,依据预剪枝策略减少挖掘节点,通过单向有序FP-tree防止每次存储当前挖掘出的频繁项目集之前都需要超集检验,建立项目表格,避免递归生成条件模式树浪费资源.将提出的改进FP-tree算法应用到海量加密军用数据下频繁项目集的挖掘中,获取的实验结果说明,改进FP-tree算法在提高加密军用数据频繁项目集挖掘速度及准确率方面具有较高的优越性. 相似文献
3.
Apriori算法是数据挖掘领域挖掘关联规则频繁项目集的经典算法,但该算法存在产生大量的候选项目集及需要多次扫描数据库的缺陷。为此提出一种新的挖掘关联规则频繁项目集算法( CApriori算法):利用分解事务矩阵来压缩存放数据库的相关信息,进而对分解事务矩阵进行关联规则挖掘;优化了由频繁k -1项目集生成频繁k项目集的连接过程;提出了一种不需要扫描数据库,利用行集“与运算”快速计算支持数的方法,改进算法挖掘所有的频繁项目集只需扫描数据库两次。实验结果表明,改进算法在最小支持度较小时效率高于Apriori算法。 相似文献
4.
最大频繁项目集挖掘技术研究与展望 总被引:1,自引:1,他引:1
提高最大频繁项目集挖掘算法的效率是关联规则挖掘研究一个重点领域.本文主要对影响最大频繁项目集挖掘效率的数据分布、搜索策略、支持度计算及剪枝策略等技术进行了研究,并对已提出的最大频繁项目集挖掘算法进行了分析. 相似文献
5.
关联规则挖掘的主要性能由发现频繁项目集决定.频繁项目集是最大频繁项目集的子集,因而找到所有最大频繁项目集是问题的关键.本文使用位串数组的数据结构提出了一种挖掘最大频繁项目集的算法MMFI.该算法通过位串与操作直接得到最大频繁项目集. 相似文献
6.
数据库的更新会引起数据库中的关联规则的更新,找出更新后的所有的频繁项目集,也就能生成更新后的关联规则,因此关联规则的更新就转化为频繁项目集的更新。UWEP算法 利用以前的挖掘结果来减少挖掘新的频繁项目集的开销,采用了一些优化技术来减少数据库的扫描次数和候选项目集的数量,但UWEP算法只能处理增加新事务的情况。本文提出 的UWEP2算法是UWEP算法的扩展,能处理数据库中事务的增加、删除、修改等情况。我们将它与另一种更新频繁项目集的算法FUP2比较,实验显示,UWEP2算法比FUP2算法生成的候选项目集要少,性能要高。 相似文献
7.
数据挖掘中IUA算法存在遗漏频繁项目集致使有的关联规则挖掘不出来的问题,在分析Apriori算法、IUA算法等经典关联规则挖掘算法的基础上,提出了一种基于最近挖掘结果的更新算法HIUA。HIUA算法吸收了Apriori算法和IUA算法的优点,在改变最小支持度和基于最近挖掘结果的条件下,从生成尽可能少的候选项目集考虑,从而得到完整的新频繁项目集,提高了算法的效率。 相似文献
8.
一种基于FP-tree的最大频繁项目集挖掘算法 总被引:7,自引:0,他引:7
挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘最大频繁项目集是挖掘关联规则中的关键问题之一,以前的许多挖掘最大频繁项目集算法是先生成候选,再进行检验,然而候选项目集产生的代价是很高的,尤其是存在大量长模式的时候。文中改进了FP 树结构,提出了一种基于FP tree的快速挖掘最大频繁项目集的算法DMFIA 1,该算法不需要生成最大频繁候选项目集,比DMFIA算法挖掘最大频繁项目集的效率更高。改进的FP 树是单向的,每个结点只保留指向父结点的指针,这大约节省了三分之一的树空间。 相似文献
9.
10.
11.
一种基于多维集的关联模式挖掘算法 总被引:2,自引:0,他引:2
大多数维间关联规则挖掘算法如基于数据立方体的关联规则挖掘算法都假定对象的属性取值只具有单值性.将对象的属性取值扩展到多值,据此提出多维集的概念和基于多维集关联规则的语义特征.在此语义特征下,提出了一个多维集的关联规则挖掘算法.该算法利用多维集关联规则的限制特征,能够在数据集缩减的同时进行侯选集的三重剪枝,因此,具有比直接使用apriori等算法更好的性能,分析了算法的性能和正确性、完备性,并通过实验对算法有效性进行了对比. 相似文献
12.
在挖掘空间拓扑关联规则时,由于现有挖掘算法不能够提取满足用户特定需求的空间拓扑关联规则,若使用传统约束性关联规则挖掘算法,则存在大量的重复计算和冗余候选项;提出一种面向用户的空间拓扑关联规则挖掘算法,其适合在多空间关系模式下,挖掘满足用户特定需求的拓扑关联。该算法通过拓扑关系编码法将空间关系事务转换成整数,用非目标自由空间对象类的集合序列数值递增的方法,索引构建候选频繁项,并用布尔运算计算支持数。在挖掘满足用户特定需求的空间拓扑关联规则时,该算法是快速而有效的。 相似文献
13.
挖掘关联规则中Apriori算法的研究与改进 总被引:17,自引:0,他引:17
关联规则是数据挖掘中重要的研究课题。对关联规则挖掘算法Apriori算法的关键思想以及性能进行了研究,指出该算法的某些不足,并且提出了一种产生候选项集的新算法。该算法提高了原算法的效率。 相似文献
14.
针对MLKNN算法仅对独立标签进行处理,忽略现实世界中标签之间相关性这一问题,提出了一种基于关联规则的MLKNN多标签分类算法(FP-MLKNN)。该算法采用关联规则算法挖掘标签之间的高阶相关性,并用标签之间的关联规则改进MLKNN算法,以达到提升分类性能的目的。首先,使用MLKNN算法求样本的特征置信度;采用关联规则算法挖掘生成一系列强关联规则,进而将2种算法进行融合来构造多标签分类器,对新标签进行预测;在此基础上,将本文提出的算法与MLKNN、AdaBoostMH和BPMLL这3种算法进行实验对比。实验结果表明,本文所提算法在yeast、emotions和enron数据集上的分类性能均优于这3种算法,具有较好的分类效果。 相似文献
15.
为了挖掘可疑通信的行为模式,定位发生了可疑通信行为的上网账户,本文首先分析了可疑通信行为特点。然后针对已有关联规则挖掘算法不能同时满足多层次数据挖掘和加权关联规则挖掘的问题,分析对比两种典型的基本关联规则算法,以FP-tree为基础,提出了ML-WFP多层次加权关联规则挖掘算法。针对算法中数据项权重的确定问题,由用户设置数据项间的重要性比较关系,借鉴模糊一致矩阵的概念,利用模糊层次分析法计算数据项的权重。最后将该算法应用于可疑通信行为的挖掘。实验测试结果表明可疑通信行为挖掘方案合理有效。 相似文献
16.
17.
18.
一种关联规则增量式挖掘算法研究 总被引:1,自引:0,他引:1
现有关联规则更新算法都是基于支持度-置信度框架而提出的,仅针对大于最小支持度闭值的频繁项集进行挖掘。为了提高告警关联规则的完整性和准确性,在相关度AARSC算法基础上,提出了一种增量式挖掘UAARSC算法(Updating-AARSC)。该算法对增量计算进行了改进,可以发现频繁和非频繁告警序列间的关联规则。 相似文献
19.
关联约简由Dominik首次提出,其采用粗糙集理论属性约简思想,从全局属性依赖的角度,挖掘出信息系统中所隐含的关联规则。由于求取给定信息系统所有关联约简和最优关联约简已被证明为NP-难问题,针对特定属性(事务)给出了两类关联约简构造性算法:Multi-Single算法和Single-Multi算法,从而挖掘出针对特定事务的关联规则,有益于综合评价各事务在信息系统中的作用。实例分析表明了所提算法的有效性。 相似文献