共查询到20条相似文献,搜索用时 15 毫秒
1.
针对关联规则挖掘经典的Apriori算法多次扫描数据库,侯选项集数目多而引起的效率低下问题,本文提出了将Apriori算法与散列技术和自适应步长相结合的改进算法,算法压缩了侯选项集的数目以及减少了扫描数据库的次数.通过理论分析与实验结果表明,该算法与经典的Apriori算法相比较,效率上有明显的提高,特别是对大事务集,长事务集数据挖掘效果更为明显. 相似文献
2.
为解决在挖掘关联规则时存在大量冗余规则以及效率不高的问题,提出了一种基于事务ID集合的带约束的关联规则挖掘算法ACARMT.该算法结合了Separate算法以及基于数据垂直分布算法的优势,先根据约束条件产生基础频繁项目集,再利用事务ID集合存储项目集信息,从而避免重复扫描数据库,提高了挖掘效率.应用该算法挖掘实际的生殖健康数据的实验表明,在数据量大到超出基于数据垂直分布算法的使用范围时,该算法仍然有效,并且其效率优于Separate算法. 相似文献
3.
关联规则挖掘Apriori算法的研究与改进 总被引:7,自引:1,他引:6
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有趣的关联.Apriori算法是关联规则挖掘中的经典算法.然而Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点.对Apriori算法的原理及效率进行分析,指出了一些不足,并且提出了改进的Apriori_LB算法.该算法基于新的数据结构,改进了产生候选项集的连接方法.在详细阐述了Apriori_LB算法后,对Apriori算法和Apriori_LB算法进行了分析和比较,实验结果表明改进的Apriori_LB算法优于Apriori算法,特别是对最小支持度较小或者项数较少的事务数据库进行挖掘时,效果更加显著. 相似文献
4.
为简化空间频繁模式挖掘的预处理步骤并提高挖掘效率, 提出一种可以直接以空间矢量和栅格图层作为输入的挖掘算法FISA(fast intersect spatial Apriori)。该算法利用图层求交和面积计算操作实现谓词集支持度计数进而实现频繁谓词集和关联规则挖掘。相对于基于事务空间关联规则挖掘算法, FISA不需要预先进行空间数据事务化处理, 并且所得结果均有对应图层, 便于实现结果的可视化; 相对于其他基于空间分析的挖掘算法, FISA支持空间数据的矢量和栅格格式, 且引入了快速求交方法以保证其可伸缩性。实验结果表明该算法可以直接从空间数据中高效正确地挖掘出频繁模式。 相似文献
5.
6.
7.
Apriori是关联规则挖掘的经典算法,在利用该算法进行医疗数据挖掘的过程中,发现其频繁项集产生过程有一些不必要的开销,为此提出了改进算法Mypriori,利用维间扩展和事务压缩策略来提高频集发现的效率,并通过实验验证了算法的有效性. 相似文献
8.
由于现代网络数据量的急速增长,利用现有的算法生成关联规则时,冗余规则的数量远远大于实际有价值的规则,冗余规则不仅影响用户分析,而且使关联规则的利用率也大大降低。针对关联规则的冗余问题,提出了一种基于一阶谓词公式去除商务数据冗余关联规则的方法,利用一阶谓词公式来表示关联规则,通过等价公式进行转换,并利用算法和矩阵等价将谓词公式转换为邻接矩阵,然后利用冗余规则算法进行删除。实验原始数据为UCI数据集,并利用Weka生成关联规则。最后利用Matlab和Java实现冗余规则的去除。 相似文献
9.
针对Apriori算法的主要问题,提出了关联规则挖掘的两种改进算法:高维分解法通过遍历事务数据库形成高维频繁项目集和关联规则,然后直接分解高维关联规则得到低维关联规则;前缀广义链表法先通过对事务数据库的遍历形成前缀链表,然后再次扫描事务数据库,遍历其前缀链表,根据判断每个事务是否与其中的一条路径完全或部分重合而找到关联规则。这两种算法均能极大地减少事务数据库的遍历和大规模候选序列集的产生,提高挖掘算法的效率,使得关联规则的产生简单化。 相似文献
10.
Apriori算法是数据挖掘领域挖掘关联规则频繁项目集的经典算法,但该算法存在产生大量的候选项目集及需要多次扫描数据库的缺陷。为此提出一种新的挖掘关联规则频繁项目集算法( CApriori算法):利用分解事务矩阵来压缩存放数据库的相关信息,进而对分解事务矩阵进行关联规则挖掘;优化了由频繁k -1项目集生成频繁k项目集的连接过程;提出了一种不需要扫描数据库,利用行集“与运算”快速计算支持数的方法,改进算法挖掘所有的频繁项目集只需扫描数据库两次。实验结果表明,改进算法在最小支持度较小时效率高于Apriori算法。 相似文献
11.
Apriori算法是关联规则的经典算法,并己经被越来越多的企业使用。它在给企业带来经济效益的同时,也让人们意识到算法自身的不足:第一,该算法在扫描事务数据库的次数过多,从而需要承担很大的I/O负载;第二,它可能产生庞大的候选集。为了提高Apriori算法的效率,针对减少扫描事务数据库次数的方法,提出一种改进挖掘效率的算法。 相似文献
12.
13.
14.
15.
Apriori算法的改进 总被引:10,自引:0,他引:10
介绍关联规则挖掘的情况,在分析关联规则挖掘算法的基础上,通过对经典Apriori算法的改进,提出一种改进算法,该算法在计算候选大项集支持度所涉及的记录数目将小于事务数据库中原始的记录数目,实验证明该算法能够有效提高执行效率。 相似文献
16.
为了解决大规模数据环境下挖掘出的关联规则过多,用户需要耗费大量时间在这些关联规则中寻找自己感兴趣规则的问题,提出了一种基于Map/Reduce并行化编程模型的前后部项约束关联规则挖掘算法FRPFP.通过对用户感兴趣的规则前后部项进行标记和分组挖掘,并在各分组挖掘过程中根据标记的规则前后部约束项,对事务集进行压缩,从而筛选出有效的频繁项集,最终得到含有用户感兴趣项的关联规则.该算法在Spark框架中实现,实验结果表明,该算法能够有效地减少冗余规则的产生,计算开销较少,具有较好的规模增长性. 相似文献
17.
一种挖掘多维关联规则的有效算法 总被引:4,自引:0,他引:4
1.引言挖掘大型事务数据库中的关联规则是数据挖掘研究的重要课题之一。由于关联规则在商务分析与决策、相关分析、分类等方面具有广泛应用,自提出以来一直受到广泛重视。一维关联规则的挖掘已有不少有效算法(如文,[2,3,4],综述参见文[l])。多维关联规则不仅考虑项集间的关联,而且考虑项集的维约束。这使得挖掘出的规则更具实用性,同时也增加了规则挖掘的难度。基于规则模板的挖掘,使用元规则限定挖掘的关联规则形式,降低了挖掘难度,但也使得其应用受到一定限制。采用类Apriori算法的方法通过求频繁谓词集得到多维关联规则,具有很好的可扩展性,能够处理大量数据,但其处理维谓词的1/O开销较大。利 相似文献
18.
一种基于事务压缩的关联规则优化算法 总被引:10,自引:0,他引:10
张素兰 《计算机工程与设计》2006,27(18):3450-3453
通过对Apriori算法挖掘过程进行分析,提出了一种基于事务压缩的关联规则挖掘算法.该算法充分利用Apriori性质,通过减少候选集的组合和减少数据库的扫描来提高挖掘的速度和减少数据库的I/O操作时间的开销,有效提高了关联规则的挖掘效率.并在Apriori算法的基础上设计了Apriori改进算法. 相似文献
19.
20.
利用项编码方法改进apriori算法 总被引:1,自引:0,他引:1
在众多的关联规则挖掘算法中Apriori算法是最为经典的一个,但Apriori算法有两个缺陷,即:需要扫描多次数据库以及生成大量的侯选集。文中对该算法进行改进提出了一种对项进行编码的方法,通过对项编码来减少扫描数据库次数并通过删除项来减少生成候选集的数量,从而提高算法的效率。实验结果表明,优化后的算法能有效地提高关联规则挖掘的效率。 相似文献