共查询到20条相似文献,搜索用时 109 毫秒
1.
2.
Apriori算法是数据挖掘领域挖掘关联规则频繁项目集的经典算法,但该算法存在产生大量的候选项目集及需要多次扫描数据库的缺陷。为此提出一种新的挖掘关联规则频繁项目集算法( CApriori算法):利用分解事务矩阵来压缩存放数据库的相关信息,进而对分解事务矩阵进行关联规则挖掘;优化了由频繁k -1项目集生成频繁k项目集的连接过程;提出了一种不需要扫描数据库,利用行集“与运算”快速计算支持数的方法,改进算法挖掘所有的频繁项目集只需扫描数据库两次。实验结果表明,改进算法在最小支持度较小时效率高于Apriori算法。 相似文献
3.
Apriori算法的三种优化方法 总被引:35,自引:3,他引:35
通过对Apriori算法的思想和性能的分析,认为Apriori算法存在以下三点不足:(1)由K阶频繁集生成K+1阶候选频繁集时,在K+1阶候选频繁集中过滤掉非频繁集的策略值得进一步改进;(2)连接程序中相同的项目重复比较太多,因而其效率值得进一步改进;(3)在回扫数据库时有许多不必比较的项目或事务重复比较。根据上述三点不足,提出了相应的三种优化策略来优化Apriori算法,得到一效率较高的改进Apriori算法。 相似文献
4.
在对Apriori算法分析的基础上,针对该算法存在的两个缺陷,即多次扫描事务数据库和产生大量的候选数据集,提出了改进的Apriori算法。改进后的算法采用矩阵表示数据库,只扫描1次数据库,改变由低维频繁项目集到高维频繁项目集的多次连接运算,直接从高阶项目集着手寻找最大频繁项目集,从而提高了运算效率。 相似文献
5.
高效的关联规则挖掘算法 总被引:2,自引:0,他引:2
针对Apriori算法多次扫描数据库且生成的候选项集数量大的缺陷,提出了一种数据库优化策略,并结合修剪频繁集和连接优化策略,得到一种新的关联规则挖掘算法-NApriori算法.该算法减小了数据库的规模以及候选项集的数目,避免了连接过程中相同项目的重复比较.实验表明此方法比Apriori算法有更好的性能. 相似文献
6.
常睿 《计算机光盘软件与应用》2012,(19):19-20,23
针对Apriori算法的缺陷,引入一种新结构—链表数组来压缩存放数据的相关信息,并结合修剪频繁集和连接优化策略,得到一种新的关联规则挖掘算法FAA算法。该算法只须扫描两遍数据库,优化了连接操作,提高了候选项集的支持事务计数的效率,减少了候选项集的数目,较好地提高了算法的效率。实验结果表明FAA算法是可行有效的。 相似文献
7.
8.
一种基于关联规则Apriori算法的改进研究 总被引:1,自引:0,他引:1
介绍Apriori算法的原理和基础,并对制约Apriori算法效率的瓶颈问题提出一种改进策略,针对该算法的两个缺陷,多次扫描事务数据库并产生大量的候选集,提出一种0-1矩阵的改进算法改变由低维频繁项目集到高维频繁项目集的多次连接运算。此改进算法大大减少了访问数据库的次数,提高系统的运行效率,同时还减少大量的候选集的产生,节约存储空间。 相似文献
9.
郑麟 《计算机应用与软件》2014,(4):297-301,326
针对Apriori算法的不足,提出基于项数布尔矩阵的改进算法MPIN_Apriori。改进算法运用分治思想将数据集分段处理,使用事务项数进行矩阵压缩并利用向量交运算和先验剪枝直接生成局部频繁k-项集,最终合并为全局频繁k-项集。该算法从根本上改进了Apriori算法频繁迭代的流程,避免了连接运算而且极大减轻了内存负担。实验结果表明在进行大型数据库频繁项集挖掘时其效率明显高于Apriori算法,而且对分布式数据挖掘有参考价值。 相似文献
10.
经典的Apriori算法在大项目集的挖掘过程中因为重复搜索导致效率低下。提出一种改进的Hash表结构应用于DHP算法中的项目集存放,定义新的Hash函数确定项目集的存放地址,并基于新的Hash表结构,以并行挖掘的方式优化关联规则算法的剪枝过程。实验结果表明,与Apriori算法相比,文中的方法可以更好地节省存储空间,提高挖掘效率。 相似文献
11.
一种改进的相联规则提取算法 总被引:3,自引:1,他引:3
相联规则的提取是数据挖掘的一个重要方面。Apriori算法是提取相联规则的经典算法,效率较高。AprioriPro算法是对Apriori算法的改进,它利用大项集生成过程中的中间结果对数据库进行过滤,从而加快候选项集的计数速度,提高了整个算法的效率。该文在AprioriPro算法的基础上,首先对其基本理论进行扩展并加以证明,提出了AprioriPro2算法。该算法相对于AprioriPro算法能更多地去掉数据库中的无效元组,从而进一步提高了算法的效率。 相似文献
12.
本文介绍了Web数据挖掘的概念及其分类,并对Web数据挖掘技术的研究进行概述。利用Apriori算法发现频繁集,找到页面间的关联规则。针对网页超链接结构的特点:一条超链接只能建立在两个网页上,发现频繁集只要找出所有2-项集即可,从而提出网页超链接挖掘的NApriori算法。NApriori算法显著提高了Apriori算法的效率。 相似文献
13.
一个高效剪枝的新关联规则挖掘算法 总被引:4,自引:0,他引:4
分析了现有的对Apriori算法的改进方向,新算法将Apriori的剪枝步骤合并入从Lk-1与Lk-1连接生成Ck的连接步骤,通过使用临时项集TQ存储Lk-1中单个数据项集与Lk-1中其他数据项集连接的结果,从而将被扫描集合的大小从Lk-1缩减为L1的大小,极大地提高了Ck的生成效率。 相似文献
14.
关联规则发现是数据挖掘中的重要研究课题之一。将挖掘的数据事务集压缩到一个布尔型向量矩阵中,只需扫描数据库一次,合理利用数据存储结构,且不会产生大量的候选集。实验表明,该算法不仅实现简单,与经典的Apriori算法进行相比,效率也有大幅提高,特别对大事务集、长项目集数据挖掘效果更为明显。 相似文献
15.
16.
基于Apriori算法改进的关联规则提取算法 总被引:11,自引:2,他引:9
通过对Apriori算法的基本思想和性能的研究分析,认为Apriori算法存在一些不足。并且根据这些不足提出了相应的改进算法对Apriori算法进行优化,从而得到一种改进的Apriori算法,与原算法相比运算效率大大提高。 相似文献
17.
为解决传统频繁模式挖掘算法效率不高的问题,提出了一种改进的基于FP-tree (Frequent pattern tree)的Apriori频繁模式挖掘算法.首先,在Apriori算法的连接步加入连接预处理过程;其次,对CP-tree (Compact Pattern tree)进行扩展,构造了一个新的树结构ECP-tree (Extension of Compact Pattern tree),新的树结构只需对数据库进行一次扫描就能构造出一棵紧凑的前缀树,且支持交互式挖掘与增量挖掘;然后,将改进点与APFT算法结合,用于挖掘频繁模式;最后,使用UCI数据库中两个数据集进行实验.实验结果表明:改进算法具有较高的挖掘效率,频繁模式挖掘速度显著提升. 相似文献
18.
19.
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性。通过对关联规则挖掘技术及其相关算法Apriori进行分析,发现该技术存在的问题。Apriori算法是关联规则挖掘中的经典算法。对Apriori算法做了改进。借助0—1矩阵给出了计算项集的支持度计数的更快方法,同时还简化了Apriori算法中的连接和剪枝操作,从而在时间和空间上提高了Apriori算法的效率。 相似文献
20.
该文通过对Apriori算法的基本思想和性能的研究剖析,认为Apriori算法存在一些不足;并且根据这些不足提出了相应的改进UDApriori算法对经典算法进行优化,从而得到一种改进的Apriori算法,与原算法相比运算效率大大提高. 相似文献