共查询到20条相似文献,搜索用时 78 毫秒
1.
一种基于云计算的关联规则Apriori算法 总被引:1,自引:0,他引:1
关联规则是数据挖掘的重要方法之一,它基于支持度和置信度等对规则进行选择,以生成有用的规则。传统的关联规则算法需要读取数据库计算频繁集,开销巨大。随着云计算的发展,MapReduce编程架构已经成为云计算中的重要技术,针对Apriori算法的不足,设计了一种算法将云计算MapReduce框架进行了适当改进,并在此基础上编写了Apriori算法,以解决Apriori算法扩展性差的弱点。实验表明:该算法能有效提高Apriori算法的性能。 相似文献
2.
Apriori算法是一种经典的数据关联规则挖掘算法,本文借力云计算环境,根据MapReduce模型并行运行实现的特点,对Apriori算法进行优化,并行化改进后的MR-Apriori算法大大降低了时间消耗,其较强的扩展能力能更好地运用于大规模数据分析、处理和挖掘的需要. 相似文献
3.
本文对关联规则挖掘中的经典算法--Apriori算法的关键思想以及性能进行了研究分析,并提出了该算法的一种改进算法。经过实验结果的对比分析可知,此改进算法的确提高了原算法的性能和执行效率。 相似文献
4.
5.
6.
Apriori算法是数据挖掘关联规则研究中的经典算法,由于它需要多次扫描数据库,造成系统运行效率比较低。所以在对Apriori算法进行了分析之后提出了改进的Apriori算法。改进的主要思想是基于将事务数据库转化成相应的0-1矩阵,通过对矩阵中每个向量与其后的向量做内积运算来计算支持度,并将计算得到的支持度与给定的最小支持度作比较,删除小于最小支持度的行与列,缩小矩阵的规模,提高了运行速度效率。改进的算法只需要对数据库扫描一次,运行效率比较高。实验结果表明,该优化方案是有效可行的。 相似文献
7.
本文对关联规则数据挖掘经典算法Apriori算法需要重复扫描数据库的不足提出了一种新算法。该算法在连接两个频繁(k-1)-项集时,对其事务标识符进行交计算,得到新的候选k-项集。避免了对数据库的频繁扫描,大大提高了算法效率。 相似文献
8.
9.
为了解决数据挖掘中关联规则Apriori算法存在的缺陷,提出了一种全新的基于对候选项集处理的改进算法。该算法主要采用一次扫描数据库和对候选项集进行计数处理的方法,实现了减少执行时间以及计算量的目的。实际应用表明,改进后的Apriori算法具有操作简便、测试准确的特点,达到了提高数据挖掘效率和准确性的要求。 相似文献
10.
在经典的Apriori策略中,各次遍历操作均访问全部数据库。将FP-tree策略移植到Apriori中以重构数据库,提出了FP-A算法。通过对原数据库划分为一系列子数据库,并设置相应的频繁度计数,避免每次访问全部数据库记录,提高算法效率。实验结果表明,FP-A策略具有高效性。 相似文献
11.
LIU Shan LIAO Yongyi 《现代电子技术》2007,30(4):106-108
1 IntroductionKnowledge Discoveryin databaseis a newly useinfor-mation availably way that computer automatically pick upuseful information or knowledge fromhuge amounts of da-ta.KDD has been one of research hotspots in the field ofthe data base.Data minin… 相似文献
12.
针对关联规则中Apriori算法的不足之处,提出两种基于矩阵的Apriori改进算法.改进算法充分利用矩阵这一工具,以大幅度减少扫描数据库的次数和计算成本,进而有效提高算法的运算效率.同时,通过实例应用和算法性能分析证明所提出的两种改进算法都是有效的关联规则挖掘方法,且比Apriori算法具有更好的性能. 相似文献
13.
14.
基于项集特性的关联规则挖掘中Apriori算法的改进 总被引:2,自引:0,他引:2
提出一个改进Apriori的算法IApr,利用事务数据库的事务数相对于项集的项的个数而言要大得多这一特点,采用线性存储结构,并结合推出并证明的项集特性,考虑候选频繁项目集的各个项的应满足的条件,只需扫描一次事务数据库,有效减少了生成候选频繁项集的数目,从数据扫描量、搜索空间、时间复杂度上分析都提高了算法效率。 相似文献
15.
基于压缩矩阵方式的Apriori改进算法 总被引:1,自引:0,他引:1
针对关联规则中Apriori算法的不足之处,提出两种基于压缩矩阵方式的Apriori改进算法,改进算法充分利用矩阵并对其进行压缩,以大幅度减少扫描数据库的次数,并提高频繁项集的生成效率,从而有效提升算法的运算效率,同时,.,通过实例应用和算法性能兮析证明所提出的两种改进算法部是有效的关联规则挖掘方法。且比Apri算法具有最好的性能. 相似文献
16.
挖掘关联规则中对Apriori算法的一个改进 总被引:12,自引:6,他引:12
文章针对关联规则中的Apriori算法进行了深入研究,提出了Apriori-I算法。由于这个算法只需要对交易数据库进行一次搜索。能大量减少所需的I/O次数,且内存开销适中,因此同其他关联规则算法相比具有快速的优点.适用于大型交易数据库。使用合成数据作试验表明这个算法尤其对大型数据库的性能优于先前已有的一些关联规则算法。 相似文献
17.
在对PageRank算法进行研究的基础上,利用MapReduce编程模型思想对PageRank算法进行改进,设计了在云平台Hadoop环境下运行的基于MapReduce的PageRank分布式并行算法,并在实验中对不同规模的Web图数据集进行了测试,分析不同的Blocksize参数对于算法计算性能的作用以及集群节点数目对于算法运行效率的影响. 相似文献
18.
19.
20.
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容.经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据.针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的.并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性. 相似文献