共查询到20条相似文献,搜索用时 78 毫秒
1.
探讨了Apriori算法的改进问题,提出了一种适用于中小数据集的关联规则挖掘算法。该算法主要特点是简单、清晰、高效。一方面充分使用了内存的高效存贮,另一方面使用了位运算快速进行计数,同时简化了Apriori算法中频繁项集的计算,大大的减少了中间变量及其存贮的时间和空间,提高了关联规则挖掘的速度和效率。 相似文献
2.
在事务数据集中发现项目间的关联规则是数据挖掘的一个经典问题,但传统的关联规则挖掘方法对于大事务数据集而言,执行效率相对较低。已经有研究表明,采样技术能有效地改善挖掘效率。在分析现有采样方法的基础上,提出了一种新的基于采样的高效关联规则挖掘算法ESMA。该算法采用了更加有效的双向采样策略。通过实验分析表明,该算法明显地加快了大事务数据库中采样的速度,从而降低了CPU时间,而且具有很好的可扩展性。 相似文献
3.
LIU Zhi- yi 《数字社区&智能家居》2008,(18)
对关联规则算法进行了研究和分析,基于候选集的Apriori-like算法需要反复扫描数据库,并产生大量的候选集,在挖掘低支持度、长模式的规则时效率低下。针对算法的缺陷,该文提出了一种PS算法,优化了关联规则的挖掘。实验结果证明了该算法的有效性。 相似文献
4.
时态关联规则挖掘是针对在一段时间范围内的关联挖掘,在现实中有较多的应用。现有的大多数时态关联挖掘算法或者需要多次扫描数据库,或者没有考虑各个项在数据集上出现或结束时间上的不同,因而挖掘性能受到较大的制约。为此,本文提出一种增量式的面向具有不同时间出现与结束的项的时态关联规则挖掘算法。为减少存储方面的开销,只需保存已挖掘过的历史数据集中的频繁1项集。为了减少数据的扫描量,通过有效的剪枝策略,有选择性地扫描相关事务项,至多只需扫描一次完整的数据库。实验证明,该算法具有较好的挖掘性能。 相似文献
5.
6.
一种改进的关联规则挖掘算法 总被引:9,自引:0,他引:9
目前,已经提出了许多挖掘关联规则的算法,其中最著名的是Apriori算法及其变型。这些传统的算法大多存在项集生成瓶颈和难以确定合适的支持度阈值的问题,并且没有考虑数据库的被分析项的各自不同的重要性。为了解决这些问题,该文提出了一种新的关联挖掘算法。 相似文献
7.
在传统的Apriori的算法中大多存在项集生成瓶颈和难以确定合适的支持度阈值的问题.并且没有考虑各数据之间的重要性。为了解决这些问题,该文提出了一种改进的关联挖掘算法法。 相似文献
8.
司晓梅 《计算机与数字工程》2009,37(11):25-27,32
Apriori算法是经典的频繁项目集生成算法,在数据挖掘界起着里程碑的作用。但是该算法要求多次扫描可能非常大的交易数据库。文章在Apriori算法的基础上,提出了一种改进的关联规则挖掘算法-GBARM。该算法能够使得每次扫描的事务数大大减少,并且能够逐步减小候选k-项集的规模,从而改善算法的性能。 相似文献
9.
10.
现有的数据挖掘算法多是集中式环境下的数据挖掘处理,但目前的大型数据库多以分布式的形式存在,针对分布式数据挖掘算法FDM及其改进算法中存在的频繁项集丢失问题和网络通信开销过高的问题,提出了一种改进的基于关联规则的分布式数据挖掘算法LTDM,LTDM算法引入了映射标示数组机制,可以在保证频繁项集完整性的同时降低网络的通信开销。实验结果证明了算法的有效性。 相似文献
11.
文中基于chi-square检验、有趣度及信息增益理论,给出了一种挖掘优化关联规则的算法。该算法将冗余的规则分为两个部分:一部分规则缺乏统计的相关性,而另外一部分规则不满足“新奇的”要求。实验结果表明算法可以有效地去除冗余规则并提高挖掘效率。 相似文献
12.
13.
针对Apriori算法存在的不足,提出了一种新的优化Apriori的方法。该方法通过优化频繁项集修剪策略,减少无效候选项集的产生;优化连接策略,减少连接次数,避免相同项目的多次重复比较;结合事务数据库逐步压缩技术,减少对无用事务的扫描次数。实验结果表明,经过优化的Apriori算法具有更好的运行效率。 相似文献
14.
Multi-Scaling Sampling: An Adaptive Sampling Method for Discovering Approximate Association Rules 总被引:2,自引:0,他引:2 下载免费PDF全文
One of the obstacles of the efficient association rule mining is the explosive expansion of data sets since it is costly or impossible to scan large databases, esp., for multiple times. A popular solution to improve the speed and scalability of the association rule mining is to do the algorithm on a random sample instead of the entire database. But how to effectively define and efficiently estimate the degree of error with respect to the outcome of the algorithm, and how to determine the sample size needed are entangling researches until now. In this paper, an effective and efficient algorithm is given based on the PAC (Probably Approximate Correct) learning theory to measure and estimate sample error. Then, a new adaptive, on-line, fast sampling strategy - multi-scaling sampling - is presented inspired by MRA (Multi-Resolution Analysis) and Shannon sampling theorem, for quickly obtaining acceptably approximate association rules at appropriate sample size. Both theoretical analysis and empirical study have showed that the sampling strategy can achieve a very good speed-accuracy trade-off. 相似文献
15.
陈爱萍 《数字社区&智能家居》2005,(36)
数据采集手段的丰富,使获取、保存大量数据变得容易,从庞杂的数据中提取有用的知识和信息是数据挖掘的主要任务,关联规则是数据挖掘领域的一个重要分支。本文针对事务数据库中增加新的数据集后相应关联规则的更新和维护问题,提出了一种关联规则增量式增量算法 相似文献
16.
针对关联规则挖掘问题提出一种新的算法,探讨商品与利润间的关系,称为权重式多重支持度关联规则挖掘算法。此算法可针对不同利润的商品定出不同的支持度阈值,由此产生的关联规则,可以解决高单价但交易次数稀少的商品不易被挖掘的问题。 相似文献
17.
一种改进的相联规则提取算法 总被引:3,自引:1,他引:3
相联规则的提取是数据挖掘的一个重要方面。Apriori算法是提取相联规则的经典算法,效率较高。AprioriPro算法是对Apriori算法的改进,它利用大项集生成过程中的中间结果对数据库进行过滤,从而加快候选项集的计数速度,提高了整个算法的效率。该文在AprioriPro算法的基础上,首先对其基本理论进行扩展并加以证明,提出了AprioriPro2算法。该算法相对于AprioriPro算法能更多地去掉数据库中的无效元组,从而进一步提高了算法的效率。 相似文献
18.
An Algorithm for Mining Fuzzy Association Rules 总被引:1,自引:0,他引:1
19.
一种改进的关联规则提取算法 总被引:1,自引:0,他引:1
运用图论中的完全图知识,对关联规则提取过程的第一阶段进行改造,把大项集计算转换为集合的并和交两种基本运算,并利用候选大项集生成过程中的中间结果对已知大项集进行过滤,大大减少不必要的重复计算,从而加快候选大项集的生成速度. 相似文献