共查询到19条相似文献,搜索用时 156 毫秒
1.
2.
针对增量式更新关联规则算法FUP会产生大量候选项集和多次扫描数据库的问题,提出改进算法NFUP.该算法通过新旧数据库频繁项集间的关系得出所有频繁项集,尽可能利用已有的挖掘结果来生成较少的候选项目集并较少次数地扫描数据库.仿真实验表明,NFUP算法的执行时间比FUP算法减少了不少. 相似文献
3.
针对在最小支持度、最小置信度不变的情况下,新增数据集时关联规则更新问题,提出了一种新的关联规则的更新算法.该算法采用AprioriTidList算法来发现新增数据集中的频繁项集,并对候选项集进行分类和剪裁,从而减少了扫描原数据库和新增数据库的次数,提高了更新效率.实验结果表明新算法是有效可行的. 相似文献
4.
5.
6.
7.
关联规则的更新是数据挖掘研究的一个重要内容,能否有效地挖掘出动态事务数据库中的最大频繁项目集是衡量一个关联规则更新算法好坏的关键因素。提出基于FP_tree的最大频繁项目集增量式更新(MFIUP)算法,以处理最小支持度和事务数据库同时发生变化之后相应频繁项目集的更新问题,其中事务数据库的变化同时包括增加和减少两种情况,并对其优越性进行了分析和测试。 相似文献
8.
9.
10.
增量更新关联规则挖掘主要解决事务数据库中交易记录不断更新和最小支持度发生变化时关联规则的维护问题。针对目前诸多增量更新关联规则挖掘算法存在效率低、计算成本高、规则难以维护等问题,提出一种基于倒排索引树的增量更新关联挖掘算法。该算法有效地将倒排索引技术与树型结构相结合,使得交易数据库中的数据不断更新和最小支持度随应用环境不同而不断改变时,以实现无需扫描原始交易数据库和不产生候选项集的情况下生成频繁项集。实验结果表明,该算法只需占用较小的存储空间、且检索项集的效率较高,能高效地解决增量更新关联规则难以维护的问题。 相似文献
11.
基于DDMINER分布式数据库系统中频繁项目集的更新 总被引:13,自引:0,他引:13
给出了一种分布式数据挖掘系统的体系结构DDMINER,对分布式数据库系统中频繁项目集的更新问题进行探讨,既考虑了数据库中事务增加的情况,又考虑了事务删除的情况;提出了一种基于DDMINER的局部频繁项目集的更新算法ULF和全局频繁项目集的更新算法UGF.该算法能够产生较少数量的候选频繁项目集,在求解全局频繁项目集过程中,传送候选局部频繁项目集支持数的通信量为O(n);将文章提出的算法用Java语言加以实现,并对算法性能进行了研究;实验结果表明这些算法是正确、可行的,并且具有较高的效率. 相似文献
12.
Discovering frequent itemsets is a key problem in important data mining applications, such as the discovery of association rules, strong rules, episodes, and minimal keys. Typical algorithms for solving this problem operate in a bottom-up, breadth-first search direction. The computation starts from frequent 1-itemsets (the minimum length frequent itemsets) and continues until all maximal (length) frequent itemsets are found. During the execution, every frequent itemset is explicitly considered. Such algorithms perform well when all maximal frequent itemsets are short. However, performance drastically deteriorates when some of the maximal frequent itemsets are long. We present a new algorithm which combines both the bottom-up and the top-down searches. The primary search direction is still bottom-up, but a restricted search is also conducted in the top-down direction. This search is used only for maintaining and updating a new data structure, the maximum frequent candidate set. It is used to prune early candidates that would be normally encountered in the bottom-up search. A very important characteristic of the algorithm is that it does not require explicit examination of every frequent itemset. We evaluate the performance of the algorithm using well-known synthetic benchmark databases, real-life census, and stock market databases 相似文献
13.
Parallel Algorithms for Discovery of Association Rules 总被引:2,自引:0,他引:2
Mohammed J. Zaki Srinivasan Parthasarathy Mitsunori Ogihara Wei Li 《Data mining and knowledge discovery》1997,1(4):343-373
Discovery of association rules is an important data mining task. Several parallel and sequential algorithms have been proposed
in the literature to solve this problem. Almost all of these algorithms make repeated passes over the database to determine
the set of frequent itemsets (a subset of database items), thus incurring high I/O overhead. In the parallel case, most algorithms
perform a sum-reduction at the end of each pass to construct the global counts, also incurring high synchronization cost.
In this paper we describe new parallel association mining algorithms. The algorithms use novel itemset clustering techniques
to approximate the set of potentially maximal frequent itemsets. Once this set has been identified, the algorithms make use
of efficient traversal techniques to generate the frequent itemsets contained in each cluster. We propose two clustering schemes
based on equivalence classes and maximal hypergraph cliques, and study two lattice traversal techniques based on bottom-up
and hybrid search. We use a vertical database layout to cluster related transactions together. The database is also selectively
replicated so that the portion of the database needed for the computation of associations is local to each processor. After
the initial set-up phase, the algorithms do not need any further communication or synchronization. The algorithms minimize
I/O overheads by scanning the local database portion only twice. Once in the set-up phase, and once when processing the itemset
clusters. Unlike previous parallel approaches, the algorithms use simple intersection operations to compute frequent itemsets
and do not have to maintain or search complex hash structures.
Our experimental testbed is a 32-processor DEC Alpha cluster inter-connected by the Memory Channel network. We present results
on the performance of our algorithms on various databases, and compare it against a well known parallel algorithm. The best
new algorithm outperforms it by an order of magnitude. 相似文献
14.
讨论分布式数据库系统中最小支持度变化时频繁项目集如何高效更新问题,提出了一种基于最小支持度变化的局部频繁项目集的更新算法ULFS和全局频繁项目集的更新算法UGFS.该算法能够充分利用已挖掘的结果.并且产生较少数量的候选频繁项目集,在求解全局频繁项目集过程中.候选局部频繁项目集支持数的通信量为O(n).将文章提出的算法用Java加以实现.并时算法性能进行了研究.实验结果表明这些算法是可行、有效的.并且具有较快的速度. 相似文献
15.
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。 相似文献
16.
关联规则挖掘中对Apriori算法的一种改进研究 总被引:2,自引:0,他引:2
通过对关联规则挖掘算法的详细分析,提出了一种基于无向项集图的动态频繁项集挖掘算法.当事务数据库和最小支持度发生变化时,该算法只需重新遍历一次无向项集图即可得到新的频繁项集.该算法不仅简单、只需扫描一次数据库,而且还具有搜索速度快、节省内存空间等优点. 相似文献
17.
一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法 总被引:9,自引:2,他引:7
目前已提出了许多快速的关联规则挖掘算法,实际上用户只关心部分关联规则,如他们仅想知道包含指定项目的规则.当这些约束被用于数据预处理或将它结合到数据挖掘算法中去时,可以显著减少算法的执行时间.为此,考虑了一类包含或不包含某些项目的布尔表达式约束条件,提出了一种快速的基于FP—tree的约束最大频繁项目集挖掘算法CMFIMA,并对其更新问题进行了研究,提出了一种增量式更新约束最大频繁项目集挖掘算法CMFIUA. 相似文献
18.
针对目前大数据快速增加的环境下,海量数据的频繁项集挖掘在实际中所面临的增量更新问题,在频繁项超度量树算法(frequent items ultrametric trees,FIUT)的基础上,引入MapReduce并行编程模型,提出了一种针对频繁项集增量更新的面向大数据的并行算法。该算法通过检查频繁超度量树叶子节点的支持度来确定频繁项集,同时采用准频繁项集的策略来优化并行计算过程,从而提高数据挖掘效率。实验结果显示,所提出的算法能快速完成扫描和更新数据,具有较好的可扩展性,适合于在动态增长的大数据环境中进行关联规则相关数据挖掘。 相似文献