共查询到19条相似文献,搜索用时 187 毫秒
1.
2.
3.
常浩 《计算机工程与设计》2012,33(8):3224-3229
为了在事务数据库中发现关联规则,在现实挖掘应用中,经常采用不同的标准去判断不同项目的重要性,管理项目之间的分类关系和处理定量数据集这3个方法去处理问题,因此提出一个在定量事务数据库中采用多最小支持度,在项目集中获取隐含知识的多层模糊关联规则挖掘算法。该挖掘算法使用两种支持度约束和至上而下逐步细化的方法推导出频繁项集,同时可以发现交叉层次的模糊关联规则。通过实例证明了该挖掘算法在多最小支持度约束下推导出的多层模糊关联规则是易于理解和有意义的,具有很好的效率和伸缩性。 相似文献
4.
5.
快速关联规则挖掘与更新算法 总被引:3,自引:0,他引:3
一、引言众所周知,关联规则的挖掘就是发现支持度和信任度分别大于用户指定的最小支持度(minsup)和最小信任度的规则。支持度不小于minsup的项目集叫频繁项目集;反之,称为非频繁项目集。项目集中项目的数量叫做项目集的维数或长度,项目集X的支持度记作sup(X)。有关项目集具有如下性质:(1)如果X是频繁项目集,那么X的任何子集都是频繁项目集;(2)如果X是非频繁项目集,那么X的任何超集都是非频繁项目集。 相似文献
6.
Apriori算法是数据挖掘领域挖掘关联规则频繁项目集的经典算法,但该算法存在产生大量的候选项目集及需要多次扫描数据库的缺陷。为此提出一种新的挖掘关联规则频繁项目集算法( CApriori算法):利用分解事务矩阵来压缩存放数据库的相关信息,进而对分解事务矩阵进行关联规则挖掘;优化了由频繁k -1项目集生成频繁k项目集的连接过程;提出了一种不需要扫描数据库,利用行集“与运算”快速计算支持数的方法,改进算法挖掘所有的频繁项目集只需扫描数据库两次。实验结果表明,改进算法在最小支持度较小时效率高于Apriori算法。 相似文献
7.
基于项目集知识库的关联规则挖掘与更新的高效算法 总被引:2,自引:2,他引:2
通过对已有的诸关联规则挖掘与更新算法进行深入的分析和研究,指出了其共同存在的问题与不足,提出了一种基于项目集知识库的关联规则挖掘与更新方法。该方法既适应当数据库D中数据不变而用户指定的最小支持度和最小置信度这两个阈值变化的情况,也适合事务数据库D中数据发生变化的情况。当事务数据库D中数据不变时,仅需扫描数据库一次,便可建立项目集知识库KBD,然后可反复调整最小支持度和最小置信度进行关联规则挖掘与更新。而当事务数据库D中数据发生变化时,仅需扫描数据集d 和d-各一次;通过对项目集知识库KBD的更新来达到对频繁项目集和关联规则的更新。 相似文献
8.
9.
数据挖掘是从数据库中发现潜在有用知识或者感兴趣模式的过程。在数据挖掘领域中主要集中于单一支持度下的关联规则挖掘,在事务数据库中发现项目之间的关联性,而在实际应用中,项目可以有不同的最小支持度,不同的项目可能具有不同的标准去判断其重要性,因此提出一个在最大值支持度约束下,发现有用的模糊关联规则挖掘算法,在该约束下,利用逐层搜索的迭代方法发现频繁项目集,通过实例证明了该挖掘算法是易于理解和有意义的,具有很好的效率。 相似文献
10.
多重最小支持度频繁项集挖掘算法研究 总被引:1,自引:0,他引:1
某些情况下提取关联规则挖掘时需要根据项目的特点设置不同的最小支持度,针对此问题进行了多重最小支持度的频繁项集挖掘算法研究。在FP-growth的基础上提出了多重最小支持度树(MS-tree)的新方法,并设计了MS-growth算法对MS-tree进行频繁模式集的挖掘。该算法只需扫描一次数据库,克服了MSapriori算法在生成关联规则时需要重新扫描数据库的缺点。实验表明,新算法的性能可以和FP-growth算法相比,而且可以处理多重最小支持度的问题。 相似文献
11.
12.
分布式环境下约束性关联规则的快速挖掘 总被引:2,自引:0,他引:2
研究人员针对单机环境提出了约束性关联规则的挖掘算法,但它们不适用于分布式环境.为此本文讨论分布式环境下约束性关联规则的快速挖掘技术,提出一种基于分布式环境的约束性关联规则快速挖掘算法DCAR,其中包括局部约束性频繁项目集挖掘算法MLFC和全局约束性频繁项目集挖掘算法MGFC.该算法根据布尔约束条件产生向导集,采用一种新的候选项集生成函数Reorder-gen,该函数通过向导集高效地产生分布式环境中满足约束条件的、数量较少且完备的候选项集,并且求解全局约束性频繁项集过程中,传送局部候选项集支持数的通信量为O(n),从而提高了算法的挖掘效率.将本文提出的算法加以实现,实验结果表明DCAR算法高效可行,其效率大约是DMA-IC算法的2-3倍. 相似文献
13.
关联规则挖掘中对Apriori算法的一种改进研究 总被引:2,自引:0,他引:2
通过对关联规则挖掘算法的详细分析,提出了一种基于无向项集图的动态频繁项集挖掘算法.当事务数据库和最小支持度发生变化时,该算法只需重新遍历一次无向项集图即可得到新的频繁项集.该算法不仅简单、只需扫描一次数据库,而且还具有搜索速度快、节省内存空间等优点. 相似文献
14.
在由频繁项集产生关联规则时,利用提升度判断规则前、后件之间的正相关性可以避免产生一些无意义的关联。但是,这并不能保证规则前、后件中的项是正相关的,也不能减少挖掘频繁项集的时间开销。当规则的前件或后件存在负相关的项时,仍然可能产生无意义的关联规则。针对以上问题,基于数学期望,提出了正相关的频繁项集的概念,并改进了一种直接在FP-树中挖掘频繁项集的算法,挖掘出正相关的频繁项集,从而有效地解决以上问题。实验表明,该算法可以大幅度地减少所产生的频繁项集数量,显著地降低了挖掘频繁项集的时间开销。对于大型数据集,尤其是稠密型数据集,该算法具有良好的性能。 相似文献
15.
16.
在研究负关联规则相关特性的基础上,将向量内积引入到该领域,提出了一种基于向量内积的多最小支持度正负关联规则挖掘算法。考虑到事务数据库中各项集分布不均而导致的单一最小支持度难以设定的问题,采用了多最小支持度策略,设计了一种能同时挖掘出频繁与非频繁项集,以及从这些项集中挖掘出正负关联规则的算法。实验结果表明,该算法仅需扫描一次数据库,且具有动态剪枝,不保留中间候选项和节省大量内存等优点,对事务数据库中负关联规则的挖掘具有重要意义。 相似文献
17.
Mining top?k frequent patterns without minimum support threshold 总被引:1,自引:1,他引:0
Finding frequent patterns play an important role in mining association rules, sequences, episodes, Web log mining and many
other interesting relationships among data. Frequent pattern mining methods often produce a huge number of frequent itemsets
that is not feasible for effective usage. The number of highly correlated patterns is usually very small and may even be one.
Most of the existing frequent pattern mining techniques often require the setting of many input parameters and may involve
multiple passes over the database. Minimum support is the widely used parameter in frequent pattern mining to discover statistically
significant patterns. Specifying appropriate minimum support is a challenging task for a data analyst as the choice of minimum
support value is somewhat arbitrary. Generally, it is required to repeatedly execute an algorithm, heuristically tuning the
value of minimum support over a wide range, until the desired result is obtained, certainly, a very time-consuming process.
Setting up an inappropriate minimum support may also cause an algorithm to fail in finding the true patterns. We present a
novel method to efficiently retrieve top few maximal frequent patterns in order of significance without use of the minimum
support parameter. Instead, we are only required to specify a more human understandable parameter, namely the desired number
itemsets k. Our technique requires only a single pass over the database and generation of length two itemsets. The association ratio graph is proposed as a compact structure containing concise information, which is created in time quadratic to the size of the
database. Algorithms are described for using this graph structure to discover top-most and top-k maximal frequent itemsets without minimum support threshold. To effectively achieve this, the method employs construction
of an all path source-to-destination tree to discover all maximal cycles in the graph. The results can be ranked in decreasing
order of significance. Results are presented demonstrating the performance advantages to be gained from the use of this approach. 相似文献
18.
一种有效的挖掘关联规则更新方法 总被引:1,自引:0,他引:1
在挖掘关联规则过程中,用户往往需要多次调整(增加或减少)最小支持度,才能获得有用的关联规则。给出一个利用已存信息有效产生新候选项目集的PSI算法,结果表明每次扫描数据库时能有效地减少候选项目集的数。 相似文献
19.
一种不产生候选项挖掘频繁项集的新算法 总被引:4,自引:2,他引:4
Apriori算法是关联规则挖掘算法中应用最为广泛的一种算法,它的主要目的是从大量的事务数据中通过候选项集挖掘出有趣的频繁项集,从而为用户提供有意义的关联关系。但随着数据库规模的扩大,apriori算法可能会产生如下两大棘手问题:大量候选项集的产生将造成巨大计算量的浪费;为剪掉无用候选项如何设置阈值。这些问题相对于众多普通用户来说都具有挑战性。该文提出的代码与运算是一种无须候选项挖掘频繁项集的算法,用户无须为设置阈值而煞费苦心。同时事务压缩算法的加入大大减少了算法中的计算量。 相似文献