首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 435 毫秒
1.
关联模式挖掘研究是数据挖掘研究领域的重要分支之一,旨在发现项集之间存在的关联或相关关系.然而,传统的基于支持度-可信度框架的挖掘方法存在着一些不足:一是会产生过多的模式(包括频繁项集和规则);二是挖掘出来的规则有些是用户不感兴趣的、无用的,甚至是错误的.所以,在挖掘过程中有效地对无用模式进行剪枝是必要的.将卡方分析引入到模式的相关性度量中,利用卡方检验对项集之间、规则前件与后件之间的相关性进行度量是一种有效的剪枝方法.结果分析表明,在支持度度量的基础上引入卡方检验可以有效地对非相关模式进行剪枝,从而缩小频繁项集和规则的规模.  相似文献   

2.
一种改进的关联规则挖掘方法研究   总被引:4,自引:0,他引:4  
关联模式挖掘研究是数据挖掘研究领域的重要分支之一,旨在发现模式之间存在的关联或相关关系。然而,传统的基于支持度可信度框架的挖掘方法存在着一些不足:一是会产生过多的模式(包括频繁项集和规则);二是挖掘出来的规则有些是用户不感兴趣的、无用的,甚至是错误的。所以在挖掘过程中能有效地对无用模式进行剪枝是必要的。利用相关关系对模式进行评价是一种有效的剪枝方法。实验结果分析表明,在传统挖掘方法的基础上引入相关关系度量可以有效地对非相关模式进行剪枝,从而减小频繁项集和规则的规模。  相似文献   

3.
一种改进的关联规则挖掘方法研究   总被引:4,自引:0,他引:4  
徐勇  周森鑫 《微机发展》2006,16(3):77-79
关联模式挖掘研究是数据挖掘研究领域的重要分支之一,旨在发现模式之间存在的关联或相关关系。然而,传统的基于支持度-可信度框架的挖掘方法存在着一些不足:一是会产生过多的模式(包括频繁项集和规则);二是挖掘出来的规则有些是用户不感兴趣的、无用的,甚至是错误的。所以在挖掘过程中能有效地对无用模式进行剪枝是必要的。利用相关关系对模式进行评价是一种有效的剪枝方法。实验结果分析表明,在传统挖掘方法的基础上引入相关关系度量可以有效地对非相关模式进行剪枝,从而减小频繁项集和规则的规模。  相似文献   

4.
关联分类是一项重要的分类技术,目前普遍采用基于支持度和置信度的关联分类模式。但是,用支持度度量项集的分类能力过于简单,且置信度不能度量项集与类的相关性,所以利用支持度和置信度容易产生质量不好的规则。提出改进的关联分类算法—ACSER。ACSER不仅考虑项集到本类的支持度,也考虑项集到补类的支持度。首先,提取频繁增比模式作为分类候选规则集;其次,利用置信度和增比率度量规则的强度,按照其强度进行排序和剪枝;最后,选择k条最优的规则进行预测。在16个UCI数据集上的实验结果表明,改进的分类算法ACSER与传统的分类算法相比有更高的分类准确率。  相似文献   

5.
王培培  孟芸 《计算机仿真》2021,38(5):282-286
针对传统数据关联挖掘过程只适用于单段数据集,导致内存负担重、挖掘频繁项集效率不高等问题,提出一种多段支持度数据频繁模式关联规则挖掘方法.运用多支持度算法对数据集逐步搜索,数据集按照数据项的MIS大小有序排列,采用最小值作为最小支持度,确保该算法的地推性.构建FP_ tree树,利用FP_tree算法对待选项实施剪枝,从而准确挖掘出频繁模式的关联规则.仿真结果证明,多段支持度数据频繁模式关联规则挖掘具有较好的性能,有效提高了关联规则的挖掘效率.  相似文献   

6.
基于支持度和置信度模型的关联规则剪枝算法会挖掘出很多无趣规则。针对该问题,提出一种正相关性指导下的关联规则剪枝算法。利用全置信度和提升度构造一个正相关性评价函数,以此对频繁项集进行剪枝。实验结果表明,该算法能减少无趣关联规则数量,提升挖掘结果质量,缩短挖掘时间。  相似文献   

7.
Apriori算法中频繁项集挖掘实现研究   总被引:4,自引:0,他引:4  
在数据挖掘中,关联规则是发现知识的一种有效方法,而频繁项集的挖掘是关联规则中发现强规则的基础,其中连接与剪枝是逐层迭代求解k-项频繁集的核心算法。因此,文中主要介绍了基于连接与剪枝挖掘频繁项集的实现过程,并通过挖掘对传统购物篮数据中的频繁项集进行了验证,结果是一致的。算法的有效性也为进一步挖掘关联规则中的强规则提供了基础。  相似文献   

8.
陈文 《计算机工程》2010,36(13):59-61
针对交易数据库中数据项重要性不同的现象,引入加权支持度和最小支持期望的概念,提出一种基于关联图的加权关联规则模型,并在该模型基础上,设计了改进的加权关联规则挖掘算法。该算法扫描数据库仅一次,采用关联图存储频繁2项集信息,通过构建基于图的剪枝策略,减少验证频繁项集的计算量,有效提高加权频繁项集的生成效率。  相似文献   

9.
兴趣度量在关联规则挖掘中常用来发现那些潜在的令人感兴趣的模式,基于FP树结构的FP-growth算法是目前较高效的关联规则挖掘算法之一,如果挖掘潜在的有价值的低支持度模式,这种算法效率较低。为此,本文提出一种新的兴趣度量—项项正相关兴趣度量,该量度具有良好的反单调性,所得到的模式中任意一项在事务中的出现均可提升模式中其余项出现的可能性。同时,提出一种改进的FP挖掘算法,该算法采用一种压缩的FP树结构,并利用非递归调用方法来减少挖掘中建立额外条件模式树的开销。更为重要的是,在频繁项集挖掘中引入项项正相关兴趣度量剪枝策略,有效过滤掉非正相关长模式和无效项集,扩大了可挖掘支持度阈值范围。实验结果表明,该算法是有效和可行的。  相似文献   

10.
在由频繁项集产生关联规则时,利用提升度判断规则前、后件之间的正相关性可以避免产生一些无意义的关联。但是,这并不能保证规则前、后件中的项是正相关的,也不能减少挖掘频繁项集的时间开销。当规则的前件或后件存在负相关的项时,仍然可能产生无意义的关联规则。针对以上问题,基于数学期望,提出了正相关的频繁项集的概念,并改进了一种直接在FP-树中挖掘频繁项集的算法,挖掘出正相关的频繁项集,从而有效地解决以上问题。实验表明,该算法可以大幅度地减少所产生的频繁项集数量,显著地降低了挖掘频繁项集的时间开销。对于大型数据集,尤其是稠密型数据集,该算法具有良好的性能。  相似文献   

11.
针对变值数据环境下的序列模式挖掘问题进行研究,提出一种针对变值数据的约束(ACV约束),用于表达用户在变值数据环境下对序列模式聚集特征的要求。在此基础上,提出一种基于ACV约束的序列模式挖掘算法,利用ACV约束的性质有效削减搜索空间。在用IBM数据生成器产生的序列数据以及真实数据上的实验结果表明,该算法能够有效利用ACV约束对无用的候选序列模式进行剪枝,减少冗余的搜索空间并提高挖掘效率。  相似文献   

12.
刘川  方思行 《计算机工程与设计》2005,26(5):1149-1151,1154
基于FPclose算法提出了一种挖掘强亲密度关联模式的算法。算法引入客观兴趣度度量h-置信度来识别强亲密度关联模式,利用其反单调性质和交叉支持度性质进行剪枝。实验证明,该算法能够高效地挖掘出倾斜数据集中的强亲密度关联模式。  相似文献   

13.
一种基于约束的关联规则挖掘算法   总被引:1,自引:1,他引:0  
基于约束的关联规则挖掘是一种重要的关联挖掘,能按照用户给出的条件来实行有针对性的挖掘。大多数此类算法仅处理具有一种约束的挖掘,因而其应用受到一定程度的限制。提出一种新的基于约束的关联规则挖掘算法MCAL,它同时处理两种类型的约束:非单调性约束和单调性约束。算法包括3个步骤:第一步,挖掘当前数据集的频繁1项集;第二,应用约束的性质和有效剪枝策略来寻找约束点,同时生成频繁项的条件数据库;最后,递归地应用前面两步寻找条件数据库中频繁项的约束点,以生成满足约束的全部频繁项集。通过实验对比,无论从运行时间还是可扩展性来说,本算法均达到较好的效果。  相似文献   

14.
Hyperclique pattern discovery   总被引:6,自引:0,他引:6  
Existing algorithms for mining association patterns often rely on the support-based pruning strategy to prune a combinatorial search space. However, this strategy is not effective for discovering potentially interesting patterns at low levels of support. Also, it tends to generate too many spurious patterns involving items which are from different support levels and are poorly correlated. In this paper, we present a framework for mining highly-correlated association patterns called hyperclique patterns. In this framework, an objective measure called h-confidence is applied to discover hyperclique patterns. We prove that the items in a hyperclique pattern have a guaranteed level of global pairwise similarity to one another as measured by the cosine similarity (uncentered Pearson's correlation coefficient). Also, we show that the h-confidence measure satisfies a cross-support property which can help efficiently eliminate spurious patterns involving items with substantially different support levels. Indeed, this cross-support property is not limited to h-confidence and can be generalized to some other association measures. In addition, an algorithm called hyperclique miner is proposed to exploit both cross-support and anti-monotone properties of the h-confidence measure for the efficient discovery of hyperclique patterns. Finally, our experimental results show that hyperclique miner can efficiently identify hyperclique patterns, even at extremely low levels of support.
Vipin KumarEmail:
  相似文献   

15.
Unil Yun  Keun Ho Ryu 《Knowledge》2011,24(1):73-82
In data mining area, weighted frequent pattern mining has been suggested to find important frequent patterns by considering the weights of patterns. More extensions with weight constraints have been proposed such as mining weighted association rules, weighted sequential patterns, weighted closed patterns, frequent patterns with dynamic weights, weighted graphs, and weighted sub-trees or sub structures. In previous approaches of weighted frequent pattern mining, weighted supports of patterns were exactly matched to prune weighted infrequent patterns. However, in the noisy environment, the small change in weights or supports of items affects the result sets seriously. This may make the weighted frequent patterns less useful in the noisy environment. In this paper, we propose the robust concept of mining approximate weighted frequent patterns. Based on the framework of weight based pattern mining, an approximate factor is defined to relax the requirement for exact equality between weighted supports of patterns and a minimum threshold. After that, we address the concept of mining approximate weighted frequent patterns to find important patterns with/without the noisy data. We analyze characteristics of approximate weighted frequent patterns and run extensive performance tests.  相似文献   

16.
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性。通过对关联规则挖掘技术及其相关算法Apriori进行分析,发现该技术存在的问题。Apriori算法是关联规则挖掘中的经典算法。对Apriori算法做了改进。借助0—1矩阵给出了计算项集的支持度计数的更快方法,同时还简化了Apriori算法中的连接和剪枝操作,从而在时间和空间上提高了Apriori算法的效率。  相似文献   

17.
基于改进Apriori算法的关联规则挖掘研究   总被引:2,自引:0,他引:2  
朱其祥  徐勇  张林 《微机发展》2006,16(7):102-104
关联规则挖掘研究是数据挖掘研究的一项重要的内容。经典的关联规则提取算法———Apriori算法及其改进算法存在着一些不足,一是会产生大量的候选项目集,二是在扫描数据库时需要很大的I/O负载。通过对关联规则产生过程的实际实验分析发现,可以采取利用频繁k-1项集Lk-1对候选k项集Ck进行预先剪枝、及在扫描数据库过程中忽略对频繁项集的产生无贡献的交易记录的方法来改进关联规则提取的效率。  相似文献   

18.
约束关联挖掘是在把项或项集限制在用户给定的某一条件或多个条件下的关联挖掘,是一种重要的关联挖掘类型,在现实中有着不少的应用。但由于大多数算法处理的约束条件类型单一,提出一种多约束关联挖掘算法。该算法以FP-growth为基础,创建项集的条件数据库。利用非单调性和单调性约束的性质,采用多种剪枝策略,快速寻找约束点。实验证明,该算法能有效地挖掘多约束条件下的关联规则,且可扩展性能很好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号