首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 125 毫秒
1.
由频繁项集产生的关联规则往往不能保证规则前、后件中的项是正相关的,因此可能产生无意义的关联规则;当这些关联规则用于分类时,会产生大量无用分类规则,增加了时间开销.因此,基于数学期望提出了正相关的频繁项集的分类算法.该算法在挖掘正相关频繁项集时,利用置信度进行规则选取,生成正相关关联规则组成的分类器对数据集进行分类.实验表明,这种分类算法可以大幅度减少所产生的频繁项集数量,分类准确率达到C4.5和CMAR的水平,且显著减少了算法的时间.  相似文献   

2.
关联规则是当前数据挖掘研究最重要的分支之一,目前的关联规则多是在频繁项集的基础上进行挖掘,而没有挖掘非频繁项集的算法。本文在多支持度算法的基础上,提出了一种新的算法模型,在挖掘频繁项集的同时还能够对非频繁项集进行挖掘。  相似文献   

3.
Apriori算法是挖掘关联规则频繁项集的最有影响的算法之一,它通过连接、剪枝等步骤产生频繁项集,进而产生强关联规则。由于面临海量数据,因此将会产生大量的候选项集,尤其是候选2-项集,严重影响了挖掘的效率。提出了一种改进的算法,此算法不产生小项候选集而直接产生大项候选集,从而提高了算法的效率。  相似文献   

4.
提出了一种基于MapReduce模型,利用向量矩阵和Apriori算法实现关联规则数据挖掘的新算法.算法利用MapReduce模型处理向量矩阵,结合Apriori算法思想,产生局部频繁项集,通过合并处理得到全局频繁项集.实验证明算法能提高关联规则挖掘的效率.  相似文献   

5.
可视化数据挖掘是数据挖掘领域的一个热点。文章提出了一种基于平行坐标的频繁项集可视化方法,对挖掘过程中产生的频繁项集及其支持度进行可视化的描述,以此来解决传统关联规则挖掘过程不可见的弊病。  相似文献   

6.
基于FP-Growth算法在不产生侯选项集的情况下产生所有的频繁项集的思想上提出一种多维关联规则挖掘方法。该方法以数据立方体下的多维数据为研究对象,通过挖掘频繁谓词集发现多维关联规则,并通过理论和实例验证的方法证明了该方法的可行性。  相似文献   

7.
基于事务相似矩阵的关联规则挖掘算法   总被引:3,自引:0,他引:3  
通过对Apriori算法挖掘过程的深入分析,提出一种改进的关联规则挖掘算法——基于事务相似矩阵的关联规则挖掘算法(ARBSM):在压缩事务布尔矩阵的基础上构建一个事务相似矩阵,直接查找高阶肛项频繁集,有效解决了Apriori算法逐层搜索的迭代产生频繁项集的瓶颈问题。测试结果表明,ARBSM算法可以高效地挖掘潜在的强关联规则。  相似文献   

8.
最频繁项集挖掘决定了文本关联规则挖掘算法的性能,是文本关联规则挖掘中研究的重点和难点。该文分析了当前最频繁项集挖掘方面的不足,改进了传统的倒排表,结合最小支持度阈值动态调整策略,提出了一个新的基于改进的倒排表和集合理论的Top-N最频繁项集挖掘算法。同样,给出了几个命题和推论,并把它们用于该文算法以提高性能,实验结果表明,所提算法的规则有效率和时间性能优于NApriori算法和IntvMatrix算法。  相似文献   

9.
基于加权频繁项集的文本分类规则挖掘   总被引:2,自引:0,他引:2  
针对特征向量分量的权重和文本大小对分类规则产生的影响,提出一种可以提高关联文本分类性能的文本分类规则挖掘方法,提出了加权频繁项集的概念和相应的加权频繁项集挖掘算法,在分类规则中突出特征向量权重大的向量分量;提出一种特征向量预处理方法,消除文本大小对挖掘分类规则的影响.实验表明,解决上述两个问题将可以很好的提高文本分类的性能.  相似文献   

10.
基于兴趣度含正负项目的关联规则挖掘方法   总被引:1,自引:0,他引:1  
项目的引入使得挖掘出的频繁项集成倍增加,同时生成的关联规则数量更加庞大,引入兴趣度来约束从频繁项 集中提取关联规则的数量。分析现有的兴趣度模型,从中选择了一种适合于含正负项目的关联规则挖掘的兴趣度方法,并且 提出了置信度的一个性质,描述了含正负项目的频繁项集挖掘关联规则的算法,并对矛盾关联规则进行了分析。实验结果表 明,该算法是有效和可行的。  相似文献   

11.
基于Apriori数据挖掘算法研究   总被引:3,自引:0,他引:3  
关联规则是从数据集中识别出频繁出现的属性值集,然后利用这些频繁集创建描述关联关系的规则过程.在分析经典关联规则挖掘算法的基础上,讨论了经典的Apriori算法,并提出改进的Apriori关联规则算法,对算法进行了实验数据的算法性能分析及运行时间对比.结果表明,改进的算法在运行速度和挖掘性能上都较经典的Apriori算法都有显著提高.  相似文献   

12.
Apriori算法分析与改进综述   总被引:5,自引:0,他引:5  
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性.通过对关联规则挖掘技术及其相关算法Apriori进行分析,发现该技术存在的问题.本文介绍了能优化该技术的各种算法,分析了这些算法各自的优缺点,并针对这些问题提出了未来的研究方向.  相似文献   

13.
一个改进项目的加权关联规则挖掘算法   总被引:1,自引:0,他引:1  
提出了一个改进的项目加权关联规则挖掘算法.该算法利用一个加权频繁项目集必须满足的加权支持度下界,对加权频繁候选项目集进行剪枝,该下界计算简便,可以减少挖掘的计算量.理论分析和实验表明本算法和MINWAL(W)相比,具有生成候选集数量少、挖掘效率高等特点,特别在项目权值相差不大时,本算法的优势更明显.  相似文献   

14.
Indirect association is a high level relationship between items and frequent item sets in data. There are many potential applications for indirect associations, such as database marketing, intelligent data analysis, web -log analysis, recommended system, etc. Existing indirect association mining algorithms are mostly based on the notion of post - processing of discovery of frequent item sets. In the mining process, all frequent item sets need to be generated first, and then they are fihered and joined to form indirect associations. We have presented an indirect association mining algorithm (NIA) based on anti -monotonicity of indirect associations whereas k candidate indirect associations can be generated directly from k - 1 candidate indirect associations, without all frequent item sets generated. We also use the frequent itempair support matrix to reduce the time and memory space needed by the algorithm. In this paper, a novel algorithm (NIA2) is introduced based on the generation of indirect association patterns between itempairs through one item mediator sets from frequent itempair support matrix. A notion of mediator set support threshold is also presented. NIA2 mines indirect association patterns directly from the dataset, without generating all frequent item sets. The frequent itempair support matrix and the notion of using tm as the support threshold for mediator sets can significantly reduce the cost of joint operations and the search process compared with existing algorithms. Results of experiments on a real - word web log dataset have proved NIA2 one order of magnitude faster than existing algorithms.  相似文献   

15.
传统的基于支持度—置信度框架的关联规则挖掘方法可能会产生大量不相关的、甚至是误导的关联规则,同时也不能区分正负关联规则。在充分考虑用户感兴趣模式的基础上,采用一阶谓词逻辑作为用户感兴趣的背景知识表示技术,提出了一种基于背景知识的包含正负项目集的频繁模式树,给出了针对正负项目集的约束频繁模式树的构造算法NCFP-Construct,从而提高了关联规则挖掘的效率和针对性,实验结果显示该方法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号