首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
针对传统挖掘算法生成的关联规则存在大量冗余、难于理解和应用的问题,提出一种新的频繁闭项集概念格FCIL(Frequent Closed Itemsets Lattices),用于生成无冗余关联规则。首先,对概念格理论进行研究,概念格节点间的泛化和例化关系非常适合规则提取;然后,结合频繁闭项集能有效减少规则数目的特点,构建一种新的FCIL;最后,给出FCIL构造算法和相应的规则提取算法。实验表明,该方法能够高效地产生无冗余规则集。  相似文献   

2.
张炘  廖频  郭波 《计算机应用》2010,30(3):806-809
频繁闭项集挖掘是许多数据挖掘应用中的重要问题。为减少候选项集数量和降低支持度计算的开销,提出一种新的深度优先搜索频繁闭项集(DFFCI)的算法。将改进的压缩频繁模式树(CFP-Tree)表示的数据集信息投影到划分矩阵,使用二进制向量逻辑运算计算支持度,简化了计算过程,减少了时间开销;采用基于支持度预计算技术的全局2-项剪枝和局部扩展剪枝,有效削减了搜索空间。实验结果表明该算法的性能优于其他主流深度优先算法。  相似文献   

3.
刘慧婷  沈盛霞  赵鹏  姚晟 《计算机应用》2015,35(10):2911-2914
由于不确定数据的向下封闭属性,挖掘全部频繁项集的方法会得到一个指数级的结果。为获得一个较小的合适的结果集,研究了在不确定数据上挖掘频繁闭项集,并提出了一种新的频繁闭项集挖掘算法——NA-PFCIM。该算法将项集挖掘过程看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。该算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集(T10I4D100K、Accidents、Mushroom、Chess)上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。  相似文献   

4.
基于频繁项集挖掘最大频繁项集和频繁闭项集   总被引:3,自引:1,他引:2  
提出了基于频繁项集的最大频繁项集(BFI-DMFI)和频繁闭项集挖掘算法(BFI-DCFI)。BFI-DMFI算法通过逐个检测频繁项集在其集合中是否存在超集确定该项集是不是最大频繁项集;BFI-DCFI算法则是通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。该类算法的提出,为关联规则的精简提供了一种新的解决方法。  相似文献   

5.
最大频繁项集挖掘算法存在扫描数据集次数多和候选集规模过大等局限。基于Iceberg概念格模型,提出一种在Iceberg概念格上挖掘最大频繁项集的算法ICMFIA。该算法通过一次扫描数据集构建Iceberg概念格,利用Iceberg概念格中频繁概念之间良好的覆盖关系能快速计算出最大频繁项集所对应的最大频繁概念,所有最大频繁概念的内涵就是所求的最大频繁项集的集合。实验结果表明,该算法具有扫描数据集次数少和挖掘效率高的优点。  相似文献   

6.
本文通过对关联规则挖掘中由候选项集生成频繁项集算法的分析.引入了格论的一些思想来改进算法,其中心思想是:通过在属性集和事务数据库的基础上进行建格,然后在格的基础上直接进行规则提取。在实验的基础上对Apriori算法和改进的算法进行了比较,实验结果表明.在特定的数据库中,改进的算法在挖掘效率上优于Apriori算法。  相似文献   

7.
针对相关算法在挖掘频繁闭项集时所存在的问题, 提出了一种基于位运算的频繁闭项集挖掘算法。该算法首先将数据集转换成布尔矩阵, 只需扫描数据集一次; 通过位运算计算支持度, 利用矩阵和数组存储辅助信息, 减少时间和空间消耗; 深度优先搜索产生频繁闭项集时利用剪枝策略进一步减少挖掘时间; 利用同生项集性质进行闭合性检测, 无须检查超集或子集。理论分析和实验结果验证了该算法的有效性。  相似文献   

8.
频繁闭项集提供了频繁项集的一种完整、最小表示,对频繁闭项集的挖掘是近年来数据挖掘领域研究的热点,研究人员从不同角度对算法改进以提高算法的效率。基于频繁项集中共生项集的性质,提出无须进行子集检查的频繁闭项集挖掘方法,并设计一种变异的FP-树结构,利用FP-树结构来存储结点共生项集信息,以改进CLOSET算法,算法无须遍历结果集进行闭合性检查。实验表明,在支持度阈值减小,结果集变大时,改进算法的时间增长率比原有算法小。  相似文献   

9.
频繁闭项集的挖掘是发现数据项之间关联规则的一种有效方式.当前以MapReduce模式为基础的云计算平台为解决海量数据中的关联规则挖掘问题提供新的解决思路.文中提出并实现一种基于Hadoop云计算平台的频繁闭项集的并行挖掘算法.该算法主要包括并行计数、构造全局频繁项表、并行挖掘局部频繁闭项集和并行筛选全局频繁闭项集四个步骤.在多个数据集上的实验表明,该方法能较大提高数据挖掘的效率,具有较好的加速比.  相似文献   

10.
求频繁数据项集是挖掘关联规则的主要步骤,许多算法需要多次扫描数据集。本文提出了一个基于格理论的频繁数据项集发现算法,该算法最多只需对数据集扫描3次,有效地降低了I/O开销。  相似文献   

11.
研究挖掘关联规则的一个重要工作就是找出所有的频繁项集。基于FP—tree的最大频繁项集挖掘算法要多次生成大量的FP—tree,并且需要对其多次遍历,消耗了大量的时间。针对以上缺点,提出一种基于FP—tree并利用数组和矩阵技术进行优化的最大频繁项集挖掘算法(Mining Maximal Frequent Itemset。简称MMFI),它既减少创建FP—tree的数量,又节省遍历FP—tree的时间,实验证明本算法是有效的。  相似文献   

12.
杜媛  张世伟 《计算机应用》2019,39(2):441-445
针对自然排序树(CAN-tree)算法构建的树结构节点个数过多、压缩性不高等问题,提出一种基于重构的改进CAN-tree算法。首先,使用自然排序法直接构建树结构,将频繁项集挖掘算法实现中数据库扫描次数减少至1;然后,对构建的树结构以支持度降序方式结合剪枝操作实现树结构的重构,得到高压缩性的树结构;最后,对重构的树结构进行频繁项集挖掘。实验结果表明,基于重构的改进CAN-tree算法所构建的树结构节点个数减少至原来的20%以下,执行效率提高了4至6倍,在频繁项集挖掘中有效地压缩了树结构,缩短了算法的执行时间。  相似文献   

13.
该文通过对Apriori算法进行改进,借助0-1矩阵,只扫描一次数据库,直接从高维项目集入手计算项目集的支持度,从而寻找最大频繁项目集。将该改进算法应用于课堂教学评价中,可以挖掘出影响课堂质量的因素,从而指导教师改善课堂教学,提高教学质量。  相似文献   

14.
Multilevel knowledge in transactional databases plays a significant role in our real-life market basket analysis. Many researchers have mined the hierarchical association rules and thus proposed various approaches. However, some of the existing approaches produce many multilevel and cross-level association rules that fail to convey quality information. From these large number of redundant association rules, it is extremely difficult to extract any meaningful information. There also exist some approaches that mine minimal association rules, but these have many shortcomings due to their naïve-based approaches. In this paper, we have focused on the need for generating hierarchical minimal rules that provide maximal information. An algorithm has been proposed to derive minimal multilevel association rules and cross-level association rules. Our work has made significant contributions in mining the minimal cross-level association rules, which express the mixed relationship between the generalized and specialized view of the transaction itemsets. We are the first to design an efficient algorithm using a closed itemset lattice-based approach, which can mine the most relevant minimal cross-level association rules. The parent–child relationship of the lattices has been exploited while mining cross-level closed itemset lattices. We have extensively evaluated our proposed algorithm’s efficiency using a variety of real-life datasets and performing a large number of experiments. The proposed algorithm has outperformed the existing related work significantly during the pervasive performance comparison.  相似文献   

15.
顾庆锋  宋顺林 《计算机工程与设计》2007,28(13):3060-3062,3233
Apriori算法是挖掘关联规则的经典算法.在分析该算法的基础上,在实际项目应用当中,结合SQL的特点,提出Apriori算法在SQL中的改进算法-Apriori_Sql.应用Apriori_Sql算法只需扫描一遍数据库,在数据库临时表中建立原始数据库的压缩数据映射,实验表明该算法是一种高效的关联规则的挖掘算法.  相似文献   

16.
Apriori算法的三种优化方法   总被引:35,自引:3,他引:35  
通过对Apriori算法的思想和性能的分析,认为Apriori算法存在以下三点不足:(1)由K阶频繁集生成K+1阶候选频繁集时,在K+1阶候选频繁集中过滤掉非频繁集的策略值得进一步改进;(2)连接程序中相同的项目重复比较太多,因而其效率值得进一步改进;(3)在回扫数据库时有许多不必比较的项目或事务重复比较。根据上述三点不足,提出了相应的三种优化策略来优化Apriori算法,得到一效率较高的改进Apriori算法。  相似文献   

17.
发现最大项目频集是数据挖掘应用中的关键问题。本文提出了一个基于反向矩阵的最大频集的交互式挖掘算法。该算法将事务数据库转换成反向矩阵,缩小了候选子集,利于交互式挖掘。通过对每个频繁项独立建立COFI-树,减少了挖掘中对内存容量的依赖。  相似文献   

18.
王鑫  刘方爱 《计算机应用》2016,36(7):1988-1992
针对已有的多数据流协同频繁项集挖掘算法存在内存占用率高以及发现频繁项集效率低的问题,提出了改进的多数据流协同频繁项集挖掘(MCMD-Stream)算法。首先,该算法利用单遍扫描数据库的字节序列滑动窗口挖掘算法发现数据流中的潜在频繁项集和频繁项集;其次,构建类似频繁模式树(FP-Tree)的压缩频繁模式树(CP-Tree)存储已发现的潜在频繁项集和频繁项集,同时更新CP-Tree树中每个节点生成的对数倾斜时间表中的频繁项计数;最后,通过汇总分析得出在多条数据流中多次出现的且有价值的频繁项集,即协同频繁项集。相比A-Stream和H-Stream算法,MCMD-Stream算法不仅能够提高多数据流中协同频繁项集挖掘的效率,并且还降低了内存空间的使用率。实验结果表明MCMD-Stream算法能够有效地应用于多数据流的协同频繁项集挖掘。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号