共查询到20条相似文献,搜索用时 93 毫秒
1.
在分析研究具有代表性的关联知识挖掘算法的基础上,提出了挖掘频繁模式的一个新的数据库存储结构AFP-树,并在此结构上设计了一个频繁模式挖掘算法。理论研究已经阐明了AFP-树的有效性和相关算法的高效性。 相似文献
2.
基于索引数组和复合频繁模式树的频繁闭项集挖掘算法 总被引:1,自引:0,他引:1
频繁闭项集惟一确定频繁项集且规模小得多.CROP是一种基于复合频繁模式树的、频繁闭项集高效挖掘算法,但存在着候选结点过多的问题.这些非闭合结点的生成、检查和剪裁带来了大量不必要的操作.提出了一种改进的频繁闭项集挖掘算法CROP_Index.该算法用"索引数组"来组织数据,找到频繁共同出现的项集.基于二进制位图,给出了一个包含索引的计算方法,并利用索引启发信息合并,得到复合型频繁模式树的初始结点;同时给出一些新的性质,使得改进的算法只生成闭合结点,从而节省了大量不必要的操作,缩小了搜索空间.实验结果表明该算法效率较高. 相似文献
3.
本文在分析研究FP-growth算法的基础上,提出了一种基于传统事务数据库下的频繁模式挖掘改进算法。实验证明该算法比FP-growth算法更有效,并具有较好的扩展性。 相似文献
4.
基于FP-tree的最大频繁模式挖掘算法 总被引:11,自引:0,他引:11
在FP-tree结构的基础上提出了最大频繁模式挖掘算法FP-Max。算法FP-Max只需要两次数据库扫描,挖掘过程不会产生候选项集。实验表明.算法FP-Max在挖掘密集型数据集方面是高效的。 相似文献
5.
关联规则挖掘是数据挖掘中的一个重要研究方向,用于发现项集之间的关联性。FP-growth算法通过构造FP-tree产生频繁集,由于其不生成候选集从而大大降低了搜索开销,其缺点是占用大量的内存空间。基于FP-growth的算法思想,提出基于FS-tree(频繁1-项子树)的频繁模式挖掘算法,通过将FP-tree拆分为多棵FS-tree,使算法的空间复杂度明显减小。实验表明,该算法是有效的。 相似文献
6.
不同数据集中数据的不同分布特征,对于频繁模式挖掘算法往往有着较大影响.将不同的现有算法结合起来,根据数据集的不同特性采用不同的挖掘策略,有可能构造出鲁棒性强的新算法.本文首先提出了一种基于FP-tree的简单深度优先搜索算法NDFS,并简单分析了其在不同数据集上的特性.在分析的基础上,本文进一步将NDFS和经典的FP-growth算法进行结合,提出了一种在挖掘过程中根据局部空间特征动态采用不同策略的自适应算法SAFP.实验证明,SAFP算法在不同数据集上均能达到或优于原有最优算法的性能,具有较好的鲁棒性. 相似文献
7.
8.
9.
基于哈希链结构的频繁模式挖掘 总被引:5,自引:0,他引:5
研究工作者已经提出了一些频繁模式的挖掘算法,然而,已经提出的各种算法在不同的挖掘条件下,仍然存在一些不足之处。该文提出了一种改进的哈希链地址结构及一种新的数据挖掘算法,HCS-Mine,该算法采用哈希链结构,无需产生巨大的候选项集,且简单高效。 相似文献
10.
一种基于FP-tree的最大频繁项目集挖掘算法 总被引:7,自引:0,他引:7
挖掘关联规则是数据挖掘领域中的重要研究内容,其中挖掘最大频繁项目集是挖掘关联规则中的关键问题之一,以前的许多挖掘最大频繁项目集算法是先生成候选,再进行检验,然而候选项目集产生的代价是很高的,尤其是存在大量长模式的时候。文中改进了FP 树结构,提出了一种基于FP tree的快速挖掘最大频繁项目集的算法DMFIA 1,该算法不需要生成最大频繁候选项目集,比DMFIA算法挖掘最大频繁项目集的效率更高。改进的FP 树是单向的,每个结点只保留指向父结点的指针,这大约节省了三分之一的树空间。 相似文献
11.
采用频繁项目链表变换的频繁项目集挖掘算法 总被引:1,自引:0,他引:1
周海岩 《小型微型计算机系统》2008,29(7)
频繁项目集的产生是关联规则挖掘的关键问题,经典的关联规则挖掘算法是通过对事务数据库的多次扫描实现的.最新的研究已经开始探索合适的数据结构以支持进行极少次数的事务数据库的扫描,进而减少关联规则挖掘过程中巨大的I/O开销以获得更高的效率.文中利用频繁项目链表的数据结构,给出了一种仅需扫描两次事务数据库的关联规则挖掘算法 ,称为FILLT算法.该算法采取分而治之策略,对频繁项目链表实施分割、变换来进行关联规则挖掘.文中最后对这一算法的效率进行了理论分析和实验验证. 相似文献
12.
提出一种不产生候选项目集的加权频繁模式挖掘算法。对每个项目集权重进行归一化操作,避免加权支持率大于1,证明该算法满足加权向下封闭性。在此基础上,构建基于加权Fp树的剪枝策略。实例分析和实验结果表明,该算法能减少加权频繁项目集生成过程中的计算量,提高加权频繁项目集的生成效率。 相似文献
13.
频繁模式挖掘是数据挖掘中的一个重要部分,现有的模型具有各自的优点,但在智能性方面表现较差。对于已经存在的Agent系统,多数都是以语言的形式进行描述,本文对Agent进行形式上的描述,并应用到数据挖掘的模型中,使其智能性得到提高,并有很高的可移植性。 相似文献
14.
多数基于FP-growth思想的频繁模式挖掘算法存在建树过程复杂、支持度计算繁琐的问题。针对这些问题,提出一种基于位编码链表(Bitmap-Code List,BC-List)的频繁项集挖掘算法(BC-List Frequent Itemsets Mining,BCLFIM)。该算法首先采用基于位图表示的节点编码模型生成位图树(BC-tree),以BC-tree的节点信息作为数据结构通过按位运算来快速获取BC-List的节点集,避免了复杂的交集运算,提高了连接效率;其次通过使用超集等价和支持度计数剪枝策略,缩小了挖掘频繁模式的搜索空间。实验结果证明,该算法相比于FIN算法和DFIN算法具有更快的挖掘速度。 相似文献
15.
FP-growth算法是目前较高效的频繁模式挖掘算法之一,该算法不产生候选项集,但递归构造“条件FP-Tree”的CPU 开销和存储很大.为此提出了一种频繁模式挖掘算法IFPmine.首先,为了节省内存空间,采用了约束子树的挖掘方法;其次,采用了数组技术来减少树的遍历时间,从而提高算法的效率.实验结果表明,IFP算法是一种较有效的频繁模式挖掘算法,其挖掘效率优于STFP-树算法和FP-树算法,而需要的内存却少于STFP-树和FP-树算法. 相似文献
16.
研究挖掘关联规则的一个重要工作就是找出所有的频繁项集。基于FP—tree的最大频繁项集挖掘算法要多次生成大量的FP—tree,并且需要对其多次遍历,消耗了大量的时间。针对以上缺点,提出一种基于FP—tree并利用数组和矩阵技术进行优化的最大频繁项集挖掘算法(Mining Maximal Frequent Itemset。简称MMFI),它既减少创建FP—tree的数量,又节省遍历FP—tree的时间,实验证明本算法是有效的。 相似文献
17.
基于类频繁模式树的关联分类 总被引:1,自引:0,他引:1
提出一种新的基于类频繁模式树的关联分类算法CFPC(Class FP-tree based Classifier).该方法基于FP-tree实现,无需生成庞大的候选项目集;依据记录的分类属性进行指导性划分,并使用类支持度进行记录项的分类剪枝,生成类模式树,避免了小数据类别集上的强关联模式遗漏;挖掘出的规则形成分类器,用于类标号未知的记录的区分.试验结果表明CFPC的正确性和有效性. 相似文献
18.
Extraction of frequent patterns in transaction-oriented database is crucial to several data mining tasks such as association rule generation, time series analysis, classification, etc. Most of these mining tasks require multiple passes over the database and if the database size is large, which is usually the case, scalable high performance solutions involving multiple processors are required. This paper presents an efficient scalable parallel algorithm for mining frequent patterns on parallel shared nothing platforms. The proposed algorithm is based on one of the best known sequential techniques referred to as Frequent Pattern (FP) Growth algorithm. Unlike most of the earlier parallel approaches based on different variants of the Apriori Algorithm, the algorithm presented in this paper does not explicitly result in having entire counting data structure duplicated on each processor. Furthermore, the proposed algorithm introduces minimum communication (and hence synchronization) overheads by efficiently partitioning the list of frequent elements list over processors. The experimental results show scalable performance over different machine and problem sizes. The comparison of implementation results with existing parallel approaches show significant gains in the speedup. On an 8-processor machine, we report an average speedup of 6 for different problem sizes. 相似文献
19.