共查询到20条相似文献,搜索用时 234 毫秒
1.
基于iceberg概念格并置集成的闭频繁项集挖掘算法 总被引:2,自引:0,他引:2
由于概念格的完备性,在基于概念格的数据挖掘过程中,构造概念格的时间复杂度和空间复杂度一直是影响其应用的主要因素.结合iceberg概念格的半格特性和概念格的集成思想,首先在理论上分析并置集成后的iceberg概念格与由完备概念格裁剪得到的iceberg格同构;然后分析了iceberg概念格集成过程中的映射关系;最终提出一个新颖的基于iceberg概念格并置的闭频繁项集挖掘算法(Icegalamera).此算法避免了完备概念格的计算,并且在构造过程中采用集成和剪枝策略,从而显著提高了挖掘效率.实验证明其产生的闭频繁项集的完备性.使用稠密和稀疏数据集在单站点模式下进行了性能测试,结果表明稀疏数据集上性能优势明显. 相似文献
2.
3.
基于约简概念格的关联规则提取改进算法* 总被引:3,自引:1,他引:2
概念格是关联规则挖掘领域中的一种重要技术,在概念格上生成所有的频繁项集需要对概念格的节点进行排序并进行一一比较。为了提高在概念格上生成频繁项集的效率,本文提出了一个基于约简概念格的生成频繁项集的新算法。该算法通过利用节点之间的父子关系能够直接生成生成全部频繁项集,省略了对节点进行排序的时间开销,并且大大减少了节点比较的次数,从而提高了频繁项集的生成效率。实验结果证明了其可靠性和高效性。 相似文献
4.
基于概念格的数据挖掘方法研究 总被引:10,自引:0,他引:10
分析了概念格和关联规则之间的关系,提出了将频繁项集及其支持度存储在概念格上,然后在创建好的概念格上提取关联规则的方法,以及数据发生变化以后概念格的维护算法。 相似文献
5.
为解决传统最大频繁模式在项集频繁度与项集长度规模之间的制约关系,提出最大亚频繁模式概念及其挖掘算法MSFP-mining,包括最大亚频繁模式概念并分析其要素特点,基于AFP-tree、CMP-tree、SFP-tree、SFP-growth的候选MSFP挖掘方法,基于MSFP-tree的最大亚频繁模式超集检测和剪枝策略及对MSFP-mining挖掘性能的实验验证。实验结果表明,该算法利用差别频繁度实现核心项集、附加频繁项集、补充频繁项集的阶段性求取和组合,在保证项集频繁度基础上实现最大亚频繁模式挖掘,扩展频繁模式规模。 相似文献
6.
7.
许多研究表明概念格是数据分析与规则提取的一种有效工具.本文首先提出基于最大频繁项集幂集格上的规则提取算法.然后对此种算法进行改进,在已建好的概念格上直接从最大频繁项集进行规则提取,因而提高了挖掘关联规则的效率,适用于大型数据库中关联规则的挖掘. 相似文献
8.
基于Iceberg概念格叠置半集成的全局闭频繁项集挖掘算法 总被引:2,自引:0,他引:2
研究专有的分布式数据挖掘算法是提高分布式数据库下数据分析和挖掘的有效方法.结合Iceberg概念格对于频繁项集精简表达的特性和其集成构造过程可并行化的特点,进而实现分布式全局闭频繁项集的挖掘.面对目前仍然缺乏有关Iceberg概念格分布式集成构造研究的文献,本文从理论上分析Iceberg概念格叠置集成构造全局Iceberg概念格的局限性,然后论证了基于Iceberg概念格叠置半集成构造全局Iceberg概念格的可行性,进而提出一个基于Iceberg概念格叠置半集成的频繁概念生长分布算法(Frecogd),并且把它应用于同构分布式环境下的全局闭频繁项集挖掘过程中.实验验证了该算法理论的可行性,同时也揭示了该算法的挖掘效能有待进一步的改进与提高. 相似文献
9.
概念格是近年来的研究热点.本文将量化剪枝概念格引入关联规则求解中,它采用属性插入方式构造概念格及动态剪枝技术删减冗余概念,极大地提高了挖掘的时空性能,最后将该算法应用到服务贸易数据挖掘中,显示了一定的实际应用价值. 相似文献
10.
关联模式挖掘研究是数据挖掘研究领域的重要分支之一,旨在发现项集之间存在的关联或相关关系.然而,传统的基于支持度-可信度框架的挖掘方法存在着一些不足:一是会产生过多的模式(包括频繁项集和规则);二是挖掘出来的规则有些是用户不感兴趣的、无用的,甚至是错误的.所以,在挖掘过程中有效地对无用模式进行剪枝是必要的.将卡方分析引入到模式的相关性度量中,利用卡方检验对项集之间、规则前件与后件之间的相关性进行度量是一种有效的剪枝方法.结果分析表明,在支持度度量的基础上引入卡方检验可以有效地对非相关模式进行剪枝,从而缩小频繁项集和规则的规模. 相似文献
11.
12.
CHEN Chen 《数字社区&智能家居》2008,(32)
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。 相似文献
13.
分析最大频繁项集和完全频繁项集的关系,提出了一个挖掘最大频繁项集的高效算法DFMFI—Miner(The Miner Basedon Depth—First Searching for Mining Maximal Frequent Itemsets),采用深度优先方法搜索项集空间,采用垂直位图及一定的压缩方法对表示事务数据库并进行约简,并采用多种有效剪枝策略和优化策略,提高了算法的效率。在多个数据集上进行了实验,实验结果表明该算法特别适于挖掘具有长频繁项集的数据集。 相似文献
14.
使用垂直数据格式挖掘频繁项集 总被引:4,自引:0,他引:4
关联规则是数据挖掘的主要技术之一,它是描述数据库中一组数据项之间的某种潜在关系的规则。关联规则挖掘算法——Apriori算法,主要过程是对频繁项集的挖掘,而在对频繁项集的挖掘中首先要生成候选频繁项集,然后再从候选集中确定出满足最小支持度计数的频繁项集,这会耗费大量的CPU开销。使用垂直数据格式挖掘频繁项集可避免候选项目集的求解。 相似文献
15.
关联规则挖掘中对Apriori算法的研究 总被引:4,自引:1,他引:3
针对Apriori寻找频繁项集问题,提出了基于垂直事务列表的树形结构的挖掘算法。该算法结合项集的有序特性,使生成树的每一层结点从左往右按支持度大小升序排列,这样得到的候选频繁项集的集合是最小的,大大减少了候选频繁项集的数量,而且能保持频繁项集的完整性,从而节约了计算开销,提高了算法的效率。 相似文献
16.
对于大型数据,频繁项集挖掘显得庞大而冗余,挖掘最大频繁项集可以减少挖出的频繁项集的个数。可是对于不确定性数据流,传统判断项集是否频繁的方法已不能准确表达项集的频繁性,而且目前还没有在不确定数据流上挖掘最大频繁项集的相关研究。因此,针对上述不足,提出了一种基于衰减模型的不确定性数据流最大频繁项集挖掘算法TUFSMax。该算法采用标记树结点的方法,使得算法不需要超集检测就可挖掘出所有的最大频繁项集,节约了超集检测时间。实验证明了提出的算法在时间和空间上具有高效性。 相似文献
17.
基于CIE-树的关联规则最大频繁项集的求解 总被引:3,自引:0,他引:3
最大频繁项集的求解是关联规则挖掘中的重要环节。文章提出了一种快速产生最大频繁项集的算法,该算法利用所提出的CIE-树模型,分块扫描数据库构建CIE-树,并对CIE-树进行剪枝,以减少候选项集的数量,从而显著提高了最大频繁项集的求解效率。 相似文献
18.
对于不确定性数据,传统判断项集是否频繁的方法并不能准确表达项集的频繁性,同样对于大型数据,频繁项集显得庞大和冗余。针对上述不足,在水平挖掘算法Apriori的基础上,提出一种基于不确定性数据的频繁闭项集挖掘算法UFCIM。利用置信度概率表达项集频繁的准确性,置信度越高,项集为频繁的准确性也越高,且由于频繁闭项集是频繁项集的一种无损压缩表示,因此利用压缩形式的频繁闭项集替代庞大的频繁项集。实验结果表明,该算法能够快速地挖掘出不确定性数据中的频繁闭项集,在减少项集冗余的同时保证项集的准确性和完整性。 相似文献
19.
一种基于单事务项集组合的频繁项集挖掘算法 总被引:2,自引:0,他引:2
Apriori是挖掘频繁项集的基本算法,目前该算法及其优化变种都没有解决候选项及重复扫描事务数据库的问题.文章通过对Apriori及其优化算法的深入探究,提出了一种基于单事务组合项集的挖掘算法,该算法在一个事务内部对"数据项"进行组合,在事务数据库中对所有相同"项集"进行计数.不经过迭代过程,不产生候选项集,所有频繁项集的挖掘过程只需对事务数据库一次扫描,提高了频繁项集挖掘效率. 相似文献