共查询到20条相似文献,搜索用时 78 毫秒
1.
快速挖掘全局频繁项目集 总被引:32,自引:1,他引:32
分布式环境中,全局频繁项目集的挖掘是数据挖掘中最重要的研究课题之一.传统的全局频繁项目集挖掘算法采用Apriori算法框架,须多遍扫描数据库并产生大量的候选项目集,且通过传送局部频繁项目集求全局频繁项目集的网络通信代价高.为此,提出了一种分布数据库的全局频繁项目集快速挖掘算法——FMAGF.FMAGF算法采用传送条件频繁模式树或条件模式基来挖掘全局频繁项目集,可有效地减小网络通信量,提高全局频繁项目集挖掘效率.理论分析和实验结果表明提出的算法是有效可行的. 相似文献
2.
快速挖掘频繁项目集算法 总被引:2,自引:0,他引:2
马丽生 《计算机工程与设计》2009,30(8)
频繁项目集挖掘是数据挖掘领域最重要的基本问题之一,在分析已有算法的基础上,提出了一种能够快速挖掘频繁项目集的算法,对频繁项目集挖掘的搜索空间以及数据表示进行了优化,缩小搜索空间和数据表示的规模,减少计算项目集支持数的时间,提高算法的执行效率,实验结果表明,该算法在性能上优于FP-Growth算法. 相似文献
3.
4.
数据库的更新会引起数据库中的关联规则的更新,找出更新后的所有的频繁项目集,也就能生成更新后的关联规则,因此关联规则的更新就转化为频繁项目集的更新。UWEP算法 利用以前的挖掘结果来减少挖掘新的频繁项目集的开销,采用了一些优化技术来减少数据库的扫描次数和候选项目集的数量,但UWEP算法只能处理增加新事务的情况。本文提出 的UWEP2算法是UWEP算法的扩展,能处理数据库中事务的增加、删除、修改等情况。我们将它与另一种更新频繁项目集的算法FUP2比较,实验显示,UWEP2算法比FUP2算法生成的候选项目集要少,性能要高。 相似文献
5.
求频繁数据项集是挖掘关联规则的主要步骤,许多算法需要多次扫描数据集。本文提出了一个基于格理论的频繁数据项集发现算法,该算法最多只需对数据集扫描3次,有效地降低了I/O开销。 相似文献
6.
基于小超集的关联规则快速挖掘算法 总被引:1,自引:0,他引:1
关联规则是数据挖掘最重要的课题之一。该文简单回顾了挖掘关联规则问题,提出了一种基于较小超集的高效的关联规则挖掘算法,该算法仅须对数据库作三次遍历,实现方便,提高了效率。 相似文献
7.
一种基于频繁模式树的约束最大频繁项目集挖掘及其更新算法 总被引:7,自引:2,他引:7
目前已提出了许多快速的关联规则挖掘算法,实际上用户只关心部分关联规则,如他们仅想 知道包含指定项目的规则.当这些约束被用于数据预处理或将它结合到数据挖掘算法中去时 ,可以显著减少算法的执行时间.为此,考虑了一类包含或不包含某些项目的布尔表达式约 束条件,提出了一种快速的基于FP-tree的约束最大频繁项目集挖掘算法CMFIMA,并对其更 新问题进行了研究,提出了一种增量式更新约束最大频繁项目集挖掘算法CMFIUA. 相似文献
8.
杨萍 《计算机工程与应用》2003,39(34):197-200
最大频繁项目集挖掘是多种数据挖掘应用研究的一个重要方面,最大频繁项目集的快速挖掘算法研究是当前研究的热点。传统的最大频繁项目集挖掘算法要多遍扫描数据库并产生大量的候选项目集。为此,该文提出了基于F-矩阵的最大频繁项目集快速挖掘算法FMMFIBFM,FMMFIBFM采用FP-tree的存储结构,仅须扫描数据库两遍且不产生候选频繁项目集,有效地提高了频繁项目集的挖掘效率。实验结果表明,FMMFIBFM算法是有效可行的。 相似文献
9.
基于项目序列集操作的关联规则挖掘算法 总被引:29,自引:0,他引:29
最大频繁项目序列集的生成是影响关联规则挖掘的关键问题,传统的算法是通过对事务数据库的多次扫描实现的,最新的研究已经开始通过减少事务数据库的扫描次数进而减少挖掘过程的I/O代价来获得更高的效率,随着计算机性能的提高,探索合适的数据结构来支持基于一次事务数据库扫描的高效算法成为可能,该文首先给出项目序列集和它的基本操作的严格定义,然后在此基础上提出了一个称为ISS-DM的最大频繁项目序列集生成算法。ISS-DM算法是通过对事务数据库的一次扫描而逐步演化成最大频繁项目序列集的,最后作者对这一算法的时间和空间效率进行了理论分析和实验验证。 相似文献
10.
发现频繁项目集所关联的事务集是十分有意义的,它能使人们了解频繁项目集是由哪些顾客的购买行为所引起的。文章首先定义了事务树及其相关操作,在此基础上,设计了一种能在挖掘频繁项目集的同时发现项目集所在事务集的算法(FS-TS_DM),该算法具有仅需扫描一次事务数据库的特点。另外,还定义了“分散度”指标,用于指导“真频繁项目集”的挖掘。 相似文献
11.
有库存约束的有保质期产品经济批量模型 总被引:1,自引:0,他引:1
研究了库存容量有限、需求动态变化且确定的有保质期产品的经济批量问题.在准备成本、单位成本、库存持有成本和损耗成本均为线性的情况下,建立了问题的数学模型,目标是最小化总成本.提出了求解该问题的启发式算法,在无库存约束下用Wagner-Whitin算法求出解的下界,通过对各周期的数量移动消除不可行周期以满足库存约束.给出了数值计算实例. 相似文献
12.
基于向量内积的关联规则挖掘算法研究 总被引:6,自引:1,他引:5
针对近年来研究较多的数据关联挖掘问题,论文将向量内积引入到该领域,并通过合理分配数据存储结构来提高数据库频繁项集的生成效率。研究表明,该方法不仅算法简单、只需扫描一次数据库,而且还具有动态剪枝、不保存中间候选项和节省大量内存空间等优点。在处理超大型数据库和分布式数据库方面均能得到较好的应用。 相似文献
13.
分布式环境下挖掘约束性关联规则的算法研究 总被引:2,自引:0,他引:2
关联规则是数据挖掘的重要研究内容。基于约束的关联规则挖掘可以促进交互式探查与分析。该文主要研究了分布式环境中挖掘约束性关联规则的问题。在并行关联规则挖掘算法CD和约束性关联规则挖掘算法Direct的基础上,提出了一种新的分布式挖掘约束性关联规则算法DMA_IC。该算法对于解决分布式挖掘约束性关联规则的问题是十分有效的。同时,文章还对DMA_IC算法的通信性能进行了讨论。 相似文献
14.
利用时态关联规则的分析,可以得到一系列相关性的项目集合,从而为决策提供更加有利的帮助和支持。在研究了传统的静态关联规则的基础上,提出了一种以交易规模的变化率为处理对象,即考虑各类项目交易量的变动状况的时态关联规则的表述与挖掘方法,并对其表述形式及算法实现进行了探讨。 相似文献
15.
基于日历的时序关联规则挖掘算法 总被引:2,自引:0,他引:2
以日历格作为框架来研究时序关联规则,提出了一个有效的挖掘算法。在用户指定的日历模式下,首先通过一次扫描产生所有的频繁2项集及相应的1*日历模式,在此基础上产生k*日历模式,并利用聚集性质产生候选K项集及相应的日历模式,最后扫描事务数据库产生所有的频繁项集及其日历模式。实验证明,该算法具有较好的性能。 相似文献
16.
由于分布环境的日益普遍并且需要结合使用者的实际要求对数据集按层次挖掘关联规则,故本文针对在分布式环境下基于项约束的关联规则挖掘和多层关联规则挖掘的特点,将交易表按概念层次进行编码。使用逐层迭代挖掘蓑略,结合CD算法和Direct算法提出一种在分布式环境下挖掘约束性多层关联规则的有效算法:MLACD算法。并通过实验验证该算法是正确有效的。 相似文献
17.
宫雨 《计算机工程与设计》2007,28(24):5838-5840
约束关联规则是关联规则研究中的重要问题,目前的研究大多集中在单变量约束,对双变量约束的研究较少,而双变量约束在实际中也有重要作用.针对这种情况,提出了双变量约束中具有下界约束的关联规则问题.在此基础上,给出了下界约束的定义,然后分析了满足下界约束频繁集的性质,并给出了相关的证明.最后提出了基于FP-Tree的下界约束算法,采用了预先测试的方法,降低了需要测试项集的数量和计算成本.实验结果表明,该算法具有较高的效率. 相似文献
18.
19.
针对汽车冲压厂生产数据量急剧增加的问题,研究了如何在冲压厂生产信息数据中运用基于概念格的关联规则挖掘技术,采用横向拆分与纵向合并的策略构造概念格,将普通概念格转化为量化概念格来生成关联规则。实验结果表明,该方法具有较高的挖掘效率,且能有效地寻找数据间隐藏的信息。从而为企业排产管理提供理论依据,达到优化排产的目的,在实际应用中取得了良好的分析效果。 相似文献
20.
加权关联规则挖掘算法的研究 总被引:20,自引:0,他引:20
陆建江 《计算机研究与发展》2002,39(10):1281-1286
讨论了加权关联规则的挖掘算法,对布尔型属性,在挖掘算法MINWAL(O)和MINWAL(W)的基础上给出一种改进的加权关联规则挖掘算法,此算法能有效地考虑布尔型属必的重要性和规则中所含属性的个数,对数量型属性,应用竞争聚集算法将数量型属性划分成若干个模糊集,产系统地提出加权模糊关联规则的挖掘算法,此算法能有效地考虑数量型属性的重要性和规则中所含属性的个数,并适用于大型数据库。 相似文献