共查询到20条相似文献,搜索用时 46 毫秒
1.
现有的数据挖掘方法大致有两类:有候选项集和无候选项集,有候选项集的挖掘以Apriori算法为代表,其特点是产生大量的候选项集,重复多次扫描数据库,挖掘效率低,不适合大型数据库的挖掘。无候选项集的挖掘以FP-T方法为代表,但它不能同时挖掘多概念层的关联规则,对具有超大项ID的大型数据库,无法生成“树”结构,使用也受到限制。该文将FP-T原理引入多层关联规则的并发挖掘,通过构建一个特殊节点链的指针表,可实现超大规模数据库的并发、多层挖掘。对实现物流系统信息自动化及其它数据挖掘应用领域都具有极其重要的指导意义。 相似文献
2.
针对Apriori和AprioriTid算法中存在的项集生成瓶颈问题,提出了一种基于事务集压缩、候选项集压缩和支持度布尔矩阵的改进AprioriTid算法。该算法中通过删去不必比较的事务来有效缩减数据集;优化频繁项集的自连接方式来减少生成的候选项集个数;使用支持度布尔矩阵来加快候选项集的验证速度。实验结果表明改进算法确实能有效减少相关计算量,比已有算法执行效率明显提高,同时验证了该算法在旋转机械故障诊断中的有效性。 相似文献
3.
4.
为了解决Apriori算法中生成候选二项集不能剪枝、多次扫描数据库中对计算支持度不产生作用的项等缺点,提出了使用矩阵直接生成频繁二项集及候选三项集,使用链表删除对计算支持度不产生作用的数据的方法。通过设置不同的最小支持度将两个算法的运行时间进行对比,根据结果分析证明改进后的算法比Apriori算法执行效率高。 相似文献
5.
6.
大数据环境下高效用项集挖掘算法中过多的候选项集极大地降低了算法的时空效率,提出了一种减少候选项集的数据流高效用项集挖掘算法。首先,通过数据流中当前窗口的一次扫描建立一个全局树,并降低全局树中头表入口与节点的冗余效用值;然后,基于全局树生成候选模式,基于增长算法降低局部树的候选项集效用;最终,从候选模式中选出高效用模式。基于真实数据流的实验结果表明,本算法的时空效率与内存占用比均优于其他数据流的高效用模式挖掘算法。 相似文献
7.
发现最大频繁项目集是数据挖掘应用中的关键问题;提出一种新的基于事务集迭代的求最大频繁项集算法,该算法在每次迭代时,通过对输入事务集的两次扫描,生成所有阶数的候选项集和频繁项集;每次迭代后又生成新的事务集作为下一次迭代的输入,而候选最大频繁项集集合则随着迭代不断地趋于完整。该算法不需要生成K-1阶候选项集或频繁树,有别于已有的经典算法;同时由于用于迭代的事务集的数据量会快速缩减,从而也可有效降低算法的时间复杂度。实验表明在大数据量和小最小支持度时该算法更为有利。 相似文献
8.
在所有的关联规则的挖掘算法中Apriori算法是最为经典的一个,但Apriofi算法有两个缺陷,即要扫描多次数据库以及生成大量的候选集。本文提出一种利用对项进行编码的方法对该算法进行改进,通过对项编码来减少扫描数据库次数并通过删除项来减少生成候选集的数量,从而提高算法的效率。相同条件下的实验结果表明,该优化后的算法能有效地提高关联规则挖掘的效率。 相似文献
9.
关联规则的快速提取算法 总被引:1,自引:0,他引:1
针对基于频繁项集的关联规则挖掘算法效率低,需要多次扫描数据库且生成冗余候选项集问题,该文利用频繁项集的Aprior性质和概念格的基本思想提出一种关联规则提取算法,利用极大频繁项集来进行规则提取,去除了多数冗余的候选项集,提高了提取效率。 相似文献
10.
11.
一种改进的关联规则提取算法 总被引:1,自引:0,他引:1
运用图论中的完全图知识,对关联规则提取过程的第一阶段进行改造,把大项集计算转换为集合的并和交两种基本运算,并利用候选大项集生成过程中的中间结果对已知大项集进行过滤,大大减少不必要的重复计算,从而加快候选大项集的生成速度. 相似文献
12.
该文在对关联规则挖掘中Apriori算法的深入研究和分析的基础上,发现并指出了该算法存在的不足,并对其进行以下三方面改进:改善候选项集支持度的计算方法;缩小候选项集的生成规模;减少对数据库的扫描次数。实验结果表明,改进算法性能得到了明显提高。 相似文献
13.
14.
发现频繁项集是关联规则挖掘应用的关键,针对采用Apriori类的候选项目集生成-检验方法导致候选项目集产生的代价很高问题,该文提出一种基于散列的快速AprioriTid改进算法,在AprioriTid算法的基础上采用基于候选项Lk地址的哈希映射方法,提高了算法的执行效率。 相似文献
15.
该文在对关联规则挖掘中Apriori算法的深入研究和分析的基础上,发现并指出了该算法存在的不足,并对其进行以下三方面改进:改善候选项集支持度的计算方法;缩小候选项集的生成规模;减少对数据库的扫描次数。实验结果表明.改进算法性能得到了明显提高。 相似文献
16.
17.
基于图的关联规则改进算法 总被引:1,自引:0,他引:1
黄红星 《计算机与数字工程》2009,37(12):38-41,162
关联规则挖掘是数据挖掘研究的最重要课题之一。基于图的关联规则挖掘DLG算法通过一次扫描数据库构建关联图,然后遍历该关联图产生频繁项集,有效地提高了关联规则挖掘的性能。在分析该算法基本原理基础上,提出了一种改进的算法—DLG#。改进算法在关联图构造同时构造项集关联矩阵,在候选项集生成时结合关联图和Apriori性质对冗余项集进行剪枝,减少了候选项集数,简化了候选项集的验证。比较实验结果表明,在不同数据集和不同支持度阈值下,改进算法都能更快速的发现频繁项集,当频繁项集平均长度较大时性能提高明显。 相似文献
18.
19.
高效的关联规则挖掘算法 总被引:2,自引:0,他引:2
针对Apriori算法多次扫描数据库且生成的候选项集数量大的缺陷,提出了一种数据库优化策略,并结合修剪频繁集和连接优化策略,得到一种新的关联规则挖掘算法-NApriori算法.该算法减小了数据库的规模以及候选项集的数目,避免了连接过程中相同项目的重复比较.实验表明此方法比Apriori算法有更好的性能. 相似文献
20.
一种基于大项集重用的序列模式挖掘算法 总被引:5,自引:0,他引:5
在重新定义序列模式的长度、增加了序列模式的挖掘粒度的基础上,提出一种基于大项集重用的序列模式挖掘算法HVSM.该算法采用垂直位图法表示数据库,先横向扩展项集,将挖掘出的所有大项集组成一大序列项集,再纵向扩展序列,将每个一大序列项集作为“集成块”,在挖掘k大序列时重用大项集.并以兄弟节点为种子生成候选大序列,利用1st—TID对支持度进行计数.实验表明,对于大规模事务数据库,该算法有效地提高了挖掘效率. 相似文献