共查询到19条相似文献,搜索用时 140 毫秒
1.
2.
频繁项集的挖掘是关联规则挖掘中一个关键的问题,典型的关联规则挖掘算法都是以数据库的多次扫描来实现的,而且不能即时反映数据库的变化,且其频繁项集的产生都只考虑了项目在数据库中出现的频度而没有考虑项目的重要性。本文提出了一种基于频繁链表的完全加权项频繁集的挖掘算法,该算法不但能动态反映数据库的变化,而且在频繁集的挖掘中只需扫描一次数据库,并根据项目的重要性程度对项目赋予了一定的权值,用以挖掘人们更感兴趣的关联规则。 相似文献
3.
关联规则的发现是数据挖掘的一个重要方面,产生频繁项集是其中一个关键步骤。提出了一种基于十字链表快速挖掘频繁项集的算法,该算法只需扫描一次数据库,充分利用已有信息产生频繁项集,无需存储候选项集。通过与其它一些算法比较,说明该算法有更好的性能。 相似文献
4.
提出了一种新颖的频繁模式挖掘算法,该算法与现有的挖掘算法相比具有明显的优点,首先,该算法不需要产生候选项集,其次该算法具有更少的数据库扫描次数,该算法在中小型数据库上挖掘关联规则只需要扫描交易数据库一次,对于大型交易数据库的关联规则挖掘最多也只需要扫描交易数据库两次。因而,该算法与现有的频繁模式挖掘算法相比具有更高的效率。 相似文献
5.
采用频繁项目链表变换的频繁项目集挖掘算法 总被引:1,自引:0,他引:1
周海岩 《小型微型计算机系统》2008,29(7)
频繁项目集的产生是关联规则挖掘的关键问题,经典的关联规则挖掘算法是通过对事务数据库的多次扫描实现的.最新的研究已经开始探索合适的数据结构以支持进行极少次数的事务数据库的扫描,进而减少关联规则挖掘过程中巨大的I/O开销以获得更高的效率.文中利用频繁项目链表的数据结构,给出了一种仅需扫描两次事务数据库的关联规则挖掘算法 ,称为FILLT算法.该算法采取分而治之策略,对频繁项目链表实施分割、变换来进行关联规则挖掘.文中最后对这一算法的效率进行了理论分析和实验验证. 相似文献
6.
7.
传统的关联规则挖掘研究事务中所包含的项与项之间的关联性,而负关联规则挖掘不仅要考虑事务中包含的项,还要考虑事务中不包含的项。给出了完全负关联规则的定义,提出一种基于树的算法Free-PNP,通过此算法挖掘数据库中的负频繁模式,继而得到所要挖掘的完全负关联规则。通过实验验证了算法的有效性。 相似文献
8.
针对Apriori算法的主要问题,提出了关联规则挖掘的两种改进算法:高维分解法通过遍历事务数据库形成高维频繁项目集和关联规则,然后直接分解高维关联规则得到低维关联规则;前缀广义链表法先通过对事务数据库的遍历形成前缀链表,然后再次扫描事务数据库,遍历其前缀链表,根据判断每个事务是否与其中的一条路径完全或部分重合而找到关联规则。这两种算法均能极大地减少事务数据库的遍历和大规模候选序列集的产生,提高挖掘算法的效率,使得关联规则的产生简单化。 相似文献
9.
针对传统数据关联挖掘过程只适用于单段数据集,导致内存负担重、挖掘频繁项集效率不高等问题,提出一种多段支持度数据频繁模式关联规则挖掘方法.运用多支持度算法对数据集逐步搜索,数据集按照数据项的MIS大小有序排列,采用最小值作为最小支持度,确保该算法的地推性.构建FP_ tree树,利用FP_tree算法对待选项实施剪枝,从而准确挖掘出频繁模式的关联规则.仿真结果证明,多段支持度数据频繁模式关联规则挖掘具有较好的性能,有效提高了关联规则的挖掘效率. 相似文献
10.
关联规则挖掘算法Apriori算法在挖掘频繁模式时需要产生大量的候选项集,多次扫描数据库,时空复杂度过高.针对该算法的局限性,提出了一种通过对项编码来减少扫描数据库次数并通过删除项来减少候选项集的数量,从而提高算法的效率.相同条件下的实验结果表明,优化后的算法能有效地提高关联规则挖掘的效率. 相似文献
11.
通过对关联规则挖掘技术及经典算法Apriori和FP-growth的研究和分析,提出了一种改进的频繁项集挖掘算法。该算法利用矩阵存储数据,并结合矩阵运算求项集的支持数,有效减少了事务数据库的扫描次数;利用有序频繁项目邻接矩阵创建频繁模式树,有效减少了频繁模式树的分支和层数。通过实例分析了频繁项集的挖掘过程。 相似文献
12.
最大频繁项目集挖掘技术研究与展望 总被引:1,自引:1,他引:1
提高最大频繁项目集挖掘算法的效率是关联规则挖掘研究一个重点领域.本文主要对影响最大频繁项目集挖掘效率的数据分布、搜索策略、支持度计算及剪枝策略等技术进行了研究,并对已提出的最大频繁项目集挖掘算法进行了分析. 相似文献
13.
在由频繁项集产生关联规则时,利用提升度判断规则前、后件之间的正相关性可以避免产生一些无意义的关联。但是,这并不能保证规则前、后件中的项是正相关的,也不能减少挖掘频繁项集的时间开销。当规则的前件或后件存在负相关的项时,仍然可能产生无意义的关联规则。针对以上问题,基于数学期望,提出了正相关的频繁项集的概念,并改进了一种直接在FP-树中挖掘频繁项集的算法,挖掘出正相关的频繁项集,从而有效地解决以上问题。实验表明,该算法可以大幅度地减少所产生的频繁项集数量,显著地降低了挖掘频繁项集的时间开销。对于大型数据集,尤其是稠密型数据集,该算法具有良好的性能。 相似文献
14.
数据挖掘中关联规则的一种高效Apriori算法 总被引:21,自引:0,他引:21
在数据挖掘中关联规则的频繁项集计算时,通过一种改进的Apriori算法,即用升序替代原来的按字母次序对项集进行排序,可大大精简候选频繁集,而且能保持频繁集的完整性,减少计算开销。 相似文献
15.
基于等价关系的关联规则挖掘算法研究 总被引:3,自引:0,他引:3
王燕 《计算机工程与应用》2006,42(8):187-189
文章在现有关联规则挖掘算法的基础上,基于等价关系和等价类来生成侯选频繁项目集,它可以减少系统的开销;并利用参照数据集代替原始交易数据库进行侯选频繁项目集中支持度计数的测试,以此来减少对原始交易数据库的扫描次数。这种方法对于挖掘关联规则是有效的。 相似文献
16.
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。 相似文献
17.
CHEN Chen 《数字社区&智能家居》2008,(32)
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。 相似文献
18.
如何从海量数据信息中挖掘出有用的关联规则已经成为人们广泛关注的问题,而在关联规则挖掘中,首要的问题就是如何高效地挖掘出频繁项集。针对已有FIMM算法作出改进,提出了一种改进的基于矩阵的频繁项集挖掘算法N—FIMM,该算法在FIMM基础上去除大量冗余的非频繁项集的项集,减少计算可能频繁项集的工作量,同时缩小了矩阵规模,提高了空间效率。通过对矩阵操作,一次性地产生所有的频繁项集。试验结果表明,该算法对已有的基于矩阵的频繁项集挖掘算法有了很大的改进,提高了挖掘效率。 相似文献