共查询到18条相似文献,搜索用时 187 毫秒
1.
在由频繁项集产生关联规则时,利用提升度判断规则前、后件之间的正相关性可以避免产生一些无意义的关联。但是,这并不能保证规则前、后件中的项是正相关的,也不能减少挖掘频繁项集的时间开销。当规则的前件或后件存在负相关的项时,仍然可能产生无意义的关联规则。针对以上问题,基于数学期望,提出了正相关的频繁项集的概念,并改进了一种直接在FP-树中挖掘频繁项集的算法,挖掘出正相关的频繁项集,从而有效地解决以上问题。实验表明,该算法可以大幅度地减少所产生的频繁项集数量,显著地降低了挖掘频繁项集的时间开销。对于大型数据集,尤其是稠密型数据集,该算法具有良好的性能。 相似文献
2.
一种改进的正负关联规则挖掘算法 总被引:1,自引:0,他引:1
针对传统正负关联规则挖掘算法需要多次扫描数据库并且生成大量候选频繁项集的问题,在对比目前相关研究成果的基础上,提出了一种改进的正负关联规则挖掘算法,它通过两次数据扫描完成对正负关联规则的挖掘,对最大频繁项集的挖掘算法做了改进,有效提高了算法效率,同时对置信度标准做了改进。基于某真实事务集的实验表明,算法提高了规则挖掘的质量和有效性。 相似文献
3.
本文在研究分析经典关联规则挖掘算法优缺点以及基因表达数据特点的基础上,提出了一种立足于基因表达数据的数据特点,不生成候选项集的基于分段与运算的基因表达数据频繁项集挖掘算法。实验证明该算法能更快速有效地挖掘出频繁项集。 相似文献
4.
5.
CHEN Chen 《数字社区&智能家居》2008,(32)
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。 相似文献
6.
7.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。 相似文献
8.
Apriori算法是一种找频繁项集的基本算法,它常常被用于单维关联规则的数据挖掘,本文结合数据立方体技术对Apriori算法做了一些变形,给出了一种适用于维间关联规则挖掘的算法,并将此算法结合Apriori算法,在教学管理系统中挖掘出混合维间的关联规则. 相似文献
9.
本文介绍了关联规则挖掘的基本概念.分析了经典的Apriori算法.提出一种改进的关联规则挖掘算法.解决了挖掘课程相关性关联规则的问题。改进算法的基本思想:①采用位图数据格式:②系统中会永久保留支持度为0的候选1项集和候选2项集.当系统需要运行时.首先采用数据库的过滤技术.可以很快得到频繁2项集。突破了这一瓶颈.系统运行速度将得到较大的提升。将设算法应用于课程相关性分析。实验结果表明改进的算法性能优于Apriori算法。 相似文献
10.
11.
基于幂集的关联规则挖掘算法研究 总被引:13,自引:2,他引:13
首次提出了利用幂集作为挖掘关联规则的工具,给出了基于幂集的关联规则挖掘算法。该算法有效解决了传统算法中需对数据库多次扫描的不足,实现了对数据库一次扫描就可挖掘出所有频繁集的功能。 相似文献
12.
为了易于产生候选频繁项目集和计算项目集的支持数,提出了基于二进制的关联规则挖掘算法,但在搜索候选频繁项目集时仍从集合论出发,沿用传统搜索超集或子集的方法,在一定程度上效率受到了限制;为此提出了一种基于二进制的交叉挖掘关联规则算法,通过数值的递增和递减交叉方式自动产生候选频繁项集,缩短了候选频繁项的搜索空间,并在计算支持数时通过数字特征减少了扫描事务的个数,算法的效率得到了明显提高;该实验结果表明:与现有的二进制关联规则挖掘算法相比,算法是快速而有效的。 相似文献
13.
针对现有基于空间事务的挖掘算法不能有效地提取空间拓扑关联,提出一种空间拓扑关联规则挖掘算法,其适合在空间关联横向挖掘中搜索拓扑关联;该算法将空间拓扑关系转换为整数,用整数递减的方法构建候选频繁项;算法用数字运算获取支持数,同时还用数字特性减少被扫描的空间事务数。在挖掘空间拓扑关联规则时,实验证明它是快速而有效的。 相似文献
14.
挖掘关联规则是目前数据挖掘领域热点研究话题之一。它的目的在于在数据库中挖掘有趣的关联规则。在关联规则分析及Apriori算法分析上,针对Apriori算法的瓶颈问题,许多有效的改进算法被提出。文中提出了QPCA算法。该算法利用矩阵分析的方法,仅需要扫描数据库一次,同时此算法优化了连接和剪枝操作,通过快速的剪枝和连接可以很快地获取最少的候选项集,避免了频繁项集之间的重复判断连接,因此大大提高了算法的效率。实验结果表明,该算法在挖掘时间上有很大提高。 相似文献
15.
沈良忠 《数字社区&智能家居》2009,5(5):3501-3504
关联规则是数据挖掘中发现知识的一种有效方法,其中Apriori算法又是关联规则挖掘的经典算法。本文在分析该Apriori算法的基础上.介绍了该算法的c#实现,包括频繁集的发现和关联规则的生成,并且通过对传统购物篮数据中的频繁集进行了验证,并且得到了其中满足最小支持度和可信度的强关联规则。 相似文献
16.
17.
基于CIE-树的关联规则最大频繁项集的求解 总被引:3,自引:0,他引:3
最大频繁项集的求解是关联规则挖掘中的重要环节。文章提出了一种快速产生最大频繁项集的算法,该算法利用所提出的CIE-树模型,分块扫描数据库构建CIE-树,并对CIE-树进行剪枝,以减少候选项集的数量,从而显著提高了最大频繁项集的求解效率。 相似文献