共查询到10条相似文献,搜索用时 859 毫秒
1.
Apriori算法中频繁项集挖掘实现研究 总被引:3,自引:0,他引:3
在数据挖掘中,关联规则是发现知识的一种有效方法,而频繁项集的挖掘是关联规则中发现强规则的基础,其中连接与剪枝是逐层迭代求解k-项频繁集的核心算法。因此,文中主要介绍了基于连接与剪枝挖掘频繁项集的实现过程,并通过挖掘对传统购物篮数据中的频繁项集进行了验证,结果是一致的。算法的有效性也为进一步挖掘关联规则中的强规则提供了基础。 相似文献
2.
Apriori算法中频繁项集挖掘实现研究 总被引:4,自引:0,他引:4
在数据挖掘中,关联规则是发现知识的一种有效方法,而频繁项集的挖掘是关联规则中发现强规则的基础,其中连接与剪枝是逐层迭代求解k-项频繁集的核心算法。因此,文中主要介绍了基于连接与剪枝挖掘频繁项集的实现过程,并通过挖掘对传统购物篮数据中的频繁项集进行了验证,结果是一致的。算法的有效性也为进一步挖掘关联规则中的强规则提供了基础。 相似文献
3.
针对从本文数据集中的正负关联规则挖掘问题,提出一种基于双阈值Apriori算法和非频繁项集的挖掘方法。首先,对通过逆文档频率(IDF)对语料库中的项(项集)进行加权,筛选出前N%的项集。然后,通过提出的双支持度阈值Apriori算法来提取频繁项集和非频繁项集,以此降低非频繁项集的数量。最后,通过置信度和升降度阈值的判断,分别从频繁项集和非频繁项集中挖掘正负关联规则。其中,创新性的利用了非频繁项集来挖掘正负关联规则。在一个医学文本数据集上的实验结果表明,提出的方法能够有效挖掘出正负关联规则,且能够大大降低项集和规则数量。 相似文献
4.
5.
一种提高Apriori算法效率的方法 总被引:8,自引:2,他引:8
Apriori算法是关联规则挖掘中的经典算法。在Apriori算法中,需要大量进行两个操作:判断两个k-项集是否前k-1项相同且最后一项不同;判断一个项集是否为另一个项集的子集。利用Apriori算法中项集之间都是有序的这一特点可以减少以上两个操作的执行次数,从而达到对Apriori算法进行优化的目的。实验结果表明,经过优化了的Apriori算法在运行效率上有一定的提高。 相似文献
6.
挖掘关联规则是目前数据挖掘领域热点研究话题之一。它的目的在于在数据库中挖掘有趣的关联规则。在关联规则分析及Apriori算法分析上,针对Apriori算法的瓶颈问题,许多有效的改进算法被提出。文中提出了QPCA算法。该算法利用矩阵分析的方法,仅需要扫描数据库一次,同时此算法优化了连接和剪枝操作,通过快速的剪枝和连接可以很快地获取最少的候选项集,避免了频繁项集之间的重复判断连接,因此大大提高了算法的效率。实验结果表明,该算法在挖掘时间上有很大提高。 相似文献
7.
8.
9.
基于数据库划分的关联规则算法 总被引:1,自引:0,他引:1
关联规则是数据挖掘的一个重要研究方向.分析了FP算法的优缺点,提出了一种基于数据库划分的算法PFp算法,从理论上证明了该算法的正确性.该方法将事务数据库划分为子事务数据库,在子事务数据库中挖掘局部频繁项集,并入到全局频繁项集中,采用连接和剪枝策略有效挖掘出局部不频繁但全局频繁的频繁项集.实验结果表明,该算法比FP算法更加有效. 相似文献
10.
基于图的关联规则改进算法 总被引:1,自引:0,他引:1
黄红星 《计算机与数字工程》2009,37(12):38-41,162
关联规则挖掘是数据挖掘研究的最重要课题之一。基于图的关联规则挖掘DLG算法通过一次扫描数据库构建关联图,然后遍历该关联图产生频繁项集,有效地提高了关联规则挖掘的性能。在分析该算法基本原理基础上,提出了一种改进的算法—DLG#。改进算法在关联图构造同时构造项集关联矩阵,在候选项集生成时结合关联图和Apriori性质对冗余项集进行剪枝,减少了候选项集数,简化了候选项集的验证。比较实验结果表明,在不同数据集和不同支持度阈值下,改进算法都能更快速的发现频繁项集,当频繁项集平均长度较大时性能提高明显。 相似文献