共查询到17条相似文献,搜索用时 265 毫秒
1.
基于向量和矩阵的频繁项集挖掘算法研究 总被引:1,自引:0,他引:1
为了能快速、高效地从事务数据库中挖掘所有的频繁项集,提出了一种基于向量和矩阵的VMA高效算法.该算法只需扫描数据库一次,将事物数据库转化到布尔向量中,对频繁1-项集按支持度大小进行非递减排序,排序后在很大程度上减少了用于扩展的k-项集(k>2),生成一个2-项集支持度矩阵,由频繁k-项集(k≥2)扩展生成频繁(k+1)-项集.大量实验结果表明,VMA算法的性能不但明显优于Apriori算法,而且适应于大型事务数据库中频繁项集挖掘. 相似文献
2.
基于属性分组的高效挖掘关联规则算法 总被引:6,自引:0,他引:6
挖掘频繁项集在数据挖掘中有着重要的作用。目前,关于频繁项集的挖掘问题已经提出了一些算法,虽然实现了一次扫描数据库即可以发现所有的频繁项集,但是当属性数目很多时,算法的执行效率下降很快。论文首次提出了利用属性分组作为挖掘关联规则的工具,给出了基于属性分组的频繁项集挖掘算法,用矩阵来存储数据库属性间的信息并提取频繁项集,而且不产生候选项集。经实验验证该算法是快速有效的。 相似文献
3.
为了进一步降低扫描数据库的次数和减轻内存负担,从而更好地提高挖掘频繁项集的效率,一种基于Apriori的优化算法(M-Apriori)被提出. 该方法通过构建频繁状态矩阵来存放项集的频繁状态,构建事务布尔矩阵来存放事务与项集的关系,此算法只需在初始化阶段扫描一次数据库产生初始的频繁状态矩阵和事务布尔矩阵,并在此基础上直接递推产生所有的频繁项集. 实验证明,与Apriori算法相比,M-Apriori算法具有更好的性能与效率. 相似文献
4.
5.
6.
一种基于单事务项集组合的频繁项集挖掘算法 总被引:2,自引:0,他引:2
Apriori是挖掘频繁项集的基本算法,目前该算法及其优化变种都没有解决候选项及重复扫描事务数据库的问题.文章通过对Apriori及其优化算法的深入探究,提出了一种基于单事务组合项集的挖掘算法,该算法在一个事务内部对"数据项"进行组合,在事务数据库中对所有相同"项集"进行计数.不经过迭代过程,不产生候选项集,所有频繁项集的挖掘过程只需对事务数据库一次扫描,提高了频繁项集挖掘效率. 相似文献
7.
通过对关联规则挖掘技术及经典算法Apriori和FP-growth的研究和分析,提出了一种改进的频繁项集挖掘算法。该算法利用矩阵存储数据,并结合矩阵运算求项集的支持数,有效减少了事务数据库的扫描次数;利用有序频繁项目邻接矩阵创建频繁模式树,有效减少了频繁模式树的分支和层数。通过实例分析了频繁项集的挖掘过程。 相似文献
8.
9.
10.
频繁项集挖掘是关联规则挖掘的重要步骤。在数据动态变化的环境下进行关联规则挖掘具有重要的现实意义。提出一种动态频繁项集挖掘算法,该算法建立在前一阶段挖掘的基础上,能避免过多地扫描数据库而影响挖掘性能,在最后生成全局频繁项集时,不需要全程扫描数据库,根据之前挖掘结果有选择地扫描相关的事务子集。实验表明,该算法挖掘性能远远优于Apriori算法,能有效地实现在数据动态变化环境下的挖掘频繁项集。 相似文献
11.
12.
数据挖掘中的关联分析技术旨在发现大量数据项集之间有趣的关联关系,其核心问题是寻找频繁项集。针对传统的基于矩阵的关联挖掘算法中矩阵规模和事务数据库大小相关,在处理超大型事务数据库时,仍会存在内存瓶颈的问题,提出了一个矩阵规模和事务数据库大小无关、通过矩阵约束预挖掘后验证的频繁项集发现算法。实验结果显示,该算法提高了频繁项集的挖掘速度。 相似文献
13.
将动态规划算法应用于最大频繁项目集的挖掘,可以克服Apriori算法需要多次扫描数据库确定新的候选项集的缺点;通过对数据进行初始化构建矩阵,结合动态规划的思想通过在矩阵中找到最大无向完全图来获得所有的最大伪频繁项集,最后利用一个非频繁项集的子集有可能是频繁项目集的性质对所有的最大伪频繁项集消减获取最大频繁项集。实验结果表明,它能够快速挖掘频繁项集,且适用于海量、高维数据。 相似文献
14.
The purpose of mining frequent itemsets is to identify the items in groups that always appear together and exceed the user-specified threshold of a transaction database. However, numerous frequent itemsets may exist in a transaction database, hindering decision making. Recently, the mining of frequent closed itemsets has become a major research issue because sets of frequent closed itemsets are condensed yet complete representations of frequent itemsets. Therefore, all frequent itemsets can be derived from a group of frequent closed itemsets. Nonetheless, the number of transactions in a transaction database can increase rapidly in a short time period, and a number of the transactions may be outdated. Thus, frequent closed itemsets may be changed with the addition of new transactions or the deletion of old transactions from the transaction database. Updating previously closed itemsets when transactions are added or removed from the transaction database is challenging. This study proposes an efficient algorithm for incrementally mining frequent closed itemsets without scanning the original database. The proposed algorithm updates closed itemsets by performing several operations on the previously closed itemsets and added/deleted transactions without searching the previously closed itemsets. The experimental results show that the proposed algorithm significantly outperforms previous methods, which require a substantial length of time to search previously closed itemsets. 相似文献
15.
一种基于关系数据库的频繁项集挖掘算法 总被引:3,自引:0,他引:3
频繁项集的挖掘是数据挖掘中的一个十分重要的组成部分,目前对于事务数据库频繁项集的挖掘算法研究较多。本文根据事务数据库中布尔型频繁项集挖掘的理论和方法,再结合关系数据库的特殊性,利用标准SQL语言提出了一种新的在关系数据库中挖掘频繁项集的简易算法。实验证明该算法具有较高的效率。 相似文献
16.
在对Apriori算法分析的基础上,针对该算法存在的两个缺陷,即多次扫描事务数据库和产生大量的候选数据集,提出了改进的Apriori算法。改进后的算法采用矩阵表示数据库,只扫描1次数据库,改变由低维频繁项目集到高维频繁项目集的多次连接运算,直接从高阶项目集着手寻找最大频繁项目集,从而提高了运算效率。 相似文献
17.
基于幂集的关联规则挖掘算法研究 总被引:13,自引:2,他引:13
首次提出了利用幂集作为挖掘关联规则的工具,给出了基于幂集的关联规则挖掘算法。该算法有效解决了传统算法中需对数据库多次扫描的不足,实现了对数据库一次扫描就可挖掘出所有频繁集的功能。 相似文献