首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
发现频繁项目序列集是关联规则挖掘中的一个重要步骤.该文提出两个发现最大频繁 项目序列的算法Dfis和Dfisp.Dfis算法基于项目序列集操作理论,只有一次数据库扫描.Dfisp 是Dfis的改进算法,它引入数据分割技术以提高内存使用率因而增强对大型数据库的处理能力, 是一个两次数据库扫描算法.实验表明了它们的性能和优势.  相似文献   

2.
关联规则的高效挖掘算法研究   总被引:4,自引:0,他引:4  
关联规则的挖掘是一个重要的数据挖掘问题,对其挖掘算法的研究具有十分重要的意义,经典的关联规则发现算法是一个多次遍历的算法,计算的复杂度较同,本文给出一种关联规则频繁数据集的发现算法,只需对交易序列扫描两次即可发现数据采的频繁数据集,算法效率得到了较好地提高。  相似文献   

3.
基于项目序列集操作的关联规则挖掘算法   总被引:29,自引:0,他引:29  
最大频繁项目序列集的生成是影响关联规则挖掘的关键问题,传统的算法是通过对事务数据库的多次扫描实现的,最新的研究已经开始通过减少事务数据库的扫描次数进而减少挖掘过程的I/O代价来获得更高的效率,随着计算机性能的提高,探索合适的数据结构来支持基于一次事务数据库扫描的高效算法成为可能,该文首先给出项目序列集和它的基本操作的严格定义,然后在此基础上提出了一个称为ISS-DM的最大频繁项目序列集生成算法。ISS-DM算法是通过对事务数据库的一次扫描而逐步演化成最大频繁项目序列集的,最后作者对这一算法的时间和空间效率进行了理论分析和实验验证。  相似文献   

4.
Apriori算法是数据挖掘领域挖掘关联规则频繁项目集的经典算法,但该算法存在产生大量的候选项目集及需要多次扫描数据库的缺陷。为此提出一种新的挖掘关联规则频繁项目集算法( CApriori算法):利用分解事务矩阵来压缩存放数据库的相关信息,进而对分解事务矩阵进行关联规则挖掘;优化了由频繁k -1项目集生成频繁k项目集的连接过程;提出了一种不需要扫描数据库,利用行集“与运算”快速计算支持数的方法,改进算法挖掘所有的频繁项目集只需扫描数据库两次。实验结果表明,改进算法在最小支持度较小时效率高于Apriori算法。  相似文献   

5.
关联规则挖掘是数据挖掘研究领域中的一个重要任务,旨在挖掘事务数据库中有趣的关联。Apriori算法是关联规则挖掘中的经典算法。然而Apriori算法存在着产生候选项目集效率低和频繁扫描数据等缺点。提出了一种新的Apriori的改进算法,该算法在生成k(k>1)项频繁集时,不需要重新扫描数据库,只是在生成1项频集时,才需要扫描事务数据库,有效地减少了对事务数据库的读操作,在时间复杂度上较经典的Apriori算法有更加优越的性能。  相似文献   

6.
频繁项集的挖掘是关联规则挖掘中一个关键的问题,典型的关联规则挖掘算法都是以数据库的多次扫描来实现的,而且不能即时反映数据库的变化,且其频繁项集的产生都只考虑了项目在数据库中出现的频度而没有考虑项目的重要性。本文提出了一种基于频繁链表的完全加权项频繁集的挖掘算法,该算法不但能动态反映数据库的变化,而且在频繁集的挖掘中只需扫描一次数据库,并根据项目的重要性程度对项目赋予了一定的权值,用以挖掘人们更感兴趣的关联规则。  相似文献   

7.
基于关系矩阵的关联规则增量式更新   总被引:2,自引:0,他引:2  
关联规则是当前数据挖掘研究的主要模式之一.本文提出了一种高效的增量式关联规则的挖掘算法USLIG,以处理当最小支持度改变时相应的关联规则的更新问题.该算法通过构建向量之间的关系矩阵,将频繁项目集的产生过程转化为项目集的关系矩阵中向量的运算过程,能充分利用以前的挖掘结果,只需扫描比数据库小得多的向量,克服了IUA及相关算法需多次扫描数据库的缺点.  相似文献   

8.
关联规则挖掘是指从数据中发现有用的信息。本文首先介绍了DHP算法的基本思想,DHP算法利用hash修剪技术,减少数据量。举例说明DHP算法的执行过程,并且对DHP的算法性能进行分析。DHP算法高效的生成频繁项目集,解决了生成频繁2-项目集 时的性能瓶颈问题。减少事务数据库大小和减少数据库扫描次数。  相似文献   

9.
一种新的关联规则增量式挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
张健沛  杨悦  刘卓 《计算机工程》2006,32(23):43-44,6
针对数据库不断更新变化及现实生活中大多只对近期数据感兴趣的特点,该文提出了一种基于滑动窗口过滤器的关联规则增量式挖掘算法(SWFAI算法)。该算法通过分组及时舍弃挖掘过程中生成的非频繁项目集,有效降低主存压力,减少对数据库的扫描次数,能够对时变数据库进行高效地关联规则挖掘。通过实验证明了该算法能够有效地进行关联规则的挖掘,并在效率上有较大提高。  相似文献   

10.
为了有效提高关联规则挖掘算法处理数据库的效率,在研究基于矩阵的关联规则挖掘算法的基础上,提出了改进的关联规则挖掘算法DMApriori,并选取程序模拟超市购物产生的4个试验数据集,应用DMapriori算法对该数据集进行了关联规则挖掘;实验结果表明,该算法能平均提高关联规则挖掘时间20%;在计算数据库中的频繁项集时,通过有效裁剪布尔矩阵,使算法逐层扫描的数据量大大减少,并且对每个项集计数时,只扫描部分数据,提高了关联规则挖掘算法的性能。  相似文献   

11.
王明  宋顺林 《计算机应用》2010,30(9):2332-2334
发现频繁项集是关联规则挖掘的主要途径,也是关联规则挖掘算法研究的重点。关联规则挖掘的经典Apriori算法及其改进算法大致可以归为基于SQL和基于内存两类。为了提高挖掘效率,在仔细分析了基于内存算法存在效率瓶颈的基础上,提出了一种发现频繁项集的改进算法。该算法使用了一种快速产生和验证候选项集的方法,提高了生成项目集的速度。实验结果显示该算法能有效提高挖掘效率。  相似文献   

12.
频繁项集挖掘的研究与进展   总被引:6,自引:0,他引:6  
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。该文从频繁项集生成过程中解空间的类型、搜索方法和剪枝策略、数据库的表示方法、数据压缩技术等几个方面对频繁项集挖掘的基本策略进行了研究,对完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘的典型算法特别是最新算法进行了介绍和评述,并分析了各种算法的性能特点,指出其适于哪种类型的数据集。最后,对频繁项集挖掘算法的发展方向进行了初步的探讨。  相似文献   

13.
Most algorithms for mining sequential rules focus on generating all sequential rules. These algorithms produce an enormous number of redundant rules, making mining inefficient in intelligent systems. In order to solve this problem, the mining of non-redundant sequential rules was recently introduced. Most algorithms for mining such rules depend on patterns obtained from existing frequent sequence mining algorithms. Several steps are required to organize the data structure of these sequences before rules can be generated. This process requires a great deal of time and memory. The present study proposes a technique for mining non-redundant sequential rules directly from sequence databases. The proposed method uses a dynamic bit vector data structure and adopts a prefix tree in the mining process. In addition, some pruning techniques are used to remove unpromising candidates early in the mining process. Experimental results show the efficiency of the algorithm in terms of runtime and memory usage.  相似文献   

14.
数据挖掘中的关联分析技术旨在发现大量数据项集之间有趣的关联关系,其核心问题是寻找频繁项集。针对传统的基于矩阵的关联挖掘算法中矩阵规模和事务数据库大小相关,在处理超大型事务数据库时,仍会存在内存瓶颈的问题,提出了一个矩阵规模和事务数据库大小无关、通过矩阵约束预挖掘后验证的频繁项集发现算法。实验结果显示,该算法提高了频繁项集的挖掘速度。  相似文献   

15.
频繁项集挖掘算法研究   总被引:2,自引:0,他引:2  
频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.本文以频繁项集挖掘算法的搜索方式和计数方式为主线,分析频繁项集挖掘中的代表性算法及其中的关键技术和方法,对近年来相关研究的新进展做了介绍和评述,并指出了未来的研究方向.  相似文献   

16.
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.在对关联规则挖 掘中基于Apriori算法的改进算法进行深入分析和研究后,本文根据Apriori算法的不足,提出了一种改进策略,从而得到一种优化的Apriori算法.最后,对频繁项集挖掘算法的发展方向进行了初步的探讨.  相似文献   

17.
Mining association rules plays an important role in data mining and knowledge discovery since it can reveal strong associations between items in databases. Nevertheless, an important problem with traditional association rule mining methods is that they can generate a huge amount of association rules depending on how parameters are set. However, users are often only interested in finding the strongest rules, and do not want to go through a large amount of rules or wait for these rules to be generated. To address those needs, algorithms have been proposed to mine the top-k association rules in databases, where users can directly set a parameter k to obtain the k most frequent rules. However, a major issue with these techniques is that they remain very costly in terms of execution time and memory. To address this issue, this paper presents a novel algorithm named ETARM (Efficient Top-k Association Rule Miner) to efficiently find the complete set of top-k association rules. The proposed algorithm integrates two novel candidate pruning properties to more effectively reduce the search space. These properties are applied during the candidate selection process to identify items that should not be used to expand a rule based on its confidence, to reduce the number of candidates. An extensive experimental evaluation on six standard benchmark datasets show that the proposed approach outperforms the state-of-the-art TopKRules algorithm both in terms of runtime and memory usage.  相似文献   

18.
一种高效的基于采样的关联规则挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
在事务数据集中发现项目间的关联规则是数据挖掘的一个经典问题,但传统的关联规则挖掘方法对于大事务数据集而言,执行效率相对较低。已经有研究表明,采样技术能有效地改善挖掘效率。在分析现有采样方法的基础上,提出了一种新的基于采样的高效关联规则挖掘算法ESMA。该算法采用了更加有效的双向采样策略。通过实验分析表明,该算法明显地加快了大事务数据库中采样的速度,从而降低了CPU时间,而且具有很好的可扩展性。  相似文献   

19.
崔建  李强  杨龙坡 《计算机科学》2011,38(4):216-220
为进一步解决对大型事务数据库进行关联规则挖掘时产生的CPU时间开销大和I/O操作频繁的问题,给出了一种基于垂直数据分布的改进关联规则挖掘算法,称为VARMLDb算法。该算法首先有效地把数据库分为内存可以满足要求的若干划分,然后结合有向无环图和垂直数据形式diffse、差集来存储和计算频繁项集,极大地减少了存储中间结果所需的内存大小,解决了传统垂直数据挖掘算法对稠密数据库挖掘效率低下的问题,使该算法可有效地适用于大型稠密数据库的关联规则挖掘。整个算法吸取CARMA算法的优势,只需扫描两次数据库便可完成挖掘过程。实验结果表明该算法是正确的,在大型稠密数据库中,VARMLDb算法具有较高的执行效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号