首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
关联规则是数据挖掘的主要技术之一,是指从一个大型的数据集中发现有趣的关联或相关关系,即从数据集中识别出频繁项集,然后再利用这些频繁集创建描述关联规则的过程.频繁项集挖掘是关联规则挖掘的主要步骤,在频繁项集挖掘中,需要大量进行两个操作:判断两个k-项集是否是前k-1项相同且最后一项不同,即连接步;判断一个项集是否为另一个项集的子集,即剪枝步,通过减少连接操作和剪枝操作的循环次数,以此来提高Apriori算法的效率.  相似文献   

2.
布尔类型关联规则挖掘中,有两个需要反复执行的操作:判断一个项集是否为另一个项集的子集;判断两个等势项集是否只相差最后一项。对于这两个操作,使用传统的方法需要进行多次匹配,算法的效率不高。提出了一种表示项集的新方法-整数表示,两个操作均只需要一次处理,效率明显提高,从而对整个挖掘算法的效率有了明显的改善。  相似文献   

3.
针对Apriori算法中I/O负载大和减枝过程中生成大量中间结果两个性能瓶颈问题,提出了一种事务矩阵和项集矩阵的Apriori改进算法.算法的基本思想是:扫描数据库生成事务矩阵,通过事务矩阵和项集矩阵之间的运算代替Apriori算法中的数据库扫描得到频繁项集,减少I/O负载,加快候选项集的验证速度;通过对频繁项集矩阵的操作,减少生成候选频繁项集的数目,避免Apriori算法减枝步骤中对候选项集的分解和判断.通过仿真验证了改进算法的有效性.  相似文献   

4.
一种基于单事务项集组合的频繁项集挖掘算法   总被引:2,自引:0,他引:2  
曾波 《计算机科学》2008,35(1):196-197
Apriori是挖掘频繁项集的基本算法,目前该算法及其优化变种都没有解决候选项及重复扫描事务数据库的问题.文章通过对Apriori及其优化算法的深入探究,提出了一种基于单事务组合项集的挖掘算法,该算法在一个事务内部对"数据项"进行组合,在事务数据库中对所有相同"项集"进行计数.不经过迭代过程,不产生候选项集,所有频繁项集的挖掘过程只需对事务数据库一次扫描,提高了频繁项集挖掘效率.  相似文献   

5.
一种结合完全连接的改进Apriori算法   总被引:4,自引:0,他引:4  
骆嘉伟  王艳  杨涛  吴君浩 《计算机应用》2006,26(5):1174-1177
基于Apriori算法原理,提出一种有效的完全连接条件,在频繁2k-项集的集合L2k进行自身Apriori连接得频繁(2k+1)-项集的同时,自身完全连接产生未剪枝的候选4k-项集;对频繁(2k+1)-项集的集合L2k+1,直接对其项集进行完全连接产生未剪枝的候选(4k+2)-项集。改进的算法减少了连接的比较次数、迭代运算次数。实验表明该算法在保证无遗漏的情况下有效地提高了Apriori算法的挖掘速度。  相似文献   

6.
基于粗糙集的改进Apriori算法研究   总被引:1,自引:0,他引:1  
崔旭  刘小丽 《计算机仿真》2013,30(1):329-332,385
针对Apriori算法的不足,提出一种基于粗糙集的频繁项集发现方法。新方法首先利用粗糙集的特征属性约简算法进行属性约简,找到其中的核心属性数据,然后在构建约简决策表的基础上应用改进的Apriori算法对这些核心数据进行数据挖掘,最终得到频繁项集。改进方法的优势在于在保证知识库分类能力不变的前提下消除不必要的冗余属性,减少了属性数目。在生成频繁项目集方面,根据k-1频繁项集中的项目个数来确定是否生成对应的k-候选集,这样就不需要进行连接操作生成k-候选集,减少了候选项集的生成数量。实验验证了所提出的改进算法的有效性,尤其在k很大的时候,可以节省大量的计算时间,避免产生大量的候选集,可显著提高数据挖掘的效率。  相似文献   

7.
基于向量和矩阵的频繁项集挖掘算法研究   总被引:1,自引:0,他引:1  
为了能快速、高效地从事务数据库中挖掘所有的频繁项集,提出了一种基于向量和矩阵的VMA高效算法.该算法只需扫描数据库一次,将事物数据库转化到布尔向量中,对频繁1-项集按支持度大小进行非递减排序,排序后在很大程度上减少了用于扩展的k-项集(k>2),生成一个2-项集支持度矩阵,由频繁k-项集(k≥2)扩展生成频繁(k+1)-项集.大量实验结果表明,VMA算法的性能不但明显优于Apriori算法,而且适应于大型事务数据库中频繁项集挖掘.  相似文献   

8.
通过对Apriori算法的研究和分析,结合算法存在的缺陷,利用"桶"技术及压缩组合项集技术,对频繁项集提出了前缀概念,并提出了基于前缀的频繁项集挖掘算法。该算法将具有同一前缀的频繁项集的子集合作为一个节点,由频繁k-项集的子集合直接产生候选(k+1)-项集,从而省略了连接步中判断I1、I2是否能连接。同时,该算法使得整个程序中节点数目减少,这样不仅减少了内存消耗,而且提高了查找Ck和Lk的速度,尤其便于大型数据库的分布式处理。经实验证实,改进后的算法是可行的。  相似文献   

9.
频繁项集挖掘中的两种哈希树构建方法   总被引:1,自引:0,他引:1  
1 引言从大型数据库中发现频繁项集/模式的研究作为关联规则、序贯模式、因果关系、最大模式、多维模式等挖掘问题的核心,已经成为近年数据挖掘领域的研究热点,并有不少有效的挖掘算法被提出。在这些挖掘算法中,它们大多数都采用了类似于Apriori算法的方法进行频繁项集的挖掘与更新。类Apriori算法的共同特点是:为了找出库中所有包含k(k>1)个项的频繁k-项集,首先产生包含频  相似文献   

10.
 Apriori算法在搜索频繁项集过程中,通常需要对数据库进行多次的重复扫描和产生大量无用的候选集,针对此问题提出一种基于矩阵约简的Apriori改进算法。该算法只需扫描一次数据库,将数据库信息转换成布尔矩阵,根据频繁k-项集的性质推出的结论来约简数据结构,有效地降低无效候选项集的生成规模。通过对已有算法的对比,验证该算法能有效地提高挖掘频繁项集的效  相似文献   

11.
在对Apriori算法分析的基础上,针对该算法存在的两个缺陷,即多次扫描事务数据库和产生大量的候选数据集,提出了改进的Apriori算法。改进后的算法采用矩阵表示数据库,只扫描1次数据库,改变由低维频繁项目集到高维频繁项目集的多次连接运算,直接从高阶项目集着手寻找最大频繁项目集,从而提高了运算效率。  相似文献   

12.
提出一种利用汉字机内编码特点的相似重复记录相似度计算算法,并对Apriori算法进行了改进。利用改进后的Apriori算法获取数据库记录的频繁集,消除进行比较记录的共有项,有效提高相异字符的计算权重,提高相似度计算的准确性。在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值。  相似文献   

13.
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分。现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有效性。实际上,聚类的有效性取决于结构有效性、算法有效性和先验有效性3个方面的因素。基于这种考虑,提出了一种变体混合模型的聚类结构假设,以及判定聚类结构的稳定性的度量和方法,在算法有效的前提下通过单簇的分裂与合并来改进聚类结构的稳定性,并得到最终聚类结果,设计并实现了SMClus聚类算法,通过对模拟数据和真实数据的聚类实验,例证了方法的有效性。  相似文献   

14.
Detecting Race Conditions in Parallel Programs that Use Semaphores   总被引:1,自引:0,他引:1  
Klein  Netzer  Lu 《Algorithmica》2003,35(4):321-345
We address the problem of detecting race conditions in programs that use semaphores for synchronization. Netzer and Miller showed that it is NP-complete to detect race conditions in programs that use many semaphores. We show in this paper that it remains NP-complete even if only two semaphores are used in the parallel programs. For the tractable case, i.e., using only one semaphore, we give two algorithms for detecting race conditions from the trace of executing a parallel program on p processors, where n semaphore operations are executed. The first algorithm determines in O(n) time whether a race condition exists between any two given operations. The second algorithm runs in O( np log n) time and outputs a compact representation from which one can determine in O(1) time whether a race condition exists between any two given operations. The second algorithm is near-optimal in that the running time is only O( log n) times the time required simply to write down the output.  相似文献   

15.
Apriori算法是关联规则中挖掘频繁项目集的典型算法。在Apriori算法的基础上,利用关系数据库管理系统的强大功能和SQL语言操作简单,效率高的特点,提出了基于SQL的Apriori算法。该算法实现简单快速,可有效缩小扫描数据库的大小。将该算法应用于经过数据预处理的Web日志文件数据库,实验结果显示谊算法是有效的。  相似文献   

16.
关联规则挖掘中若干关键技术的研究   总被引:36,自引:0,他引:36  
Apriori类算法已经成为关联规则挖掘中的经典算法,其技术难点及运算量主要集中在以下两个方面:①如何确定候选频繁项目集和计算项目集的支持数;②如何减少候选频繁项目集的个数以及扫描数据库的次数.目前已提出了许多改进方法来解决第2个问题,并已取得了很好的效果.然而,对于第1个问题,仍沿用Apriori算法中的解决方案,其运算量是较大的.为此,提出了一种基于二进制形式的候选频繁项目集生成和相应的计算支持数算法,该算法只需对挖掘对象进行一些“或”、“与”、“异或”等逻辑运算操作,显著降低了算法的实现难度,将该算法与Apriori类算法相结合,可以进一步提高算法的执行效率,实验结果也表明算法是有效、快速的.  相似文献   

17.
高频规则发现作为关联规则发现的子问题,在许多重要的教据挖掘领域中起着关键的作用。经典的高频规则发现算法是一个多次遍历的算法,计算的复杂度较高。对高频规则算法的关键思想以及性能进行了研究,给出了高频规则发现算法Apriori的改进算法,并应用于大学生个性分析。该算法有效地提高了原算法的性能,对Apriori算法的各种变形同样适用。  相似文献   

18.
提出了一种基于压缩矩阵运算的电信告警关联规则挖掘算法.它解决了apriori等算法需多次扫描数据库的问题,通过扫描告警事务库并进行压缩变换得到压缩告警关联矩阵,对关联矩阵进行运算得到告警间的关联规则.仿真实验证明,该算法与apriori等算法相比,时间效率有了明显提高,同时有效节约了存储空间.  相似文献   

19.
数据库关联规则挖掘算法研究   总被引:1,自引:0,他引:1  
该文介绍了数据挖掘、关联规则相关概念,分析了经典的挖掘布尔关联规则频繁项集的算法-Apriori算法,阐述了关联规则的生成过程,并通过实例进行验证。针对Apriori算法的缺陷进行了分析并列举了几种算法优化方法。  相似文献   

20.
Klein  Netzer  Lu 《Algorithmica》2008,35(4):321-345
Abstract. We address the problem of detecting race conditions in programs that use semaphores for synchronization. Netzer and Miller showed that it is NP-complete to detect race conditions in programs that use many semaphores. We show in this paper that it remains NP-complete even if only two semaphores are used in the parallel programs. For the tractable case, i.e., using only one semaphore, we give two algorithms for detecting race conditions from the trace of executing a parallel program on p processors, where n semaphore operations are executed. The first algorithm determines in O(n) time whether a race condition exists between any two given operations. The second algorithm runs in O( np log n) time and outputs a compact representation from which one can determine in O(1) time whether a race condition exists between any two given operations. The second algorithm is near-optimal in that the running time is only O( log n) times the time required simply to write down the output.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号