首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
为了进一步降低扫描数据库的次数和减轻内存负担,从而更好地提高挖掘频繁项集的效率,一种基于Apriori的优化算法(M-Apriori)被提出. 该方法通过构建频繁状态矩阵来存放项集的频繁状态,构建事务布尔矩阵来存放事务与项集的关系,此算法只需在初始化阶段扫描一次数据库产生初始的频繁状态矩阵和事务布尔矩阵,并在此基础上直接递推产生所有的频繁项集. 实验证明,与Apriori算法相比,M-Apriori算法具有更好的性能与效率.  相似文献   

2.
提出一种下三角矩阵的最大频繁项挖掘算法DTMFIM,首先将事务数据库映射到一个布尔矩阵中,并产生频繁1-项集,然后根据频繁1-项集生产频繁2-项集,且对其结果用下三角的布尔矩阵存储,最大频繁项集可通过这个下三解矩阵求得,在求解过程中不断地压缩这个下三角矩阵.实验表明,此算法实现简洁、高效,与经典的Apriori算法及部分Apfiori改进算法相比,特别对大事务集、长项目集数据挖掘效果更为明显.  相似文献   

3.
基于向量内积的非频繁项挖掘算法研究   总被引:1,自引:0,他引:1  
针对负关联规则中非频繁项集的生成问题,将向量内积引入到该领域.通过对事务数据库的布尔化表示及对数据存储结构的合理分配,提出了一种新的非频繁项集快速生成算法.该算法首先将布尔化所得矩阵中的向量进行内积运算,通过逐层递增的思想,用两级支持度模型来约束非频繁项集与频繁项集的产生,使非频繁项集不仅可由频繁项集之间连接产生,而且...  相似文献   

4.
数据挖掘中的关联分析技术旨在发现大量数据项集之间有趣的关联关系,其核心问题是寻找频繁项集。针对传统的基于矩阵的关联挖掘算法中矩阵规模和事务数据库大小相关,在处理超大型事务数据库时,仍会存在内存瓶颈的问题,提出了一个矩阵规模和事务数据库大小无关、通过矩阵约束预挖掘后验证的频繁项集发现算法。实验结果显示,该算法提高了频繁项集的挖掘速度。  相似文献   

5.
基于向量和矩阵的频繁项集挖掘算法研究   总被引:1,自引:0,他引:1  
为了能快速、高效地从事务数据库中挖掘所有的频繁项集,提出了一种基于向量和矩阵的VMA高效算法.该算法只需扫描数据库一次,将事物数据库转化到布尔向量中,对频繁1-项集按支持度大小进行非递减排序,排序后在很大程度上减少了用于扩展的k-项集(k>2),生成一个2-项集支持度矩阵,由频繁k-项集(k≥2)扩展生成频繁(k+1)-项集.大量实验结果表明,VMA算法的性能不但明显优于Apriori算法,而且适应于大型事务数据库中频繁项集挖掘.  相似文献   

6.
一种基于关系数据库的频繁项集挖掘算法   总被引:3,自引:0,他引:3  
王治和 《计算机科学》2006,33(9):159-160
频繁项集的挖掘是数据挖掘中的一个十分重要的组成部分,目前对于事务数据库频繁项集的挖掘算法研究较多。本文根据事务数据库中布尔型频繁项集挖掘的理论和方法,再结合关系数据库的特殊性,利用标准SQL语言提出了一种新的在关系数据库中挖掘频繁项集的简易算法。实验证明该算法具有较高的效率。  相似文献   

7.
向量法关联规则挖掘在冠心病诊断中的应用   总被引:1,自引:1,他引:0       下载免费PDF全文
针对传统关联规则频繁项集生成效率较低的问题,提出一种改进的基于向量法的数据关联规则挖掘算法。该算法只需扫描一次事务数据库即可完成布尔矩阵的转换,通过向量运算完成频繁项集的查找,减少候选频繁项集的生成。在冠心病中医诊断中的应用结果表明,该算法可有效提取冠心病中医辨证规则。  相似文献   

8.
基于布尔矩阵的关联规则算法研究*   总被引:2,自引:1,他引:1  
针对可快速在大型交易事务数据库中挖掘关联规则的问题,基于布尔矩阵提出一种新的挖掘算法。该算法通过仅需存储布尔位节约了内存,通过简单布尔运算提高了求解频繁项集的效率。实验证明该算法较之于Apriori 算法有更好的性能。  相似文献   

9.
针对Apriori算法中I/O负载大和减枝过程中生成大量中间结果两个性能瓶颈问题,提出了一种事务矩阵和项集矩阵的Apriori改进算法.算法的基本思想是:扫描数据库生成事务矩阵,通过事务矩阵和项集矩阵之间的运算代替Apriori算法中的数据库扫描得到频繁项集,减少I/O负载,加快候选项集的验证速度;通过对频繁项集矩阵的操作,减少生成候选频繁项集的数目,避免Apriori算法减枝步骤中对候选项集的分解和判断.通过仿真验证了改进算法的有效性.  相似文献   

10.
针对Apriori算法在数据挖掘过程中需要产生大量的候选集及重复扫描事务数据库等不足,本文基于事务数据库的布尔映射矩阵,提出一种仅需一次扫描数据库的方法。该方法不需要产生候选项集,通过矩阵行交、列交运算及相似度矩阵行交运算,按照项目维度由大到小的反向迭代方法即可发现频繁项集的布尔映射矩阵改进算法(BMM_IA)。研究与实验表明,改进算法节省内存开销、运算速度快,为关联规则挖掘研究与应用提供了新路径。  相似文献   

11.
一种基于矩阵的频繁项集更新算法*   总被引:2,自引:0,他引:2  
针对相关算法在处理频繁项集更新时所存在的问题,提出了一种基于矩阵的频繁项集更新算法。该算法首先以时间为基准将更新后的数据库分为原数据库和新增数据库,分别将它们转换为0-1矩阵,通过矩阵裁剪、位运算产生新增频繁项集,并利用已有频繁项集更新原有频繁项集。实验仿真结果不但证明了该算法的可行性和高效性,而且还证明了它适合大型、稠密性数据库的频繁项集更新。  相似文献   

12.
挖掘空间关联规则的前缀树算法设计与实现   总被引:5,自引:0,他引:5       下载免费PDF全文
空间关联规则挖掘是在空间数据库中进行知识发现的一类重要问题.为此提出了挖掘空间关联规则的二阶段策略,通过多轮次单层布尔型关联规则挖掘,自顶向下逐步细化空间谓词的粒度,从而空间谓词的计算量大大减少.同时,设计了一种基于前缀树的单层布尔型关联规则挖掘算法(FPT-Generate),不需要反复扫描数据库,不产生候选模式集,并在关键优化技术上取得了突破.实验表明,以FPT-Generate为挖掘引擎的空间关联规则发现系统的时间效率与空间可伸缩性远远优于以经典算法Apriori为引擎的系统。  相似文献   

13.
建立了一种基于定位和权值事务项集的挖掘算法,该算法只需扫描一遍事务数据库.利用垂直型布尔矩阵来存储交易数据,通过“与”运算与权值来计算计算支持度,利用定位搜索和合并事务矩阵相同列来剪枝,从而减少了算法在挖掘过程中使用的存储空间和计算时间.实验结果表明,改进算法在性能上得到了的明显提高.  相似文献   

14.
针对 Apriori 算法在频繁项集自连接中产生大量的候选项集以及多次扫描数据库的不足,提出了一种改进的算法,该算法将数据库映射到一个布尔矩阵中,在矩阵列向量进行“与”运算之后,删除那些没有意义的项和记录,改进的算法在时间复杂度和空间复杂度上都有很大的提高。将改进的算法运用到社交网络好友推荐算法中,将网络社交平台中用户关注的用户和信息作为记录,将关注的用户作为交易项,构建交易数据库,计算频繁2项集,推荐按支持数排序的前N位用户作为好友。通过实验验证,改进的算法在社交网络好友推荐中具有较高的准确率和召回率。  相似文献   

15.
崔建  李强  杨龙坡 《计算机科学》2011,38(4):216-220
为进一步解决对大型事务数据库进行关联规则挖掘时产生的CPU时间开销大和I/O操作频繁的问题,给出了一种基于垂直数据分布的改进关联规则挖掘算法,称为VARMLDb算法。该算法首先有效地把数据库分为内存可以满足要求的若干划分,然后结合有向无环图和垂直数据形式diffse、差集来存储和计算频繁项集,极大地减少了存储中间结果所需的内存大小,解决了传统垂直数据挖掘算法对稠密数据库挖掘效率低下的问题,使该算法可有效地适用于大型稠密数据库的关联规则挖掘。整个算法吸取CARMA算法的优势,只需扫描两次数据库便可完成挖掘过程。实验结果表明该算法是正确的,在大型稠密数据库中,VARMLDb算法具有较高的执行效率。  相似文献   

16.
关联规则挖掘算法介绍   总被引:6,自引:0,他引:6  
数据挖掘是一个多学科交叉融合而形成的新兴的学科,它利用各种分析工具在海量数据中发现模型和数据间的关系。而在大规模事务数据库中,挖掘关联规则是数据挖掘领域的一个非常重要的研究课题。文中介绍了关联规则挖掘的研究情况,描述了经典Apriori算法的实现,并对该算法进行了分析和评价,指出了其不足和原因。描述了FP树挖掘最大频繁项集的算法,通过实例对该算法进行了性能评估,并得到结论:数据库中潜在的最大频繁模式越多,运行时间越长。  相似文献   

17.
In standard frequent item set mining a transaction supports an item set only if all items in the set are present. However, in many cases this is too strict a requirement that can render it impossible to find certain relevant groups of items. By relaxing the support definition, allowing for some items of a given set to be missing from a transaction, this drawback can be amended. The resulting item sets have been called approximate, fault-tolerant or fuzzy item sets. In this paper we present two new algorithms to find such item sets: the first is an extension of item set mining based on cover similarities and computes and evaluates the subset size occurrence distribution with a scheme that is related to the Eclat algorithm. The second employs a clustering-like approach, in which the distances are derived from the item covers with distance measures for sets or binary vectors and which is initialized with a one-dimensional Sammon projection of the distance matrix. We demonstrate the benefits of our algorithms by applying them to a concept detection task on the 2008/2009 Wikipedia Selection for schools and to the neurobiological task of detecting neuron ensembles in (simulated) parallel spike trains.  相似文献   

18.
一种基于单事务项集组合的频繁项集挖掘算法   总被引:2,自引:0,他引:2  
曾波 《计算机科学》2008,35(1):196-197
Apriori是挖掘频繁项集的基本算法,目前该算法及其优化变种都没有解决候选项及重复扫描事务数据库的问题.文章通过对Apriori及其优化算法的深入探究,提出了一种基于单事务组合项集的挖掘算法,该算法在一个事务内部对"数据项"进行组合,在事务数据库中对所有相同"项集"进行计数.不经过迭代过程,不产生候选项集,所有频繁项集的挖掘过程只需对事务数据库一次扫描,提高了频繁项集挖掘效率.  相似文献   

19.
数据挖掘是从数据库中发现潜在有用知识或者感兴趣模式的过程。在数据挖掘领域中主要集中于单一支持度下的关联规则挖掘,在事务数据库中发现项目之间的关联性,而在实际应用中,项目可以有不同的最小支持度,不同的项目可能具有不同的标准去判断其重要性,因此提出一个在最大值支持度约束下,发现有用的模糊关联规则挖掘算法,在该约束下,利用逐层搜索的迭代方法发现频繁项目集,通过实例证明了该挖掘算法是易于理解和有意义的,具有很好的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号