首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
纪怀猛 《计算机工程》2013,(11):183-186
捕要:Apriori算法在关联规则挖掘过程中需要多次扫描事务数据库,产生大量候选项目集,导致计算量过大。为解决该问题,提出一种基于频繁2项集支持矩阵的Apriori改进算法,通过分析频繁k+1项集的生成机制,将支持矩阵与频繁2项集矩阵相结合实现快速剪枝,并大幅减少频繁k项集验证的计算量。实验结果表明,与Apriori算法和ABTM算法相比,改进算法明显提高了频繁项集的挖掘效率。  相似文献   

2.
关联规则挖掘Apriori算法的改进与实现   总被引:11,自引:2,他引:11  
陈文庆  许棠 《微机发展》2005,15(8):155-157
Apriori算法是关联规则挖掘的一个经典算法,提高Apriori算法关联规则挖掘效率的关键是减少候选集的数量。通过分析、研究该算法的基本思想,文中提出利用Hash表存储技术对该算法进行改进,通过删除项Hash表来减少生成候选集的数量,从而提高算法的效率。实验结果表明,该改进算法能有效地提高关联规则挖掘的效率。  相似文献   

3.
随着物联网技术的飞速发展,数据采集手段迅速增加,对海量数据分析与处理的需求也愈加强烈。关联规则挖掘算法通过数据之间的关联分析,挖掘出数据之间的隐含关系,进而获得了大量应用。在众多的关联规则算法中,传统的Apriori算法虽然得到了大量应用,但是因为该算法产生大量的候选集,而且需要多次对数据库进行扫描,导致该算法的运行效率大大降低。为了克服Apriori算法的以上缺点,通过数据压缩的方法减少了数据库扫描次数的同时,对生成的候选集进行了多次验证,大大减少了无效候选集的数量。大量的数据挖掘实验证明提出的改进算法可以在正确挖掘数据集关联规则的同时,大大提高了算法的运行效率。  相似文献   

4.
在关联规则挖掘算法中,Apriori由于多次对数据库进行扫描会产生较多的候选集,在多次扫描数据库的情况下容易产生I/O开销问题,并引起数据挖掘效率低.矩阵关联规则在数据挖掘过程中没有删除非频繁项集,致使存在较多的无效扫描,对于挖掘效率的提高也不明显.该文提出了一种改进的矩阵和排序索引关联规则数据挖掘算法,首先,删除不需...  相似文献   

5.
王明  宋顺林 《计算机应用》2010,30(9):2332-2334
发现频繁项集是关联规则挖掘的主要途径,也是关联规则挖掘算法研究的重点。关联规则挖掘的经典Apriori算法及其改进算法大致可以归为基于SQL和基于内存两类。为了提高挖掘效率,在仔细分析了基于内存算法存在效率瓶颈的基础上,提出了一种发现频繁项集的改进算法。该算法使用了一种快速产生和验证候选项集的方法,提高了生成项目集的速度。实验结果显示该算法能有效提高挖掘效率。  相似文献   

6.
大数据时代,人们获取所需信息的困难度提高,而数据挖掘是当下解决此问题的关键技术。Apriori算法作为数据挖掘中的常用算法,通过挖掘数据背后的潜在关联规则。考虑到传统Apriori算法执行过程中,数据扫描频繁、候选集获取繁琐等问题,提出采用加权Apriori算法,即将冗余记录存储一次,并将记录的重复次数占全部记录数的比值作为权重,压缩空间;采用二进制的布尔矩阵替代原有数据集,通过矩阵内部“与运算”,获取最大频繁集,降低时间复杂度。考虑到原始数据冗余性以及粗糙集属性约简的不精确性,在提取关联规则前,提出采用多粒度粗糙集的属性约简算法,通过知识粒度细化属性值来提高约简精度,降低空间复杂度。最后,将所提方法与基于频繁矩阵的Apriori算法以及原始Apriori算法进行比较,验证所提方法的实用性和有效性。  相似文献   

7.
针对Apriori算法进行多值属性关联规则挖掘时效率低下的问题,提出量化Apriori算法.利用多值属性数据特点改变项集存储格式,采用类似矩阵的数据结构存储项集,提高遍历数据库时统计计数的速度,使用类似矩阵的加法运算改进连接操作,减少无效候选项集的产生.实验结果表明,相比Apriori算法,该算法执行效率有较大提高.  相似文献   

8.
赵艳芹  孙昌立 《计算机应用》2009,29(5):1477-1479
针对Apriori关联规则算法需要多次扫描事务数据库及产生的候选集庞大的瓶颈问题,提出一种不产生候选项目集,即可产生项目集的新算法,对数据的处理次数大大减少,提高了挖掘效率。并结合在儿童培训机构客户关系管理(CRM)中客户选择的培训内容的具体应用分析,阐明了基于Apriori改进算法的CRM数据挖掘对于儿童培训机构增强竞争优势的重要意义。  相似文献   

9.
挖掘关联规则是目前数据挖掘领域热点研究话题之一。它的目的在于在数据库中挖掘有趣的关联规则。在关联规则分析及Apriori算法分析上,针对Apriori算法的瓶颈问题,许多有效的改进算法被提出。文中提出了QPCA算法。该算法利用矩阵分析的方法,仅需要扫描数据库一次,同时此算法优化了连接和剪枝操作,通过快速的剪枝和连接可以很快地获取最少的候选项集,避免了频繁项集之间的重复判断连接,因此大大提高了算法的效率。实验结果表明,该算法在挖掘时间上有很大提高。  相似文献   

10.
关联规则和分类规则挖掘算法的改进与实现   总被引:5,自引:0,他引:5  
陶树平  屠颖 《计算机工程》2003,29(15):100-101,187
对Apriori关联规则挖掘算法提出了一种改进方法,使其可以有效地压缩数据规模,提高了原Apriori算法的执行效率。此外,还对OCI分类规则挖掘算法提出了改进,扩展了该算法的适用范围。同时,该采用这两个改进算法实现了一个数据挖掘原型系统。  相似文献   

11.
基于粗糙集的关联规则挖掘方法   总被引:1,自引:0,他引:1  
对粗糙集进行了相关研究,并提出一种以粗糙集理论为基础的关联规则挖掘方法,该方法首先利用粗糙集的特征属性约简算法进行属性约简,然后在构建约简决策表的基础上应用改进的Apriori算法进行关联规则挖掘。该方法的优势在于消除了不重要的属性,减少了属性数目和候选项集数量,同时只需一次扫描决策表就可产生决策规则。应用实例及实验结果分析表明该方法是一种有效而且快速的关联规则挖掘方法。  相似文献   

12.
Apriori算法是经典的频繁项目集生成算法,在数据挖掘界起着里程碑的作用。但是该算法要求多次扫描可能非常大的交易数据库。文章在Apriori算法的基础上,提出了一种改进的关联规则挖掘算法-GBARM。该算法能够使得每次扫描的事务数大大减少,并且能够逐步减小候选k-项集的规模,从而改善算法的性能。  相似文献   

13.
针对传统平台运行Apriori算法来挖掘中医病案中用药组合规律时,存在着占用内存空间大、计算效率低和PB级数据无法处理等问题,提出基于Hadoop的中医哮喘用药组合关联分析方法。采用Mapreduce分布式计算框架和HBase分布式数据库优化Apriori算法性能:一方面使用Mapreduce计算框架并行处理数据,借助HBase高速读写数据的特性,加速频繁项集的产生;另一方面摒弃传统算法中的自连接产生候选项集方式,对每个节点上的数据,使用循环和递归相结合的方式产生候选集,提高候选集产生的效率。实验结果证明,借助基于Hadoop的中医哮喘用药组合关联分析方法挖掘中医药组合规律,效率更高,能更有效地指导临床实践。  相似文献   

14.
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一.在对关联规则挖 掘中基于Apriori算法的改进算法进行深入分析和研究后,本文根据Apriori算法的不足,提出了一种改进策略,从而得到一种优化的Apriori算法.最后,对频繁项集挖掘算法的发展方向进行了初步的探讨.  相似文献   

15.
本文基于路面评价指标中车辙深度指数和行驶质量指数来评价路面的损坏情况,使用关联规则挖掘环境、交通、路面等影响因素与路面状况之间的关联程度.针对关联规则Apriori算法复杂度和耗时的缺点,提出一种不生成候选集的方法来产生频繁集的改进Apriori算法,并通过实验对比证明改进的Apriori算法能够有效提升速度和性能.使用改进的Apriori算法分析路面评价指标及其影响因素之间的强关联规则,得到不同环境路面损坏的主要成因.本文结论能够对路面养护提供科学可靠的支持,可为路面养护部门提供合理的养护建议与数据支撑.  相似文献   

16.
赵月  任永功  刘洋 《计算机科学》2017,44(6):250-254
随着移动通信和互联网技术的迅猛发展,如何高效地分析移动用户的需求并及时推送有用信息成为数据挖掘领域的热点之一。针对上述问题,提出一种基于云计算Hadoop平台的分布式关联规则MRS-Apriori算法。该方法在经典Apriori算法的基础上优化了数据库编码规则,增加了判断标记Judgemark来判断事务项是否频繁,提高了MRS-Apriori算法在连接时扫描数据库的效率。在编码的基础上,采用Hadoop平台下的MapReduce编程框架模型实现并行化处理,提高了迭代时连接步骤的效率,降低了大规模数据样本运算的时间开销。实验结果表明,改进的MRS-Apriori算法可以有效地减少运算时间,在处理大规模数据集上具有较高的准确性。  相似文献   

17.
基于矩阵压缩的Apriori算法改进的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
Apriori算法是利用关联规则进行数据挖掘的一种经典算法,但其具有产生大量候选项集和多次扫描数据库的缺点。鉴于此,提出了一种基于压缩矩阵的Apriori改进算法,通过扫描一次数据库,将其转化为布尔事务矩阵,按照相关性质对事务矩阵进行压缩,以减少算法的运算量。实验结果表明,改进算法在性能上得到了明显提高。  相似文献   

18.
传统的Apriori算法要多次扫描数据集,随着数据量的快速增长,传统的Apriori算法已经不能很好地适用于大数据分析,针对该情况设计了IPApriori算法。首先通过剪枝策略设计了一种适用于多维数据的IApriori算法,再将IApriori算法与Hadoop分布式框架相结合,实现了多维关联规则挖掘算法的并行化。将IPApriori算法运用到手机用户行为预测关联分析中,分析影响手机用户行为的一些主要因素,挖掘出手机用户行为与年龄维度、性别维度、时间维度、地点维度和手机品牌维度属性之间可能存在的某种关联。最后通过实验证明,算法的并行化和建立结构的方法可以降低系统的I/O负荷,提高算法的执行效率。  相似文献   

19.
Apriori算法在红外光谱数据挖掘中的应用   总被引:1,自引:0,他引:1  
简要地介绍了在大规模数据库中挖掘关联规则的Apriori算法 ,给出了红外光谱数据库知识发现的空间表示方法 ,并根据红外光谱数据挖掘的特点改进了Apriori算法中支持度的计算与频繁集的确定过程 ,运用统计方法把挖掘结果形成可视的特征谱带 -化学基团规则式 ,通过具体的挖掘事例对挖掘结果进行分析与评价。挖掘出的规则式和波谱分析理论比较结果证明了挖掘结果的正确性 ,说明改进过的Apriori算法挖掘红外光谱数据库的有效性  相似文献   

20.
赵静 《电脑开发与应用》2012,25(7):16-17,20
A priori算法是经典的关联规则挖掘算法,它利用逐层搜索的迭代方法完成频繁模式的挖掘工作,反复进行连接剪枝操作,思路简单易操作,但也伴随着产生庞大候选集,多次扫描数据库产生巨大I/O开销的问题,提出一种改进算法:基于矩阵的关联规则挖掘算法,同A priori算法比较,该算法只需扫描一遍数据库,就可直接查找k-频繁项集,尤其是当频繁项集较高的时候,该算法具有更高的执行效率,在大数据量的情况下更具有可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号