首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 546 毫秒
1.
崔贤岳  李际军 《计算机工程》2007,33(14):283-285
基于FAS算法,设计并实现了一个基于最近挖掘结果的数据挖掘系统AR_Miner,包括数据预处理、频繁集初始计算、频繁集更新计算、频繁集选择、关联规则生成5个部分,实现了关联规则挖掘的可视化和生成结果按“支持度-可信度”形式的可视化,为基于频繁集的交互式挖掘提供了方便、友好的界面。对历史的稽查数据中纳税人采用的主要违法违章手段之间的关联关系进行了数据挖掘,得到了一些合理的知识,提高了对稽查历史数据的管理水平,为税务稽查提供了有力的决策支持。  相似文献   

2.
董林  舒红  李莎 《计算机应用研究》2013,30(8):2330-2333
为简化空间频繁模式挖掘的预处理步骤并提高挖掘效率, 提出一种可以直接以空间矢量和栅格图层作为输入的挖掘算法FISA(fast intersect spatial Apriori)。该算法利用图层求交和面积计算操作实现谓词集支持度计数进而实现频繁谓词集和关联规则挖掘。相对于基于事务空间关联规则挖掘算法, FISA不需要预先进行空间数据事务化处理, 并且所得结果均有对应图层, 便于实现结果的可视化; 相对于其他基于空间分析的挖掘算法, FISA支持空间数据的矢量和栅格格式, 且引入了快速求交方法以保证其可伸缩性。实验结果表明该算法可以直接从空间数据中高效正确地挖掘出频繁模式。  相似文献   

3.
频繁项目集的生成是关联规则挖掘中的关键问题 .提出基于 Hash树的频繁项目集生成新方法 ,探讨了 Hash树中候选项目集的数据组织与建立算法 ,提出了利用 Hash树计算候选项目集支持数的算法 ,并用 Java语言实现了该算法 ,最后通过实验验证了利用 Hash树生成频繁项目集的有效性  相似文献   

4.
一种更新关联规则的方法   总被引:1,自引:0,他引:1       下载免费PDF全文
张宗平 《计算机工程》2008,34(1):64-65,6
数据挖掘中IUA算法存在遗漏频繁项目集致使有的关联规则挖掘不出来的问题,在分析Apriori算法、IUA算法等经典关联规则挖掘算法的基础上,提出了一种基于最近挖掘结果的更新算法HIUA。HIUA算法吸收了Apriori算法和IUA算法的优点,在改变最小支持度和基于最近挖掘结果的条件下,从生成尽可能少的候选项目集考虑,从而得到完整的新频繁项目集,提高了算法的效率。  相似文献   

5.
提出一种基于按序产生子集的关联规则挖掘算法,适合于挖掘长频繁项目集;算法基于自顶向下搜索策略,采用按序产生子集的方法生成频繁候选项,在挖掘过程中减少了冗余候选项和重复计算,提高了挖掘效率。通过模拟实验数据与现有经典挖掘算法进行性能测试比较,结果表明当它挖掘长频繁项目集时不仅快速而且有效。  相似文献   

6.
一种带约束条件的关联规则频繁集挖掘   总被引:2,自引:0,他引:2  
论文先提出顺序单调约束和反顺序单调约束的概念并对其所包含的数学性质进行了讨论,在此基础上将其运用于频繁集挖掘过程中,给出挖掘基于顺序反单调性约束的频繁集算法和挖掘基于顺序单调约束的频繁集算法。带约束条件的关联规则频繁集挖掘可减少生成无意义的规则;同时,在频繁集生成过程,利用约束条件对搜索空间进行修剪,可提高挖掘算法的效率。  相似文献   

7.
纪怀猛 《计算机工程》2013,(11):183-186
捕要:Apriori算法在关联规则挖掘过程中需要多次扫描事务数据库,产生大量候选项目集,导致计算量过大。为解决该问题,提出一种基于频繁2项集支持矩阵的Apriori改进算法,通过分析频繁k+1项集的生成机制,将支持矩阵与频繁2项集矩阵相结合实现快速剪枝,并大幅减少频繁k项集验证的计算量。实验结果表明,与Apriori算法和ABTM算法相比,改进算法明显提高了频繁项集的挖掘效率。  相似文献   

8.
王明  宋顺林 《计算机应用》2010,30(9):2332-2334
发现频繁项集是关联规则挖掘的主要途径,也是关联规则挖掘算法研究的重点。关联规则挖掘的经典Apriori算法及其改进算法大致可以归为基于SQL和基于内存两类。为了提高挖掘效率,在仔细分析了基于内存算法存在效率瓶颈的基础上,提出了一种发现频繁项集的改进算法。该算法使用了一种快速产生和验证候选项集的方法,提高了生成项目集的速度。实验结果显示该算法能有效提高挖掘效率。  相似文献   

9.
Apriori算法在税务系统中的应用   总被引:1,自引:0,他引:1  
为提高对税务稽查历史数据的管理水平,为税务稽查提供有力的决策支持,分析了数据挖掘技术的基础以及税务稽查工作中引入数据挖掘技术的必要性,给出了关联规则挖掘的基本概念,提出了一种改进的Aoriori算法。使用WEKA工具,实现了关联规则挖掘的可视化和生成结果按“支持度-可信度”形式的可视化,为基于频繁集的交互式挖掘提供了方便、友好的界面。对历史稽查数据中纳税人采用的主要违法违章手段之间的关联关系进行了数据挖掘,得到了一些合理的规则,对稽查工作有一定的指导意义。  相似文献   

10.
基于分布数据库的快速关联规则挖掘算法   总被引:8,自引:0,他引:8  
关联规则发现是数据挖掘的重要研究内容,随着数据库中数据的不断增加,大数据集环境下的关联规则发现日益受到重视,分布式关联规则发现是解决这一问题的有效方法。分布式数据库环境下的关联规则挖掘算法中,时间开销主要体现在两方面(:1)频繁项目集的确定;(2)网络的通讯量。为了解决第一个问题,文章提出了一种基于二进制形式的候选频繁项目集生成和相应的计算支持数算法,该算法只需对挖掘对象进行一些”或”、”与”、”异或”等逻辑运算操作,显著降低了算法的实现难度。将该算法与DMA算法相结合提出改进算法FDMA。理论分析和实验结果表明,算法FDMA大大提高了关联规则挖掘的效率,算法是有效可行的。  相似文献   

11.
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。  相似文献   

12.
一种新的动态频繁项集挖掘方法   总被引:1,自引:0,他引:1  
频繁项集挖掘是关联规则挖掘的重要步骤。在数据动态变化的环境下进行关联规则挖掘具有重要的现实意义。提出一种动态频繁项集挖掘算法,该算法建立在前一阶段挖掘的基础上,能避免过多地扫描数据库而影响挖掘性能,在最后生成全局频繁项集时,不需要全程扫描数据库,根据之前挖掘结果有选择地扫描相关的事务子集。实验表明,该算法挖掘性能远远优于Apriori算法,能有效地实现在数据动态变化环境下的挖掘频繁项集。  相似文献   

13.
频繁项集挖掘的研究与进展   总被引:6,自引:0,他引:6  
挖掘频繁项集是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心,所以提高频繁项集的生成效率一直是近几年数据挖掘领域研究的热点之一,研究人员从不同的角度对算法进行改进以提高算法的效率。该文从频繁项集生成过程中解空间的类型、搜索方法和剪枝策略、数据库的表示方法、数据压缩技术等几个方面对频繁项集挖掘的基本策略进行了研究,对完全频繁项集挖掘、频繁闭项集挖掘和最大频繁项集挖掘的典型算法特别是最新算法进行了介绍和评述,并分析了各种算法的性能特点,指出其适于哪种类型的数据集。最后,对频繁项集挖掘算法的发展方向进行了初步的探讨。  相似文献   

14.
秦东霞  姚遥 《电脑学习》2012,2(1):31-34
Web日志挖掘是Web数据挖掘的一个重要研究领域。Web日志挖掘通过发现Web日志中用户的访问规律和模式,可以提取出其中潜在的规律和信息,人们对这个领域的研究也日益重视。然而,传统的基于关联规则的Web日志挖掘算法都是基于所有关联规则的。这种方式往往挖掘产生大量的候选规则,而且存在大量冗余的规则。提出了一种新的无冗余的Web日志挖掘算法,该算法通过引入频繁闭项集合最小关联规则的概念,从而解决了以往基于所有关联规则挖掘算法中出现的上述问题。  相似文献   

15.
针对在关联规则中的Apriori算法进行了深入研究的基础上,提出了一种基于压缩矩阵的关联规则挖掘算法(CMApriori算法)。该算法只需扫描一次数据库,在矩阵上采用事务压缩和项目压缩技术,节省了数据占用的内存空间。在对建立好的压缩矩阵上只需进行简单的计数运算即可得到频繁项集。仿真实验证明:该算法与Apriori算法相比,运算效率大大提高。  相似文献   

16.
针对焦虑抑郁患者的早期预防和诊断需求,将关联规则挖掘和压缩方法应用于焦虑抑郁障碍因素的研究,在病人数据中挖掘出与焦虑抑郁障碍相关性较高的因素集合。单独使用频繁项集挖掘算法会产生过多的频繁项集和关联规则,导致其实用性大为降低。对收集的病人数据进行预处理,采用FP-growth算法,挖掘出预处理后数据中的频繁项集,采用最新改进Bottom-Up Summarization(BUS)算法,对挖掘出的频繁项集进行压缩。同时将最后得到的关联规则与未压缩得到的关联规则、原始BUS算法及Top-K算法压缩后得到的关联规则进行对比。实验结果表明,使用改进BUS算法得到的规则数量适中、信息冗余较少而且覆盖的人群具有更高的患病风险。  相似文献   

17.
针对目前时态关联规则研究中存在的挖掘效率不高、规则可解释性低、未考虑项集时间关联关系等问题,在原有相关研究的基础上,提出一种新的基于频繁项集树的时态关联规则挖掘算法.通过对时间序列数据进行降维离散化处理,采用向量运算生成频繁项集,提高频繁项集挖掘效率.考虑到项集之间的时态关系以及树结构的优势,提出一种新的频繁项集树结构挖掘时态关联规则,其挖掘频繁项集与树结构构建同时进行,无需产生候选项集,提高了规则挖掘效率.实验表明,对比于其他算法,所提出算法在挖掘效率和规则解释性方面效果更好,具有较好的应用前景.  相似文献   

18.
在由频繁项集产生关联规则时,利用提升度判断规则前、后件之间的正相关性可以避免产生一些无意义的关联。但是,这并不能保证规则前、后件中的项是正相关的,也不能减少挖掘频繁项集的时间开销。当规则的前件或后件存在负相关的项时,仍然可能产生无意义的关联规则。针对以上问题,基于数学期望,提出了正相关的频繁项集的概念,并改进了一种直接在FP-树中挖掘频繁项集的算法,挖掘出正相关的频繁项集,从而有效地解决以上问题。实验表明,该算法可以大幅度地减少所产生的频繁项集数量,显著地降低了挖掘频繁项集的时间开销。对于大型数据集,尤其是稠密型数据集,该算法具有良好的性能。  相似文献   

19.
Apriori算法中频繁项集挖掘实现研究   总被引:3,自引:0,他引:3  
在数据挖掘中,关联规则是发现知识的一种有效方法,而频繁项集的挖掘是关联规则中发现强规则的基础,其中连接与剪枝是逐层迭代求解k-项频繁集的核心算法。因此,文中主要介绍了基于连接与剪枝挖掘频繁项集的实现过程,并通过挖掘对传统购物篮数据中的频繁项集进行了验证,结果是一致的。算法的有效性也为进一步挖掘关联规则中的强规则提供了基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号