首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 217 毫秒
1.
关联规则挖掘在税收执法管理中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
姚亮  徐邵兵  胡学钢 《计算机工程》2008,34(24):266-267
针对税收执法数据量大和频繁模式树FP_TREE算法在挖掘海量数据时需要占用大量内存的缺点,提出一种基于二叉频繁模式树FP_Btree的关联规则算法。算法用二叉树存储数据,减少对数据库的访问次数。采用先求出先建立的二叉频繁模式树的频繁模式,减少算法的内存占用量。该算法已应用于某市税收执法数据分析中,能找出执法过错行为的潜在规律,提高税收执法管理的科学性、实效性。  相似文献   

2.
关联规则中FP树算法的研究与改进   总被引:1,自引:0,他引:1  
传统的基于关联规则的FP-树算法在挖掘频繁项目集算法中应用很广,它在数据挖掘过程中不需要产生候选集,但是该FP-树算法在挖掘较大型数据库时运行速度慢、占用内存大或根本无法构造基于内存的FP-树。为了解决这些问题,本文提出了一种占用内存少、能满足大型数据库挖掘需求的改进的FP树算法。  相似文献   

3.
军用加密数据为了达到保密的目的,人为设定了较多的加密规则,打破了数据之间常规的关联性.在进行军用数据挖掘建立关联规则时,由于数据关联规则被人为隐藏,递归生成关联条件模式树的过程中,传统的FP-tree算法挖掘算法,由于加密数据的关联复杂性,会递归生成大量条件模式树,导致后期挖掘过程占用了大量的挖掘算法资源,挖掘效率较低.提出基于改进FP-tree的海量加密军用数据下频繁项目集挖掘算法,依据海量加密军用数据下频繁项目集挖掘原理,在FP-tree 算法的基础上,依据预剪枝策略减少挖掘节点,通过单向有序FP-tree防止每次存储当前挖掘出的频繁项目集之前都需要超集检验,建立项目表格,避免递归生成条件模式树浪费资源.将提出的改进FP-tree算法应用到海量加密军用数据下频繁项目集的挖掘中,获取的实验结果说明,改进FP-tree算法在提高加密军用数据频繁项目集挖掘速度及准确率方面具有较高的优越性.  相似文献   

4.
一种改进的FP-Growth算法及其在业务关联中的应用   总被引:2,自引:0,他引:2  
基于FP-树的FP-Growth算法在挖掘频繁模式过程中需要递归地产生大量的条件FP-树,效率不高,并且不太适合应用在移动通信业务交叉销售等具有业务约束的关联规则挖掘中。因此,提出了基于项目约束的频繁模式树ICFP-树和直接在此树上进行挖掘的新算法——ICFP-Mine。理论分析和实验结果表明,ICFP-Mine算法在内存占用和时间开销等方面比FP-Growth算法更优越,在移动通信业务交叉销售领域的应用中取得了较好的效果。  相似文献   

5.
针对医学图像数据的特殊性,提出了一种适合挖掘大量医学图像数据的关联分类算法.该算法以频繁模式树为基础,通过引入双支持度,排除一部分对分类无意义且存在干扰的项,以提高分类正确率.实验结果表明,当用于医学图像分类时,该算法可以取得同样的基于关联规则的分类算法CMAR更高的执行效率及更好的分类效果.  相似文献   

6.
多数据库中全局负关联规则挖掘研究   总被引:1,自引:0,他引:1  
全局负关联规则挖掘是多数据库关联信息挖掘的重要研究内容,具有广泛的应用范围和使用价值.合并各子数据库的负关联规则是现有全局负关联规则挖掘常用的方法,但数据密度大、规则不全面及运算时间高等问题影响了已有全局负关联规则挖掘方法的效率.本文给出一种新的全局负关联规则挖掘算法,其具体步骤为:(1)扫描各子数据库,建立多数据库频繁模式树;(2)依据频繁项集全局一致性原则,对多数据库频繁模式树执行精简操作;(3)在此基础上产生全局极小非频繁项集;(4)依据极大频繁项集向上闭包原则,产生全局非频繁项集;(5)在规则相关度的基础上提取全局负关联规则.大量的对比实验结果表明,本文算法具有快速发现全局负关联规则的能力.  相似文献   

7.
随着现实待挖掘数据库规模不断增长,系统可使用的内存成为用FP-GROWTH算法进行关联规则挖掘的瓶颈.为了摆脱内存的束缚,对大规模数据库中的数据进行关联规则挖掘,基于磁盘的关联规则挖掘成为重要的研究方向.对此,改进原始的FP-TREE数据结构,提出了一种新颖的基于磁盘表的DTRFP-GROWTH(disk table resident FP-TREE growth)算法.该算法利用磁盘表存储FP-TREE,降低内存使用,在传统FP-GROWTH算法占用过多内存、挖掘工作无法进行时,以独特的磁盘表存储FP-TREE技术,减少内存使用,能够继续完成挖掘工作,适合空间性能优先的场合.不仅如此,该算法还将关联规则挖掘和关系型数据库整合,克服了基于文件系统相关算法效率较低、开发难度较大等问题.在真实数据集上进行了验证实验以及性能分析.实验结果表明,在内存空间有限的情况下,DTRFP-GROWTH算法是一种有效的基于磁盘的关联规则挖掘算法.  相似文献   

8.
基于前缀树的模糊关联规则挖掘算法   总被引:2,自引:1,他引:2       下载免费PDF全文
针对布尔型关联规则不能表达挖掘对象中模糊信息的关联性,给出一系列有关模糊关联规则的定义,并提出一种基于前缀树的模糊关联规则挖掘算法。通过构造前缀树来压缩存储模糊模式候选集和频繁集,有效地节约了内存开销,且只需扫描数据库2遍。实验结果表明,该算法是有效的。  相似文献   

9.
FP-growth算法是当前挖掘频繁模式的有效算法之一,但FP树的节点占用空间较大,长时间占用内存不释放,挖掘过程中需要产生大量的条件FP树,因而时空效率不理想.提出了一种循环十字链表结构用作存储事务数据库,而不生成FP树,在挖掘频繁项集的过程中,这种链表结构逐步缩小,减少了内存的使用率,通过构建排序的条件频繁模式树挖掘频繁项集.理论分析和实验表明基于这种结构的排序条件频繁模式树挖掘频繁项集具有较好的时空效率.  相似文献   

10.
王培培  孟芸 《计算机仿真》2021,38(5):282-286
针对传统数据关联挖掘过程只适用于单段数据集,导致内存负担重、挖掘频繁项集效率不高等问题,提出一种多段支持度数据频繁模式关联规则挖掘方法.运用多支持度算法对数据集逐步搜索,数据集按照数据项的MIS大小有序排列,采用最小值作为最小支持度,确保该算法的地推性.构建FP_ tree树,利用FP_tree算法对待选项实施剪枝,从而准确挖掘出频繁模式的关联规则.仿真结果证明,多段支持度数据频繁模式关联规则挖掘具有较好的性能,有效提高了关联规则的挖掘效率.  相似文献   

11.
在数据挖掘中发现关联规则是一个基本问题,而关联规则发现中最昂贵的步骤便是寻找频繁模式。FP_growth(frequent-patern growth)方法在产生长短频繁项集时不产生候选项集,从而大大提高了挖掘的效率,但是FP_growth在挖掘频繁模式时候产生大量的条件FP树从而占用大量空间,对FP_growth进行研究提出一种改进算法不仅利用FP_growth 算法所有优点,而且避免FP_growth的缺陷。主要通过建立有限棵条件FP树(数目为事务数据库的属性个数)来挖据长短频繁模式,大大节省FP_growth算法所需要空间,实验证明本文算法是有效的。  相似文献   

12.
关联规则挖掘的主要任务是根据对事务的统计找出项之间的关系。传统的挖掘算法要求项具有逻辑属性,并在挖掘过程中产生大量的中间项集,成为算法的瓶颈。给出一种基于关联路径树的表格数据组织形式,并采用模式指导的方式进行频繁项集挖掘,该方法不要求项具有逻辑属性,初始模式不同的项集组合迭代可以分配到不同的CPU完成,提高了算法的执行效率。该算法对美国1984年国会选举数据进行了实验,结果完全正确。  相似文献   

13.
14.
为满足日益增长的海量数据挖掘需求,迫切需要设计一种能够在多台机器上运行的分布式关联规则挖掘算法。Apriori这种高度迭代算法在Hadoop平台上运行时每次迭代执行大量的磁盘I/O操作,大大影响并限制了算法的运行效率。本文利用Spark对分布式计算内置支持的特点,在Spark平台上设计并实现一种分布式关联规则挖掘算法,称为阶段式自适应挖掘算法(Staged Adaptive Apriori)。算法使用自适应的数据集部分处理的策略对频繁项集进行高效挖掘,在每次迭代前初步评估执行时间,并采用较为合适的方法来减少时间和空间的复杂性,是一种基于数据集性质的自适应关联规则挖掘算法。实验结果表明了算法的有效性。  相似文献   

15.
秋兴国  王博辉 《计算机应用》2012,32(6):1601-1604
针对矿井预警数据信息表达不完全、基于视觉的统计分析工作繁重、预警数据集庞杂等问题,提出了一种基于色彩渐进插值的矿井预警数据集三维可视化算法。在该算法中,首先根据矿井预警数据集的测点位置和测量值信息进行三维空间模型构造;然后根据灰度级与彩色空间系统的映射关系对矿井预警数据集与彩色空间模型进行颜色映射及三维空间层次分割,对每个层片依据伪图像编码算法及颜色聚类参数特征进行矿井预警数据集的三维可视化伪图像编码;最后根据色彩渐进插值算法对伪图像中相邻层片进行平滑过渡处理。实验证明,该算法处理的矿井预警数据集伪图像色彩渲染层次感强,色彩过渡平滑,有利于矿井预警数据集的信息表达。  相似文献   

16.
The remote sensing image data is so vast that it requires compression by low-complexity algorithm on space-borne equipment. Binary tree coding with adaptive scanning order (BTCA) is an effective algorithm for the mission. However, for large-scale remote sensing images, BTCA requires a lot of memory, and does not provide random access property. In this paper, we propose a new coding method based on BTCA and optimize truncation. The wavelet image is first divided into several blocks which are encoded individually by BTCA. According the property of BTCA, we select the valid truncation points for each block carefully to optimize the ratio of rate-distortion, so that a higher compression ratio, lower memory requirement and random access property are attained. Without any entropy coding, the proposed method is simple and fast, which is very suitable for space-borne equipment. Experiments are conducted on three remote sensing image sets, and the results show that it can significantly improve PSNR, SSIM and VIF, as well as subjective visual experience.  相似文献   

17.
传统的频繁路径挖掘分析主要通过关联规则算法实现,但其在处理大型数据集时,会产生占用内存过多,数据处理速度慢等问题,对此提出一种基于Fuzzy [c]-means聚类算法的并行Apriori算法模型。该模型通过Fuzzy [c]-means算法完成对原始数据集的聚类分析,将同一区域的物流路径数据划分到内部相似度较高的数据类,并利用Apriori算法对各数据类中的频繁模式进行挖掘分析,进而获得各区域的物流频繁路径。同时通过Hadoop平台实现算法的并行化,有效提高算法运行效率和质量。通过对物流频繁路径的挖掘分析,使管理者更清楚货物流向,可为配送路径优化等决策提供支持。  相似文献   

18.
海量遥感分类图连通域标记方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对遥感影像数据量大的特点,设计并实现了一种针对海量遥感影像分类图的连通域标记算法。通过对影像进行合理高效的分块,解决海量数据处理过程中对大内存的要求。对读入内存中的数据,采用了基于队列的种子填充算法进行连通域标记,通过采用贯序连通域标记算法中的冲突表机制,解决因分块之间隔离而造成的同一连通域标记不同的问题。该方法具有可以处理海量数据、对分类结果数据仅仅访问一次、无须对生成的结果进行重新标记就可以完成连通域的标记、可以获取连通域的基本统计信息等特点。实验结果证明了该方法的高效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号