首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
使用垂直数据格式挖掘频繁项集   总被引:4,自引:0,他引:4  
陈伟 《微型机与应用》2011,30(18):6-7,13
关联规则是数据挖掘的主要技术之一,它是描述数据库中一组数据项之间的某种潜在关系的规则。关联规则挖掘算法——Apriori算法,主要过程是对频繁项集的挖掘,而在对频繁项集的挖掘中首先要生成候选频繁项集,然后再从候选集中确定出满足最小支持度计数的频繁项集,这会耗费大量的CPU开销。使用垂直数据格式挖掘频繁项集可避免候选项目集的求解。  相似文献   

2.
频繁项集挖掘算法   总被引:14,自引:1,他引:14  
数据挖掘在最近几年里已被数据库界所广泛研究,而搜索频繁项集是诸如关联规则挖掘,序列模式挖掘等数据挖掘问题中的关键步骤。本文描述了频繁项集挖掘问题的特点,并根据搜索策略对已有各种频繁项集挖掘算法进行了分析和比较。  相似文献   

3.
基于频繁项集挖掘算法的改进与研究   总被引:2,自引:1,他引:1  
关联规则挖掘是数据挖掘领域中重要的研究内容,频繁项集挖掘又是关联规则挖掘中的关键问题之一。针对已有的频繁项集挖掘算法存在的问题,通过对Apriori算法的分析,提出了Inter-Apriori频繁项集挖掘算法。该算法使用交集策略减少扫描数据库的次数,从而使算法达到较高的效率。实验结果表明,Inter-Apriori算法是Apriori算法效率的2~4倍。  相似文献   

4.
王伟  高亮  吴涛 《微机发展》2008,18(4):19-21
在数据挖掘中,关联规则的挖掘是一项核心内容,且规则的生成主要集中在如何寻找频繁项集上。一般情况下,寻找频繁项集是困难的,且项数越多越难,而最长频繁项集隐含了几乎所有的频繁集,因此,寻找频繁项集就转化为寻找最长频繁项集。文中利用遗传算法的全局最优和海量数据处理性来搜索最长频繁项集,该法只需扫描一次数据库,大大节约了时间。实验也说明了该算法的可行性。  相似文献   

5.
胡鹏  童恒建  徐来 《微计算机信息》2006,22(15):175-177
数据挖掘的目的是为了发现有效的关联规则从而找到不易发现的规律从而对企业的决策提供帮助,而查找频繁项集是发现有效关联规则的基础,其基础算法是Apriori算法。分布式数据库是目前较为流行的一种的数据库开发模式,它通过将一套完整的数据库系统分别部署在几台电脑上可以实现几台电脑并行处理数据从而提高数据库的效率。本文通过分析一个查找频繁项集的例子提出了一种将改进的频繁项集查找算法与分布式数据库相结合的方法从而实现频繁项集的高效查找。  相似文献   

6.
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。  相似文献   

7.
在数据挖掘中,关联规则的挖掘是一项核心内容,且规则的生成主要集中在如何寻找频繁项集上.一般情况下,寻找频繁项集是困难的,且项数越多越难,而最长频繁项集隐含了几乎所有的频繁集,因此,寻找频繁项集就转化为寻找最长频繁项集.文中利用遗传算法的全局最优和海量数据处理性来搜索最长频繁项集,该法只需扫描一次数据库,大大节约了时间.实验也说明了该算法的可行性.  相似文献   

8.
李广璞  黄妙华 《计算机科学》2018,45(Z11):1-11, 26
关联分析作为数据挖掘的主要研究模块之一,主要用于发现隐藏在大型数据集中的强关联特征。而多数关联规则挖掘任务可分为频繁模式(频繁项集、频繁序列、频繁子图)的产生和规则的产生。前者发现数据集中满足最小支持度阈值的项集、序列与子图;后者从上一步发现的频繁模式中提取高置信度的规则。频繁项集挖掘是许多数据挖掘任务中的关键问题,也是关联规则挖掘算法的核心。十几年来,学者们致力于提高频繁项集的生成效率,从不同的角度进行改进以提高算法效率,大量的高效可伸缩性算法被提出。文中对频繁项集挖掘进行深入分析,对完全频繁项集、闭频繁项集、极大频繁项集的典型算法进行介绍和评述,最后对频繁项集挖掘算法的研究方向进行简要分析。  相似文献   

9.
一种发现模糊关联规则的FTDA2算法   总被引:1,自引:1,他引:0       下载免费PDF全文
模糊关联规则在模糊集理论的基础上发现关联规则,频繁项集挖掘是数据挖掘的关键问题。Apriori算法在查找频繁项集时,需要对数据库进行多次扫描,通过模式匹配检查一个很大的候选集合,降低了算法执行效率。针对该问题提出FTDA2算法,该算法对事务数据库进行一次扫描,记录对计算频繁项集支持度有贡献的事务。比较FTDA2算法与其他算法,通过实验证明其有效性。  相似文献   

10.
在数据挖掘中发现关联规则是一个基本问题,而发现频繁项集是关联规则挖掘中最基本、最重要的问题。提出了基于FP-Tree的共享前缀频繁项集挖掘算法-FP-SPMA算法。构造FP-Tree来压缩事务数据库,通过共享前缀和前瞻剪枝快速减小候选项集,无需递归构造条件模式树,算法性能有明显的提高。  相似文献   

11.
数据挖掘被称为数据库中的知识发现,是一个跨学科的研究领域。关联规则分析是数据挖掘中一个重要的课题,用于发现存在于数据库中的项或属性间的关联联系,这些联系是事先未知且隐藏的。关联规则的研究主要集中在生成频繁项集的挖掘算法,通过对几种主要关联规则的算法分析,利用Apriori算法研究再生资源系统中关联规则的确定,从而实现物资的二次销售。  相似文献   

12.
冯洁  陶宏才 《微计算机信息》2007,23(18):164-166
关联规则的发现是数据挖掘的一个重要方面,产生频繁项集是其中一个关键步骤。提出了一种基于十字链表快速挖掘频繁项集的算法,该算法只需扫描一次数据库,充分利用已有信息产生频繁项集,无需存储候选项集。通过与其它一些算法比较,说明该算法有更好的性能。  相似文献   

13.
一种基于约简概念格的关联规则快速求解算法   总被引:4,自引:2,他引:2  
关联规则挖掘是数据挖掘领域中重要的研究分支,已形成了较多的研究成果。然而,大多数基于频繁项集求解关联规则的挖掘算法需要多次扫描数据库。该文提出了一种基于概念格的关联规则快速求解算法,该算法仅需一次扫描数据库即可确定所有的频繁项集并且进而能够快速求解出关联规则。文章首先讨论了约简概念格(RECL)的构造原理,并详细描述了基于RECL的关联规则的挖掘算法,最后以实验证明了算法的正确性和优越性。  相似文献   

14.
吴爱华  陈出新 《计算机仿真》2021,38(9):344-347,352
针对传统分布式数据库中关系数据正负关联规则挖掘的准确度较低、挖掘效率较低等问题,提出一种新的分布式数据库中关系数据正负关联规则挖掘方法.在关联规则基本概念和性质分析基础上,利用多级支持度从频繁项集中生成正关联规则,结合根据频繁项集和非频繁项集生成负关联规则,通过最小支持度合理设置相关置信度,引入不同权重值于各数据库中,实现分布式数据库中关系数据正负关联规则的挖掘.仿真结果表明,以上算法可有效识别结果规则集中的负关联规则和弱关联规则,确保数据库中关联数据挖掘更加准确;在不同最小支持度或不同事务数条件下,挖掘速度较快,提升了挖掘效率.  相似文献   

15.
介绍了应用数据挖掘技术实现的一个在学生成绩数据库中挖掘关联规则的系统,提出了一种对学生成绩类数据库进行挖掘的关于项集的确定方法。针对该系统的需要,设计了确定频繁项集的方法和从规则产生集中获得单一后项关联规则的算法,最后分析了挖掘结果并比较了两种算法的性能。  相似文献   

16.
基于属性分组的高效挖掘关联规则算法   总被引:6,自引:0,他引:6  
挖掘频繁项集在数据挖掘中有着重要的作用。目前,关于频繁项集的挖掘问题已经提出了一些算法,虽然实现了一次扫描数据库即可以发现所有的频繁项集,但是当属性数目很多时,算法的执行效率下降很快。论文首次提出了利用属性分组作为挖掘关联规则的工具,给出了基于属性分组的频繁项集挖掘算法,用矩阵来存储数据库属性间的信息并提取频繁项集,而且不产生候选项集。经实验验证该算法是快速有效的。  相似文献   

17.
Apriori算法在图书推荐服务中的应用与研究   总被引:2,自引:1,他引:1  
数据挖掘是近年来数据库领域研究的热点问题之一.当今数字图书馆个性化服务已成为图书馆服务模式的主流,图书推荐服务是其重点之一.关联规则Apriori算法是数据挖掘的关键技术之一,主要是找出数据库中的所有频繁项集,然后由频繁项集产生关联规则.针对传统的Apriori算法存在的缺陷,利用"分割-整合"的思想改进了Apriori算法.将改进后的Apriori算法应用到图书推荐服务应用模型当中,并进行数据挖掘测试,通过与传统Apriori算法进行对比,改进后的Apriori算法的实际运行效果有明显的改进.  相似文献   

18.
关联规则挖掘是数据挖掘中的一个重要研究内容.为了高效、快速地从事务数据库中挖掘出频繁项集,针对数据挖掘的经典关联规则Apriori算法的瓶颈问题提出了改进的方法.算法将事物数据库映射到布尔型数组中,然后所有的操作都针对数组元素值展开.这样大大减少了数据库的扫描次数.算法利用数组的随机访问特性及布尔型数据的简单"与"操作,直接产生频繁项集,而不产生大量的候选项集.经理论分析和实验结果显示该算法在效率上明显优于Apriori 算法.  相似文献   

19.
多数据库中全局负关联规则挖掘研究   总被引:1,自引:0,他引:1  
全局负关联规则挖掘是多数据库关联信息挖掘的重要研究内容,具有广泛的应用范围和使用价值.合并各子数据库的负关联规则是现有全局负关联规则挖掘常用的方法,但数据密度大、规则不全面及运算时间高等问题影响了已有全局负关联规则挖掘方法的效率.本文给出一种新的全局负关联规则挖掘算法,其具体步骤为:(1)扫描各子数据库,建立多数据库频繁模式树;(2)依据频繁项集全局一致性原则,对多数据库频繁模式树执行精简操作;(3)在此基础上产生全局极小非频繁项集;(4)依据极大频繁项集向上闭包原则,产生全局非频繁项集;(5)在规则相关度的基础上提取全局负关联规则.大量的对比实验结果表明,本文算法具有快速发现全局负关联规则的能力.  相似文献   

20.
基于数据库划分的关联规则算法   总被引:1,自引:0,他引:1  
关联规则是数据挖掘的一个重要研究方向.分析了FP算法的优缺点,提出了一种基于数据库划分的算法PFp算法,从理论上证明了该算法的正确性.该方法将事务数据库划分为子事务数据库,在子事务数据库中挖掘局部频繁项集,并入到全局频繁项集中,采用连接和剪枝策略有效挖掘出局部不频繁但全局频繁的频繁项集.实验结果表明,该算法比FP算法更加有效.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号