首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
文章用Java语言实现了关联规则挖掘的两个算法FP-growth和Apriori算法,将这两个算法应用于用XML表示的实验数据中,实现了从XML数据库中直接挖掘关联规则,并与基于XQuery实现的Apriori算法进行了性能比较。  相似文献   

2.
基于单个XML文档结构的数据挖掘   总被引:1,自引:0,他引:1  
提出了一种基于XML的结构进行数据挖掘的算法,该方法使用现有的XML解析工具JAVA DOM对XML文件进行解析,形成XML文档树,把XML中的标签按照层次作为标记路径存储起来,再对标记路径进行关联规则挖掘,得到频繁事务。通过实验表明,只有当XML的结构呈不规则时,挖掘效率才会随最小支持度的增大而提高。  相似文献   

3.
Apriori算法分析与改进综述   总被引:5,自引:0,他引:5  
数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,特别是随着大量数据不停地收集和存储,从数据库中挖掘关联规则就越来越有其必要性.通过对关联规则挖掘技术及其相关算法Apriori进行分析,发现该技术存在的问题.本文介绍了能优化该技术的各种算法,分析了这些算法各自的优缺点,并针对这些问题提出了未来的研究方向.  相似文献   

4.
通过研究基于两阶段频集思想的Apriori算法,针对Apriori算法的性能瓶颈提出了改进的Apriori算法,利用改进的Apriori算法对乳腺疾病数据进行挖掘,使用SQLServer2005数据挖掘工具,主要建立肿瘤复发和其他属性间的关联规则.挖掘结果证明了关联规则算法在医疗数据挖掘中的有效性.  相似文献   

5.
基于概念层次的关联规则挖掘算法   总被引:4,自引:0,他引:4  
在经典关联规则挖掘算法的基础上,给出了带有概念层次的事务数据的关联规则有效挖掘算法,并通过实验,给出算法执行效率的分析。结果表明,该算法能得到有效的基于概念层次的关联规则。  相似文献   

6.
在分析几种现有关联规则算法的基础上,针对网络数据的具体情况,引入关键属性、参考属性以及属性相对支持度的约束,对关联规则挖掘算法FP_Growth进行了扩展,解决了基本关联规则挖掘算法中产生大量无用模式的问题,从而帮助系统发掘出更有意义的模式,提高了系统挖掘的执行效率和规则库的准确度.  相似文献   

7.
为了处理互联网上大量独立于模式不规则的、零散的XML文档,提出了一种通过扫描XML文档转换为XML文档树,再对文档树进行深度遍历算法把节点映射到数据库的算法,并与其他算法做了简单比较.该算法能把XML数据内容完整地保存到数据库,还可以完全恢复.通过实例证明了算法的可行性和有效性.  相似文献   

8.
数据挖掘中的关联规则用来发现大量数据中项集之间有趣的关联或相关联系,随着数据库的广泛应用,如何从数据库中挖掘关联规则就越来越有其必要性.本文通过对关联规则挖掘技术及其相关算法Apfiofi进行分析,发现该技术存在的缺陷,介绍了能优化该技术的几种经典算法,分析了这些算法各自的优缺点,并以此为出发点提出了未来的研究方向.  相似文献   

9.
提出了一个基于最小完美哈希函数的关联规则的数据挖掘算法。基于Apriori的算法,在综合了传统哈希剪枝技术的同时,利用最小完美哈希函数的优点,保证了静态数据库关联规则挖掘,可以对关联规则的哈希结构数据进行动态的调整。该算法提高了挖掘效率,通过抑制哈希地址冲突提高了算法的稳定性和可用性。  相似文献   

10.
关联规则挖掘主要用于发现隐藏在数据中的知识。加权关联规则挖掘能更有效地挖掘出项目重要性不同的规则。针对人工赋权的方法存在一定的主观随意性,没有充分利用数据本身特征且串行算法无法处理大数据集的问题。提出了独立概率完全加权关联规则的并行挖掘算法,该算法以项在当前数据集中出现概率为依据进行完全加权模型构建,以挖掘出更多用户所期待的关联规则。采用前缀划分、位图存储等技术分别解决加权频繁项集筛选、候选加权频繁项集生成所造成时间代价高的问题。引入分布式并行计算思想,并在Spark框架下编程实现,使算法可以在大数据环境下对加权关联规则进行高效挖掘。利用数值实例对该模型和算法进行了验证,结果表明此算法可在保证算法时间效率优越的同时获得更多隐藏信息。  相似文献   

11.
挖掘区间值关系数据库的模糊关联规则   总被引:3,自引:0,他引:3  
应用关系数据的模糊C-均值算法把数量型属性划分成若干个模糊集,提出挖掘区间值关系数据库数量型属性模糊关联规则的算法,在关系数据的模糊C-均值算法与部分聚集算法的基础上提出一种新的模糊聚类算法-关系数据的竞争聚集算法,并用它来划分数量型属性,由于关系数据的竞争聚集算法能得到优化的固定的聚类个数,因此能挖掘出优化的模糊关联规则。  相似文献   

12.
关联规则挖掘是数据挖掘的重要领域之一,目前多数监督学习算法对满足最小支持度和最小置信度的关联规则进行深入分析的较少。剖析了分类关联规则挖掘算法CAR-Apriori算法,并提出了一种基于多最小支持度和支持度差别限制的分类关联规则挖掘算法MSCAR-Apriori算法。实验结果表明,改进算法不仅可以挖掘出满足给定条件的分类关联规则,同时还可以保留稀有但用户感兴趣且可能蕴涵巨大利润的规则项。  相似文献   

13.
随着数据库规模的日益增大,关联规则挖掘需要在挖掘效率、可用性、隐私性及精确性等方面得到提升,需要对传统的关联规则挖掘算法进行更新和改进。在传统的Apriori算法基础上,提出了一种新的在关系数据库中挖掘关联规则的算法。该算法只需扫描一次数据库即可得到频繁项集,并通过非频繁项集来减少候选项集的生成,从而提高了算法的运算效率;此外,该算法将包含敏感数据事务做相关的处理,以达到隐藏包含敏感数据的关联规则。理论分析和实验结果表明,新算法不仅提高了关联规则挖掘的效率,而且还达到了隐藏包含敏感规则的目的。  相似文献   

14.
为了从海量的信息资源库中进行析取、识别和发现潜在正确和有用、前所未知的、最终可理解的知识,从数据挖掘技术的研究入手,对关联规则挖掘算法Apriori算法的关键思想以及性能进行了研究,在此基础上分析和探讨了Apriori Mend算法,并给出了该算法的实现思想和步骤,同时通过实例说明了算法的执行过程,该算法提高了原算法的效率。  相似文献   

15.
基于Apriori数据挖掘算法研究   总被引:3,自引:0,他引:3  
关联规则是从数据集中识别出频繁出现的属性值集,然后利用这些频繁集创建描述关联关系的规则过程.在分析经典关联规则挖掘算法的基础上,讨论了经典的Apriori算法,并提出改进的Apriori关联规则算法,对算法进行了实验数据的算法性能分析及运行时间对比.结果表明,改进的算法在运行速度和挖掘性能上都较经典的Apriori算法都有显著提高.  相似文献   

16.
基于数据挖掘中的关联规则挖掘及Apriori算法,研究了在旅游行业中用挖掘得到的规则对突发事件进行预测的方法.对突发事件进行了预处理,对与突发事件相关的规则进行了挖掘,提出了改进的关联规则算法,并获得了有意义的规则输出,并对这些关联规则在旅游业的应用进行了研究.  相似文献   

17.
针对并行关联规则挖掘算法不能有效的解决负载平衡的问题,在CD算法的基础上,介绍了一种基于动态数据集划分的并行关联规则挖掘算法.它根据各个节点的反馈来决定向每个节点分配的数据集大小.与静态的数据集划分相比,它能更好地实现负载平衡,提高并行数据挖掘的效率.  相似文献   

18.
关联规则挖掘是数据挖掘及知识发现领域的重要研究内容之一,其核心任务是挖掘数据库中的频繁项集.Apriori算法是频繁项集挖掘的有效算法.在Apriori的算法中,采用哈希树存储平凡项集的候补项集以便快速计算其支持度.本文在分析算法所存在的效率瓶颈的基础上,提出了一个有效的改进算法,通过利用一维数组替代算法中复杂的哈希树...  相似文献   

19.
遗传算法编码设计及其在数据挖掘中的应用   总被引:1,自引:0,他引:1  
数据挖掘就是从大量的数据中提取或者“挖掘”知识,从而实现对数据资源的有效利用.关联分析是数据挖掘诸多功能中应用最广泛的一种.关联分析用于发现关联规则,关联规则描述了给定数据集的项之间的有趣联系.提出了一种基于遗传算法的关联规则的挖掘算法.在关联规则的编码方面,提出了对个体进行变长编码的方法,从而在一定程度上减少了无效规则的数目;在适应度函数的构造方面也进行了一些改进;针对规则库的覆盖问题,采用标志位的方法,对挖掘过的规则设置标志,避免规则重复挖掘.  相似文献   

20.
Apriori算法是挖掘关联规则频繁项集的最有影响的算法之一,它通过连接、剪枝等步骤产生频繁项集,进而产生强关联规则。由于面临海量数据,因此将会产生大量的候选项集,尤其是候选2-项集,严重影响了挖掘的效率。提出了一种改进的算法,此算法不产生小项候选集而直接产生大项候选集,从而提高了算法的效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号