首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
提出了一种改进的基于fp-tree的Apriori算法.该算法先用尾元将fp-tree分区,生成数据量更小的子数据集,再动态删除冗余数据将子数据集的数据进一步压缩,最后通过扫描子数据集进行支持数统计,从而快速挖掘.实验结果表明,在对含有大量高维度数频繁项集的数据集进行挖掘时,这个改进算法的挖掘速度较快.  相似文献   

2.
为实现在大型事务数据库中挖掘有价值的序列数据,提出了一种基于位图的高效的序列模式挖掘算法(SMBR)。SMBR算法采用位图表示数据库的方法,提出一种简化的位图表示结构。该算法首先由序列扩展和项扩展产生候选序列,然后通过原序列位图和被扩展项位图位置快速运算生成频繁序列。实验表明,应用于大型事务数据库,该方法不仅能有效地提高挖掘效率,而且挖掘处理过程中产生的临时数据所需的内存大大降低,能够高效地挖掘序列模式。  相似文献   

3.
针对应用于物流和供应链管理的射频识别(RFID)系统产生的海量路径数据集中的多维频繁路径挖掘的问题进行了深入的研究,提出了Dim-path与Path-dim两种不同的顺序处理非路径维数据和路径数据的多维频繁路径挖掘算法.这两种算法根据RFID路径数据自身的特点,将RFID数据划分为非路径维数据、位置数据、停留时间数据,...  相似文献   

4.
随着大量需要被挖掘的数据变得越来越复杂,多维关联规则已经成为关联规则挖掘中最实用的内容之一.本文主要介绍了在多维关联规则挖掘过程中,针对同一种属性数据出现重复连接的情况,由此而提出的一种解决方案.通过对多值属性信息进行比较,去除重复连接的属性信息,保留有效信息,减少对数据库的扫描.由此对Apriori算法中连接步进行改进,最后通过布尔型关联规则挖掘数据信息并得到结果.相较于Apriori算法,改进算法能更加快速准确地发现知识,缩短挖掘所用的时间.  相似文献   

5.
本文首先对Apriori算法及其优化进行了总结,接着给出一种优化算法BApriori,最后以某超市交易数据作为挖掘对象,证明了优化算法的有效性。  相似文献   

6.
王希馗 《硅谷》2011,(10):191-192,157
利用Apriori算法和FP-growth算法挖掘密集型数据集的全部频繁项集代价高昂,针对该问题提出一种基于链表数组的关联规则挖掘算法,该方法使用链表数组为每个项目建立事务链表,只需要扫描数据库1次,就能够快速得到每个候选项的支持度,从而有效的发现频繁项集。通过与经典算法分析对比表明,该算法具有较快的挖掘速度。  相似文献   

7.
鉴于频繁项集存在数据和模式冗余的问题,挖掘数据流最大频繁项集的算法引起了极大的关注,本文提出了一种挖掘数据流滑动窗口内最大频繁项集算法——MMFI-SW算法。该算法首先使用类似FP-tree的数据结构记录最新到达的数据流信息,同时删除过时的数据和大量的不频繁项目,然后设计一个创新的方法有效地从数据流滑动窗口中输出最大频繁项集。理论分析与实验结果表明,MMFI-SW算法具有较低的时间复杂度。  相似文献   

8.
顿毅杰 《硅谷》2010,(5):62-62,121
关联规则挖掘其主要研究目的是从大型数据集中发现隐藏的、有趣的、属性间存在的规律与数据间的联系。关联规则挖掘算法主要目的是从事务数据集项间挖掘出有意义的关联关系。Apriori算法是关联规则挖掘算法中最经典的方法。由Apriori算法产生的候选项集仍是巨量的。通过对Apriori算法中的候选项集支持频度的深入研究总结五条规律,并将这五条规律应用到Apriori算法中。  相似文献   

9.
针对频繁项集挖掘存在数据和模式冗余的问题,对数据流最大频繁项集挖掘算法进行了研究。针对目前典型的数据流最大频繁模式挖掘算法DSM-MFI存在消耗大量存储空间及执行效率低等问题,提出了一种挖掘数据流界标窗口内最大频繁项集的算法MMFI-DS,该算法首先采用SEFI-tree存储包含在不断增长的数据流中相关最大频繁项集的重要信息,同时删除SEFI-tree中大量不频繁项目,然后使用自顶向下和自底向上双向搜索策略挖掘界标窗口中一系列的最大频繁项集。理论分析与实验表明,该算法比DSM-MFI算法具有更高的效率,并能节省存储空间。  相似文献   

10.
在互联网高速发展的今天,产生的数据量也与日俱增,伴随大数据而来的是数据处理问题。数据挖掘旨在通过对数据的研究,通过一系列算法来充分挖掘隐藏信息,使数据的价值最大化。目前,数据挖掘在商业领域已经得到广泛应用。机器学习,是数据挖掘最为核心,也是应用最为广泛的数据处理方法。本文通过研究机器学习算法在数据挖掘中的应用,总结目前在数据挖掘领域较为活跃的几种机器学习算法,并对未来的发展趋势以及可能出现的问题进行了展望。  相似文献   

11.
关联规则挖掘算法综述   总被引:25,自引:0,他引:25  
介绍了关联规则挖掘算法的基本原理,并按照挖掘中涉及到的变量数目(维数)、数据的抽象层次和处理变量的类别(布尔型和数值型),依次对关联规则挖掘算法的研究进行综述,并对一些典型的算法进行分析和比较,最后展望了关联规则挖掘算法的研究方向。  相似文献   

12.
服务于网络广告的使用挖掘的主动数据收集技术   总被引:1,自引:0,他引:1  
重点对Web使用挖掘中模式挖掘前进行的工作多且事务识别不够准确。提出新的解决方法,主动数据收集技术,然后从网络广告的逻辑结构、模式挖掘所需的数据结构、重点算法和软件架构等方面研究主动数据收集技术。结果表明主动数据收集技术。为Web使用挖掘提供比服务器日志更全面而准确的数据.  相似文献   

13.
本文主要介绍数据挖掘技术的概念、过程和BP神经网络算法的原理,研究如何将BP神经网络与数据挖掘技术相结合,从海量数据中挖掘出潜在有用价值的信息,阐述了数据挖掘技术与神经网络结合的关键技术和实现方法,并提出一种改进的BP神经网络算法以实现有用模式的挖掘,能大大缩短训练时问和提高挖掘精度。  相似文献   

14.
随着数据挖掘的应用日益逐渐广泛,对数据挖掘算法的研究逐渐得到了重视。本论文分析了三种经典的数据挖掘算法,Apriori算法,FP—growth算法和STBA算法,分析了它们各自的优缺点,并进行了对比,对于推动进一步改进现有的数据挖掘算法及实现数据的有效挖掘都具有一定的借鉴意义。  相似文献   

15.
针对入侵检测系统中安全规则提取的困难,提出利用粗集方法从系统日志信息中挖掘安全规则,并给出规则挖掘算法。通过KDDCup99入侵数据测试集中的数据验证该方法的有效性和可行性,为入侵检测中安全规则的提取提供一种新方法。  相似文献   

16.
基于熵度量和遗传算法的粗糙集归约方法   总被引:1,自引:1,他引:0  
在研究数据挖掘技术的基础上,建立了旋转机械故障诊断的特征挖掘模型。针对传统粗糙集归约存在的最佳约简不唯一和约简计算时间长的问题,提出了一种以熵重要度为指标的最佳特征评价方法和一种基于遗传算法的粗糙集特征归约算法。最后,设计并实现了一个专用特征挖掘工具RMFMiner,通过转子故障模拟数据集和UCI机器学习数据库验证了该算法的有效性。  相似文献   

17.
本文介绍了利用数据挖掘技术对数字电影流动放映系统中院线订购节目的历史数据进行挖掘,通过挖掘发现院线用户偏好,以供电影数字节目管理中心为用户提供更好的服务。针对订购数据的复杂性和不完整性,我们采用粗糙集算法,建立了用户偏好度的挖掘模型,通过对不完整信息的预处理和属性约简等措施,快速分析出院线订购影片时所关注的影片关键属性。实际数据的实验结果表明粗糙集算法与传统的贝叶斯算法相比,在同等的计算复杂度下具有能达到更准确的属性约简集。  相似文献   

18.
用户识别是电商大数据行为挖掘的基础,本文提出了一种电商用户识别的新算法,该算法引入用户行为动机感知技术,采用初次匹配和精确识别二阶段模式来识别用户。初次匹配阶段算法利用启发式规则划分用户数据,在精确识别阶段通过实时分析用户的访问动机,依据用户行为相异数矩阵来识别用户。在Spark上的优化使算法在分布式场景中具备实时处理大规模数据的能力。实验结果表明该算法的准确率达97.89%,并具有良好的识别效率。  相似文献   

19.
一种快速的间接关联挖掘算法   总被引:1,自引:1,他引:0  
给出了一个基于候选间接关联反单调性和频繁项目对支持矩阵的不需要生成所有频繁集的直接挖掘项目对之间间接关联的挖掘算法,并在一个Web log的真实数据集上进行了试验,与现有算法的比较表明该算法具有更好的性能。  相似文献   

20.
彭虎  姜皓 《硅谷》2008,(20):54
研究把关联规则引入到教学系统中,帮助教师发现教育教学的潜在规律.根据学生数据的具体情况,采用轴属性和基于宽度的逐层近似挖掘算法对挖掘算法进行扩展,提高规则的准确性和概括性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号