首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 437 毫秒
1.
数据流中频繁闭项集的近似挖掘算法   总被引:4,自引:0,他引:4       下载免费PDF全文
刘旭  毛国君  孙岳  刘椿年 《电子学报》2007,35(5):900-905
在数据流中挖掘频繁项集得到了广泛的研究,传统的研究方法大多关注于在数据流中挖掘全部频繁项集.由于挖掘全部频繁项集存在数据和模式冗余问题,所以对算法的时间和空间效率都具有更大的挑战性.因此,近年来人们开始关注在数据流中挖掘频繁闭项集,其中一个典型的工作就是Moment算法.本文提出了一种数据流中频繁闭项集的近似挖掘算法A-Moment.它采用衰减窗口机制、近似计数估计方法和分布式更新信息策略来解决Moment算法中过度依赖于窗口和执行效率低等问题.实验表明,该算法在保证挖掘精度的前提下,可以比Moment获得更好的效率.  相似文献   

2.
相对于传统的频繁模式挖掘,加权频繁模式挖掘能发现更有价值的模式信息.针对数据流中的数据只能一次扫描,本文提出了一种基于滑动窗口模型的数据流加权频繁模式挖掘方法WFP-SW(Sliding Window based Weighted Frequent Pattern minig),算法采用WE-tree(Weighted Enumeration Tree)存储模式和事务信息,利用虚权支持度维持模式的向下闭合特性,同时获取临界频繁模式.对临界频繁模式进一步计算其加权支持度获取加权频繁模式,使得计算更新模式更加便捷.实验结果显示算法具有较高的挖掘效率并且所需的内存更少.  相似文献   

3.
关联规则挖掘是数据挖掘的一项重要技术,它主要是通过频繁闭项集挖掘得到关联规则。因此,频繁项集挖掘算法的性能对关联规则挖掘算法起到了决定性的作用。基于数据流的频繁闭项集挖掘能针对数据流有效地挖掘频繁闭项集,本文主要分析基于数据流的频繁闭项集挖掘算法及其在关联规则挖掘中的应用。  相似文献   

4.
频繁闭合模式集可惟一确定频繁模式完全集且数据量要小几个数量级。根据分布式数据流的特点,提出了一种挖掘频繁闭合项集的算法,该算法采用K叉树形结构,以叶子节点接收各条数据流,创建DSFCI_tree结构来存贮各条数据流中的每段闭合模式,然后逐层往上合并更新,从而在根节点可得整个分布式数据流的频繁闭合模式。  相似文献   

5.
吴媚  高玲 《无线互联科技》2014,(1):160-160,183
查找数据流中的频繁项是数据流挖掘中的热点问题之一。挖掘数据流频繁项在网络流量监测、金融服务等多个领域有着广泛的应用。本文首先概述经典算法Space Saving的思想并分析其性能,提出一种基于计数的改进算法维护样本集。实验表明,改进的算法能一定程度上提高准确率,避免对频繁项的错误判断。  相似文献   

6.
目前数据流频繁项近似挖掘算法大多采用误差参数控制挖掘的结果,时间与内存开销越高,挖掘结果的正确性越低.针对这样一个问题,提出了渐增最小支持度函数作为误差参数.如果某数据项在滑动窗口中的保存时间越长,则该数据项的出现频率必须相应的增加才能继续保存在滑动窗口中.这样,在滑动窗口中需要保存的数据项的数量将减少,时间开销与内存开销也相应的减少.在此基础上,提出了一种基于渐增最小支持度函数的数据流频繁项挖掘算法GFFPM.该算法能准确的挖掘出滑动窗口中的频繁项.实验结果表明,该算法具有很高的正确性.  相似文献   

7.
图数据中频繁模式挖掘算法研究综述   总被引:1,自引:1,他引:0       下载免费PDF全文
高琳  覃桂敏  周晓峰 《电子学报》2008,36(8):1603-1609
 本文对图数据中的频繁模式挖掘算法进行了综述.依据算法的特性和数学基础对算法进行了分类,主要集中于算法的求解思想和不同算法之间的关系的比较,并对一些著名的算法进行了详细的分析和讨论.基于算法的特性,比较了各种算法适用的范围以及应用领域.最后,讨论了频繁模式挖掘的最新进展及未来的研究方向.  相似文献   

8.
随着数据挖掘的广泛应用,许多实际的数据挖掘应用需要用过去和当前数据对未来数据状态进行预测,针对这一现状,文中提出基于矩阵的数据流频繁模式预测算法(MFP).MFP算法可预测在下一时间窗口中可能性较大的频繁项集,以满足用户需要.该算法首先将数据转换为0-1矩阵;然后通过矩阵剪裁和位运算更新矩阵,并从中挖掘频繁项集;最后,利用当前窗口数据预测下一时间窗口中可能出现的频繁项集.实验结果表明,MFP算法在不同实验环境下能有效预测频繁项集,该算法是可行的.  相似文献   

9.
归纳了频繁子图挖掘方法的处理流程,分析评价了频繁子图挖掘的典型算法:广度优先搜索和深度优先搜索的频繁子图挖掘算法,概述了频繁子图挖掘研究的平台--图模型及其产生器,并对频繁子图挖掘方法未来研究方向进行了展望.  相似文献   

10.
Fp-Tree算法在挖掘最大频繁模式和搜索关联规则中得到了广泛应用。本文阐述了Fp-Tree算法的一般过程,并对其效率瓶颈作了分析:传统的Fp-Tree算法在构建频繁树的过程中需要递归地插入频繁项,在频繁模式的挖掘过程中需要递归地产生条件FpTree,这些递归过程会增大算法开销,降低算法效率。本文使用非递归机制对Fp-Tree的构建过程做了一些改进,同时,在挖掘频繁项过程中使用了组合频繁前缀的方法,避免了条件Fp-Tree的产生。本文就改进算法与传统算法作了对比实验,可以看出,这些改进一定程度上提高了效率。  相似文献   

11.
一种不平衡数据流集成分类模型   总被引:6,自引:2,他引:4  
 针对不平衡数据流的分类问题,结合基于权重的集成分类器与抽样技术,本文提出了一种处理不平衡数据流集成分类器模型.理论分析与实验验证表明,该集成分类器具有更低的计算复杂度,更能适应存在概念漂移的不平衡数据流挖掘分类,其整体分类性能优于基于权重的集成分类器模型,能明显提升少数类的分类精度.  相似文献   

12.
基于广义后缀树的事件流频繁情节在线挖掘算法   总被引:1,自引:0,他引:1  
现有的事件序列频繁情节挖掘多采用Apriori—like算法,此方法无法应用于事件流数据发掘。针对采用滑动窗口的事件流频繁情节发现问题,提出一种广义后缀树结构,在新事件加入时对情节树进行动态维护:为提高时空效率,采用频繁情节发生列表逐层构建的方法实现对搜索空间的划分.通过监控边界情节以发现频繁情节的变化。实验结果表明了算法的有效性和优越性。  相似文献   

13.
本文首先阐述了客户资源的重要性,然后对客户流失这一当今运营商普遍遭遇的难题进行了分析.接着从理论上指出了过去客户保持手段的弊端,分析了防止客户流失的新思路和途径,并总结和归纳了电信业以客户流失管理为主题的数据挖掘项目的几个关键点.在此基础上,提出了基于数据挖掘的客户流失解决方案框架.  相似文献   

14.
基于多Agent的数据挖掘技术,不仅能够针对不同的Web数据综合采用不同的挖掘算法,而且可以在各站点进行并行挖掘,避免Web通信量过载。在简述Agent技术和Web数据挖掘技术的基础上,结合多Agent和Web数据挖掘,设计出一种新型数据挖掘模型,且进一步阐述了该模型,并做了一些分析测试。结果证明,该方法能有效提高Web数据挖掘的速度、准确率和覆盖率,提高了数据利用率。  相似文献   

15.
电子商务是新兴的现代商业模式,数据挖掘是先进的信息处理技术。随着商业信息和数据的急剧增加,如何有效地分析和利用信息成为企业共同关注的问题。阐述了电子商务的概念,分析了数据挖掘的作用和工作流程。讨论了电子商务中挖掘信息的目标、方法及数据挖掘技术在电子商务中的几点应用。  相似文献   

16.
基于低阶近似的多维数据流相关性分析   总被引:2,自引:1,他引:1       下载免费PDF全文
目前存在的多数据流相关性分析方法大多只针对于单属性维数据流,无法体现多变量组成的场与场之间真实的相关性.为了在资源受限的环境下快速检测多维数据流之间的相关性,本文提出一种新颖的基于典型相关性分析(CCA)的多维数据流相关性分析算法StreamCCA,针对传统的CCA计算中的性能瓶颈,提出为样本方差阵与协差阵组成的乘积阵降维的高效低价近似方法,在保持分析精度的前提下显著地提高了计算效率.经理论分析和实验证明,StreamCCA能够在线精确地识别两条多维数据流的相关关系,可以作为通用的预报和诊断分析工具广泛应用于数据流挖掘领域.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号