首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
王鑫  刘方爱 《计算机应用》2016,36(7):1988-1992
针对已有的多数据流协同频繁项集挖掘算法存在内存占用率高以及发现频繁项集效率低的问题,提出了改进的多数据流协同频繁项集挖掘(MCMD-Stream)算法。首先,该算法利用单遍扫描数据库的字节序列滑动窗口挖掘算法发现数据流中的潜在频繁项集和频繁项集;其次,构建类似频繁模式树(FP-Tree)的压缩频繁模式树(CP-Tree)存储已发现的潜在频繁项集和频繁项集,同时更新CP-Tree树中每个节点生成的对数倾斜时间表中的频繁项计数;最后,通过汇总分析得出在多条数据流中多次出现的且有价值的频繁项集,即协同频繁项集。相比A-Stream和H-Stream算法,MCMD-Stream算法不仅能够提高多数据流中协同频繁项集挖掘的效率,并且还降低了内存空间的使用率。实验结果表明MCMD-Stream算法能够有效地应用于多数据流的协同频繁项集挖掘。  相似文献   

2.
提出了基于Haar小波技术和偶合特征的多数据流压缩方法.主要研究成果包括:(1) 证明了Haar小波变换服从能量守恒规律,并用于压缩数据流;(2) 揭示了数据流的偶合度与变化趋势的相关性、偶合度的平移不变性及等价规律,采用特征流序列的小波系数和流能量近似表示流的趋势,达到压缩的目的;(3) 提出了多尺度能量分解模型,提高了表示精度;(4) 设计了多尺度能量分解压缩算法以及多尺度重构算法;(5) 在真实数据集上的实验表明,新方法的压缩比是传统小波方法的2~4倍.  相似文献   

3.
于自强  禹晓辉  董吉文  王琳 《软件学报》2019,30(4):1078-1093
多数据流频繁伴随模式是指一组对象较短时间内在同一个数据流上伴随出现,并在之后一段时间以同样方式出现在其他多个数据流上.现实生活中,城市交通监控系统中的伴随车辆发现、基于签到数据的伴随人群发现、基于社交网络数据中的高频伴随词组发现热点事件等应用都可以归结为多数据流频繁伴随模式发现问题.由于数据流规模巨大且到达速度快,基于单机的集中式挖掘算法受到硬件资源的限制难以及时发现海量数据流中出现的频繁伴随模式.为此,提出面向大规模数据流频繁伴随模式发现的分布式挖掘算法.该算法首先将每个数据流划分成若干个segment片段,然后构建适合部署在分布式计算平台上的多层挖掘模型,并利用多计算节点以并行方式对大规模数据流进行处理,从而实时发现频繁伴随模式.最后,在真实数据集上进行充分实验以验证算法性能.  相似文献   

4.
数据流的流量太大会无法被整个存储,或被多次扫描。为此,在研究已有挖掘算法的基础上,提出一种界标窗口中数据流频繁模式挖掘算法DSMFP_LW。利用扩展前缀模式树存储全局临界频繁模式,实现单遍扫描数据流和数据增量更新。实验结果表明,与Lossy Counting算法相比,DSMFP_LW算法具有更好的时空效率。  相似文献   

5.
序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景。针对静态数据库,序列模式挖掘已经被深入地研究,但针对基于数据流的序列模式挖掘的研究还不是十分深入。数据流有着无限性的特性,因此往往不能保存数据流中全部的数据,同时很多时候只对最近的时间段的序列模式感兴趣,提出一个有效的结合滑动窗口技术的挖掘序列模式的算法FPM-SW,算法利用到3个数据结构(PatternTable,CountTable和Ta-tree)来处理基于数据流的序列模式挖掘的复杂性问题。算法通过CountTable结构来保存以往的潜在频繁序列,考虑到在某些情况下CountTable占用内存过多,算法还结合了一种压缩CountTable技术来减少内存占用。FPM-SW的优点是可以最大限度地降低负正例的产生,实验表明FPM-SW具有较高的准确率。  相似文献   

6.
加权频繁模式挖掘比传统的频繁模式挖掘更加的具有实际意义,针对数据流中的数据只能扫描有限次的性质,提出了基于滑动窗口模型的数据流加权频繁模式挖掘方法WFP-SW,该算法中数据存储采用的是矩阵数据结构,通过矩阵之间的相关操作来产生加权频繁模式。实验结果显示,该算法在产生加权频繁模式的时候不产生冗余模式,比传统的频繁模式挖掘算法有更好的效率。  相似文献   

7.
黄钧钧  谢伙生 《计算机工程与设计》2011,32(6):2040-2044,2049
为了能够有效地利用滑动窗口技术来挖掘数据流当中的频繁闭序列模式,通过构建CST树(closed sequence tree)来保存频繁闭序列模式及其序列之间的关联关系,研究了滑动窗口在流数据上滑动时,窗口内序列属性以及CST树节点相互关系的变化性质,提出了基于滑动窗口的数据流闭序列模式挖掘算法ECSW(efficient closed sequential pattern mining over streamsliding window)。ECSW充分利用CST树内节点的相互关系,减少了对数据库的扫描,并且能够在不借助其他辅助结构的情况下完成CST树节点的更新。比较了ECSW与SeqStream在不同实验参数下的挖掘效果,实验结果表明,在平均闭序列长度不长时,ECSW有着比SeqStream更好的运行效果。  相似文献   

8.
多数据流上的联机方差分析是一个有意义的研究问题。针对以元组为单位流入的具有相同属性集的多支单数据流组成的多数据流,提出了分别对每支单数据流进行蓄水池抽样,构造一一对应于各单数据流的若干个多快照窗口,即两者之间是双射关系,可以将多快照窗口串行置于主存中,将元组包含的属性与多快照窗口中的各个快照窗口一一对应,且使得同一快照窗口中的各基本窗口与取自其对应的单数据流的属性值样本一一对应,然后对这些相互独立的样本进行方差分析。按顺序串行处理各个多快照窗口中的数据,就可以用串行化的方法来实现并行的多数据流上的联机方差分析。理论分析与实验表明,该方法是合理的和有效的。  相似文献   

9.
挖掘滑动窗口中的数据流频繁模式   总被引:2,自引:0,他引:2  
随着数据流应用的不断增多,数据流环境下的数据挖掘技术受到了越来越多的关注.文章结合数据流的特点,提出一种新的基于滑动窗口的频繁模式挖掘算法:DSFPM.算法分块挖掘数据流,在内存中维持一个用于保存所有潜在的频繁模式信息的存储结构DSFPM-Tree,并在各个基本窗口进入滑动窗口后动态更新该存储结构.算法仅处理和保存各个基本窗口的临界频繁闭合项集,极大地提高了时间和空间效率.实验结果表明,该算法具有良好的性能.  相似文献   

10.
基于GPU的多数据流相关系数并行计算方法研究*   总被引:1,自引:1,他引:1  
为了满足多数据流处理的实时性需求,提出一种跨PCIE总线的四层滑动窗口模型和基于图形处理器的多数据流并行处理框架模型,在此框架模型下可以并行维护数量巨大的滑动实时多数据流统计信息,同时采用精确方法并行计算多数据流间任意两条的相关系数。通过对比在同样的实验环境下只使用CPU的计算处理方法,验证了新方法的实时计算性能具有显著的提高。  相似文献   

11.
王齐童  王鹏  赵郁亮  汪卫 《计算机工程》2020,46(4):97-106,122
从时空维度中寻找轨迹相似、时间相近的对象集合,即挖掘移动对象的伴随模式,在基于地理位置的用户行为分析中被广泛使用.然而现有移动对象相似性挖掘算法难以处理时间连续、空间离散、时空相关并且数据量大的时空数据.针对此类数据,设计基于滑动窗口、Apriori性质和贪心选择策略的宽度优先搜索算法,对移动对象伴随模式挖掘问题进行求解.同时结合基于哈希的迭代剪枝算法和基于摘要信息的剪枝算法,设计两层剪枝算法以去除冗余的中间结果.在真实数据上的实验结果表明,与仅使用哈希迭代或摘要信息的剪枝算法相比,该算法的剪枝效率较高,并且能够稳定去除99%以上的冗余数据.  相似文献   

12.
Monitoring on data streams is an efficient method of acquiring the characters of data stream. However the available resources for each data stream are limited, so the problem of how to use the limited resources to process infinite data stream is an open challenging problem. In this paper, we adopt the wavelet and sliding window methods to design a multi-resolution summarization data structure, the Multi-Resolution Summarization Tree (MRST) which can be updated incrementally with the incoming data and can support point queries, range queries, multi-point queries and keep the precision of queries. We use both synthetic data and real-world data to evaluate our algorithm. The results of experiment indicate that the efficiency of query and the adaptability of MRST have exceeded the current algorithm, at the same time the realization of it is simpler than others.  相似文献   

13.
序列模式在基因分析、金融预测等方面有着重要的应用,是数据挖掘的一个主要分支,鉴于数据流应用的日益增多。本文在研究传统序列模式挖掘算法的基础上,提出了一种基于可扩展滑动窗口和贝叶斯概率过滤的面向数据流的序列模式挖掘算法(BMSP—DS算法),目的是简化序列模式发现的中间结果,提高挖掘效率.以便在小的存储空间和低的运算时间内快速发现流数据的频繁序列模式,同时算法也减少了因主观支持度取值不当对模式发现造成的负面影响,实验结果表明,该算法是可行、较优的.  相似文献   

14.
针对关系型数据流,提出一种基于流立方体框架的频繁模式挖掘算法。通过数据流的不断到达动态地创建流立方体来保存近期数据流信息,当用户提出查询请求时在以创建的流立方体基础上进行频繁模式的挖掘计算,返回相应的查询结果,可以快速地挖掘数据流各维之间存在的所有频繁模式。通过分析和实验表明该算法有较好的性能。  相似文献   

15.
陈安龙  唐常杰  傅彦  廖勇 《软件学报》2008,19(6):1413-1421
设计了数据流预测查询的新模型,包括局域流能量预测、能量分布模式挖掘及预测序列的重构和数据流能量的度量方法;设计了融合数据流能量回归与基于频繁模式的小波分解预测新方法,并将新算法推广到强偶合多数据流的预测查询;提出了最近最频繁序列模式的新概念,并应用于局域流能量分解;在真实数据上的模拟实验,验证了算法的有效性.  相似文献   

16.
现有的时间序列异步周期模式挖掘方法是在获取1-pattern有效段及周期的基础上再以枚举法得到i-patterns,时间复杂度较高。为解决该问题,提出一种改进的异步周期模式挖掘方法。在时间序列符号化后,使用基于Sequitur的候选模式算法获取候选i-patterns及其事件位置序列,通过基于OEOP的i-patterns有效段生成算法得到1-pattern和i-patterns的有效段及周期,从而生成有效子序列。实验结果表明,该方法具有较高的挖掘效率。  相似文献   

17.
数据流中一种快速启发式频繁模式挖掘方法   总被引:10,自引:0,他引:10  
张昕  李晓光  王大玲  于戈 《软件学报》2005,16(12):2099-2105
在现有的数据流频繁模式挖掘算法中,批处理方法平均处理时间短,但需要积攒足够的数据,使得其实时性差且查询粒度粗;而启发式方法可以直接处理数据流,但处理速度慢.提出一种改进的字典树结构--IL-TREE(improved lexicographic tree),并在其基础上提出一种新的启发式算法FPIL-Stream(frequent pattem mining based on improved lexicographic tree),在更新模式和生成新模式的过程中,可以快速定位历史模式.算法结合了倾斜窗口策略,可以详细记录历史信息.该算法在及时处理数据流的前提下,也降低了数据的平均处理时间,并且提供了更细的查询粒度.  相似文献   

18.
于彦伟  王欢  王沁  赵金东 《软件学报》2015,26(5):1113-1128
提出一种基于密度的簇结构挖掘算法(mining density-based clustering structure over data streams,简称MCluStream),以解决数据流密度聚类中输入参数选择困难和重叠簇识别等问题.首先,设计了一种树拓扑CR-Tree索引结构,将直接核心可达的一对数据点映射成树结构中的父子关系,蕴含了数据点依赖关系的CR-Tree涵盖了一系列subEps参数下的基于密度的簇结构;其次,MCluStream算法采用滑动窗口的方式更新CR-Tree,在线维护当前窗口上的簇结构,实现了对海量数据流的快速演化聚类分析;再次,设计了一种快速从CR-Tree提取簇结构的方法,根据可视化的簇结构,选择合理的聚类结果;最后,在真实和合成海量数据上的实验验证了MCluStream算法具有有效的挖掘效果、较高的聚类效率和较小的空间开销.MCluStream可适用于海量数据流应用中自适应的密度聚类演化 分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号