共查询到20条相似文献,搜索用时 78 毫秒
1.
《计算机应用与软件》2016,(1)
针对大数据流序列挖掘过程中,不能快速发现序列滞后相关性的问题,提出一种基于级数分层滑动窗口的大数据流序列滞后相关性挖掘方法。该方法首先对序列按级数递增进行分层,在每层上计算滑动窗口的覆盖能力g;之后再对每层的滑动窗口计算序列的参数值;最后根据各层滑动窗口的参数值,计算序列的滞后相关系数,以此来确定序列的滞后相关性。在序列滞后相关性的求解过程中,通过奈奎斯特抽样定理证明了需要计算大数据流n个序列的log2(n)个点,就能高精度地确定序列的滞后相关性。这大大减少了计算时间,并且序列越多,计算误差越小,效率越高。实验结果表明,该方法可以大幅度地减少运算时间,在保证精度的情况下提高运算效率,尤其对大数据流序列,效果良好,应用前景广阔。 相似文献
2.
基于滑动窗口的聚集查询是数据流研究领域的一个热点问题。在已有的研究工作中,聚集算法都是针对立即执行的连续查询提出的,这些算法均是当数据流新到一个元组立即计算一次聚集结果。而在实际应用中,连续查询有时采取的是周期执行方式。论文针对周期执行的连续查询提出了复合滑动窗口聚集算法,即数据流新到一个元组,将它插入到基本窗口中,当基本窗口被插满时计算一次聚集结果。给出了非增量式和增量式两种算法。理论分析和实验结果表明增量式算法具有较好的性能。 相似文献
3.
频繁项集挖掘是数据流挖掘中的一个热点问题.提出了一种新的数据流频繁闭项集挖掘算法MFCI-SW.首先设计了两个新的数据结构:频繁闭项集表FCIL和频繁闭合模式树MFCI-SW-Tree,在此基础上以滑动窗口中的基本窗口为更新单位,在每个基本窗口中提取出频繁闭项集的数据项,将其支持度F和窗口序列号K存到FCIL中;然后随着新基本窗口的到来,通过删除频繁闭项集表中K值最小的数据项和插入新数据项完成对FCIL的更新和MFCI-SW-Tree树的裁剪;最后在MFCI-SW-Tree中可以迅速挖掘出满足用户需要的频繁闭项集.实验结果证明了该算法在执行效率上明显优于DS-CFI算法. 相似文献
4.
序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景。针对静态数据库,序列模式挖掘已经被深入地研究,但针对基于数据流的序列模式挖掘的研究还不是十分深入。数据流有着无限性的特性,因此往往不能保存数据流中全部的数据,同时很多时候只对最近的时间段的序列模式感兴趣,提出一个有效的结合滑动窗口技术的挖掘序列模式的算法FPM-SW,算法利用到3个数据结构(PatternTable,CountTable和Ta-tree)来处理基于数据流的序列模式挖掘的复杂性问题。算法通过CountTable结构来保存以往的潜在频繁序列,考虑到在某些情况下CountTable占用内存过多,算法还结合了一种压缩CountTable技术来减少内存占用。FPM-SW的优点是可以最大限度地降低负正例的产生,实验表明FPM-SW具有较高的准确率。 相似文献
5.
随着数据流查询处理在越来越多的领域得到应用,现有的窗口模型和处理方法已无法满足复杂的需求,需要进行模型的改进和操作的优化.提出了一种扩展的窗口模型来表达更丰富的语义,并针对该模型利用元组位置信息对连接操作的批处理过程和结果维护进行了查询的优化.在此基础上,针对用户实时需求提出一种动态Hop调整策略.实验表明,该方法在时间和空间都获得了较好的性能. 相似文献
6.
滑动窗口是一种对最近一段时间内的数据进行挖掘的有效的技术,本文提出一种基于滑动窗口的流数据频繁项挖掘算法.算法采用了链表队列策略大大简化了算法,提高了挖掘的效率.对于给定的阈值S、误差ε和窗口长度n,算法可以检测在窗口内频度超过Sn的数据流频繁项,且使误差在εn以内.算法的空间复杂度为O(ε-1),对每个数据项的处理和查询时间均为O(1).在此基础上,我们还将该算法进行了扩展,可以通过参数的变化得到不同的流数据频繁项挖掘算法,使得算法的时间和空间复杂度之间得到调节.通过大量的实验证明,本文算法比其它类似算法具有更好的精度以及时间和空间效率. 相似文献
7.
在分布式数据流中,数据流之间相关性分析可以揭示被监测对象之间存在的内在联系。提出了一个基于基窗口的相关系数的计算方法,该方法先将计算相关系数的公式变形为由适合基窗口聚集的因子组成,然后用基于基窗口的方法聚集每个因子。基于基窗口的聚集方法是将窗口中的数据项划分成一系列基窗口并分别对基窗口进行计算。当窗口随机滑动后,新窗口中数据项的聚集可以部分地利用上一次窗口聚集的结果。模拟实验表明,与每次对窗口中所有数据进行聚集相比,基于基窗口的方法可以有效地降低数据流相关系数的计算时间。 相似文献
8.
基于数据流的滑动窗口机制的研究 总被引:2,自引:1,他引:2
传统的关系数据库是在持久稳定的数据集合上进行数据查询,而数据流的长度是无界的,不可能将所有的数据存储下来,因此对数据流的查询处理大多采用了持续查询。对数据流进行持续查询时,往往感兴趣的不是所有的数据而是最近到达的部分数据,这样就引入滑动窗口模型。定义滑动窗口语义是数据流管理系统中一个非常基础性的工作,直接关系到数据流的存储和查询的执行效率。针对滑动窗口的模型和语义进行了研究。 相似文献
9.
10.
由于数据流具有无限、高速等特性,使得对数据流的查询处理往往不是面向整个数据流,而是把查询处理的范围限定在某个可操作的范围内,比如一个数据窗口。另一方面,通过数据摘要近似表达数据,也是数据流查询处理应对存储空间约束的常用策略。本文提出一种基于滑动窗口的数据流小波摘要构造算法,利用了窗口技术与数据摘要技术的优点。算法的基本思路是基于滑动窗口模型,将数据流划分成若干等宽基本窗口,每个基本窗口内数据进行小波分解与系数约简,从而形成滑动小波摘要窗口。为使窗口内数据摘要绝对重构误差最优,定义一个系数删减标准,采用贪心策略对窗口内小波系数逐步求精,从而获得最优绝对误差小波摘要。实际应用结果证明了算法的有效性。 相似文献
11.
作为当前数据流挖掘研究的热点之一,多数据流聚类要求在跟踪多个数据流随时间演化的同时按其相似程度进行划分。文中提出一种基于灰关联分析并结合近邻传播聚类的多数据流聚类方法。该方法基于一种灰关联度,将多个数据流的原始数据压缩成可增量更新的灰关联概要信息,并根据该信息计算多个数据流之间的灰关联度作为其相似性测度,最后应用近邻传播聚类算法生成聚类结果。在真实数据集上的对比实验证明该方法的有效性。 相似文献
12.
从多维数据分析的角度出发,对Delphi的决策支持组件Dcision Cube进行了介绍,并介绍了如何利用Dicision Cube进行多维数据分析以及支持决策,最后简要对Decision Cube进行了总结。 相似文献
13.
电信市场的竞争日益激烈,数据仓库技术的出现为电信业务更快更准确的决策支持提供了保障。通过对电信网络分析业务的需求进行调研,结合数据仓库技术,给出了基于数据仓库的电信网络分析系统的总体架构,研究了系统的数据仓库维度建模及ETL的实现技术,基于以上技术设计开发的电信网络分析系统在实际中得到良好的应用。 相似文献
14.
15.
16.
17.
石油是重要的战略物资,掌握着国家的经济命脉.将油藏工程技术与多维数据分析技术相结合,使得多雏数据分析方法应用于油气企业的日常生产,为油气生产企业提供优化的油藏管理经营策略. 相似文献
18.
19.