首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
在分布式数据流中,数据流之间相关性分析可以揭示被监测对象之间存在的内在联系。提出了一个基于基窗口的相关系数的计算方法,该方法先将计算相关系数的公式变形为由适合基窗口聚集的因子组成,然后用基于基窗口的方法聚集每个因子。基于基窗口的聚集方法是将窗口中的数据项划分成一系列基窗口并分别对基窗口进行计算。当窗口随机滑动后,新窗口中数据项的聚集可以部分地利用上一次窗口聚集的结果。模拟实验表明,与每次对窗口中所有数据进行聚集相比,基于基窗口的方法可以有效地降低数据流相关系数的计算时间。  相似文献   

2.
频繁项集挖掘是数据流挖掘中的一个热点问题.提出了一种新的数据流频繁闭项集挖掘算法MFCI-SW.首先设计了两个新的数据结构:频繁闭项集表FCIL和频繁闭合模式树MFCI-SW-Tree,在此基础上以滑动窗口中的基本窗口为更新单位,在每个基本窗口中提取出频繁闭项集的数据项,将其支持度F和窗口序列号K存到FCIL中;然后随着新基本窗口的到来,通过删除频繁闭项集表中K值最小的数据项和插入新数据项完成对FCIL的更新和MFCI-SW-Tree树的裁剪;最后在MFCI-SW-Tree中可以迅速挖掘出满足用户需要的频繁闭项集.实验结果证明了该算法在执行效率上明显优于DS-CFI算法.  相似文献   

3.
滑动窗口聚集查询在数据流管理系统中应用广泛,数据流到达高峰期,必须考虑滑动窗口聚集查询中出现的降载问题。分析了子集模型的特点和已有降载策略的不足,给出了数据流滑动窗口聚集查询降载问题的约束条件,提出了能保证子集结果产生的基于丢弃窗口更新策略的降载算法。理论分析和实验结果表明,该算法对数据流滑动窗口聚集查询降载问题的处理具有较高的有效性和实用性。  相似文献   

4.
基于滑动窗口的聚集查询是数据流研究领域的一个热点问题。在已有的研究工作中,聚集算法都是针对立即执行的连续查询提出的,这些算法均是当数据流新到一个元组立即计算一次聚集结果。而在实际应用中,连续查询有时采取的是周期执行方式。论文针对周期执行的连续查询提出了复合滑动窗口聚集算法,即数据流新到一个元组,将它插入到基本窗口中,当基本窗口被插满时计算一次聚集结果。给出了非增量式和增量式两种算法。理论分析和实验结果表明增量式算法具有较好的性能。  相似文献   

5.
作为数据流挖掘的一个重要研究问题,滑动窗口下的数据流频繁模式挖掘近年来得到了广泛应用和研究。已有的算法大多要对数据流中所有的数据都进行处理,而现实中用户往往只关注事物的某些方面,由此借鉴MFI-TransSW算法,提出了一种基于事务型滑动窗口的算法BSW-Filter(Bit Sliding Window with Filter)。算法采用比特序列实现滑动窗口操作,同时由于增加了频繁项的筛选,减少了所需保存的数据项个数,从而减小了内存使用和提升处理速度。算法的空间复杂度与滑动窗口大小以及数据流取值范围无关,特别适用于周期较长数据范围广的数据挖掘。分析和实验验证了该算法的可行性和有效性。  相似文献   

6.
田海生 《计算机应用》2008,28(8):1986-1990
Max和Min是数据流管理系统中重要聚集算子。应用基于滑动窗口下的示例概要法在实时数据流场景下计算Max和Min。在本方法中不需要保存所有落入滑动窗口中数据元组,这意味着可以极大地减小存储空间。由于存储元组的减少,系统的处理时间也显著地减少。实验结果表明基于滑动窗口的示例概要法显著降低了时间和空间的开销。  相似文献   

7.
滑动窗口是一种对最近一段时间内的数据进行挖掘的有效的技术,本文提出一种基于滑动窗口的流数据频繁项挖掘算法.算法采用了链表队列策略大大简化了算法,提高了挖掘的效率.对于给定的阈值S、误差ε和窗口长度n,算法可以检测在窗口内频度超过Sn的数据流频繁项,且使误差在εn以内.算法的空间复杂度为O(ε-1),对每个数据项的处理和查询时间均为O(1).在此基础上,我们还将该算法进行了扩展,可以通过参数的变化得到不同的流数据频繁项挖掘算法,使得算法的时间和空间复杂度之间得到调节.通过大量的实验证明,本文算法比其它类似算法具有更好的精度以及时间和空间效率.  相似文献   

8.
数据流中的关联规则在预测和在线分析系统中有重要应用.现有的研究大多集中在事务数据模型上,鲜有对数据项之间的关联规则挖掘.由于数据的实时性特点,用户又往往对新产生的数据所包含的信息更感兴趣.为了实时而准确地挖掘最近一段时间内数据项间的关联规则,提出了MARSW(mining association rules on sliding window)算法,利用滑动窗口模型对数据流进行关联规则挖掘.MARSW算法在给定的误差范围内,能够有效去除历史数据的影响,并以有限的空间代价快速挖掘大量数据间存在的关联规则.大量仿真实验结果表明,MARSW算法具有较高的效率和优良的可扩展性.  相似文献   

9.
针对基于内容的数据分块算法中基本滑动窗口算法不能确定最大数据块的问题,提出一种基于字节指纹极值特征的数据分块算法。算法以上一个块边界点为起点构建最大块长区间,通过定义字节指纹极值域半径函数F并利用函数F值的分布特性,以概率1在允许的最大块长的区间内确定下一个块边界点。该算法克服了基本滑动窗口等分块算法不能确定最大分块长度的不足,其时间复杂度为O(n)。  相似文献   

10.
RFID(射频识别)标签阅读器对操作环境的敏感性很高,导致其产生的RFID数据流不可靠,并含有大量的漏读,因此必须要对原始数据进行清洗。设计基于滑动窗口的自适应数据清洗算法,算法使用滑动窗口技术和二项分布模型计算合适的窗口大小,通过窗口子区间的监测结果和标签的状态来动态调整窗口大小。结果显示,在移动环境下本算法比SMURF算法产生的平均错误数少,性能更加优越,准确率和稳定性都有明显提高。   相似文献   

11.
时兵 《计算机仿真》2020,37(4):330-334
针对传统的复杂网络数据流频繁项集人工智能挖掘方法存在数据挖掘时间较长、准确性较低等问题,提出一种基于时间戳的复杂网络数据流频繁项集人工智能挖掘方法。在训练阶段,利用贝叶斯分类算法找到所有复杂网络数据流频繁项集,并计算不同复杂网络数据流频繁项集的概率估值,在测试阶段,针对不同的测试样本构造不同的分类器,集成分类器,获取分类结果。通过分类结果,构建时间戳的滑动窗口模型,根据滑动窗口的大小对项集进行延迟处理,当项集的类型变化界限超过一定的阈值时,需要重新计算支持度,根据计算结果更新变化界限,完成复杂网络数据流频繁项集人工智能挖掘。实验结果表明,所提方法能够快速、准确地对数据流频繁项集进行人工智能挖掘。  相似文献   

12.
A statistical methodology to handle aggregate data is proposed. Aggregate data arise in many fields such as medical science, ecology, social science, reliability, etc. They can be described as follows: individuals are moving progressively along a finite set of states and observations are made in a time window split into several intervals. At each observation time, the only available information is the number of individuals in each state and the history of each item viewed as a stochastic process is thus lost. The time spent in a given state is unknown. Using a data completion technique, an estimation of the hazard rate in each state based on sojourn times is obtained and an estimation of the survival function is deduced. These methods are studied through simulations and applied to a data set. The simulation study shows that the algorithms involved in the methods converge and are robust.  相似文献   

13.
基于反k近邻的流数据离群点挖掘算法   总被引:1,自引:0,他引:1  
基于局部离群因子的增量挖掘算法需要多次扫描数据集。反k近邻适用于度量离群程度,根据该性质提出基于反k近邻的流数据离群点挖掘算法(SOMRNN)。采用滑动窗口模型更新当前窗口,仅须进行一次扫描,提高了算法效率。通过查询过程实现在任意指定时刻对当前窗口进行整体查询,及时捕捉数据流概念漂移现象。实验结果证明,SOMRNN具有适用性和有效性。  相似文献   

14.
针对以置信规则推理作为系统控制器的应用,传统的置信K均值聚类算法往往不能充分利用数据中时间上的动态关联信息。因此,在模糊聚类算法的基础上引入自回归(AR)模型,将集约生产计划中的需求数据作为一组时间序列进行动态的聚类分析。该算法不仅可以充分利用集约生产计划中的需求数据的内部自相关性,而且可以进一步利用隶属度函数对AR模型的预测过程进行模糊化调整,从而得到更为理想的置信规则库结构,提高推理与决策的精度。  相似文献   

15.
针对原始k均值法在MapReduce建模中执行时间较长和聚类结果欠佳问题,提出一种基于MapReduce的分治k均值聚类方法。采取分治法处理大数据集,将所要处理的整个数据集拆分为较小的块并存储在每台机器的主存储器中;通过可用的机器传播,将数据集的每个块由其分配的机器独立地进行聚类;采用最小加权距离确定数据点应该被分配的类簇,判断收敛性。实验结果表明,与传统k均值聚类方法和流式k均值聚类方法相比,所提方法用时更短,结果更优。  相似文献   

16.
从解决数据集合对应的图形不规则性问题出发,提出虚拟数字实体化观点,并在此基础上提出基于相互约束的4点中心.边界算法和基于弹性生理论的数据归类判定方法.对比实验结果表明:4点中心-边界算法提高了核心数据对原有类别数据的代表性,较好地缓解了数据集合的图形不规则性问题;基于弹性理论的数据归类判定方法充分利用4点中心.边界算法的结果,获得较好的数据归类能力.  相似文献   

17.
数据集类别不平衡问题是分类领域的重要问题之一,每个数据集的不平衡指数都与其自身有着紧密的联系,是数据集的重要标志。面对不平衡数据集分类设计问题,提出了一种改进AdaBoost算法(enhanced AdaBoost,E-AdaBoost)。该算法将不平衡指数和不平衡数据集中较为重要的少数类分类正确率考虑到算法的迭代过程中,改进了基分类器的权重更新策略,进而提高对不平衡数据集的分类性能。基于E-AdaBoost的不平衡数据集分类设计方法可以根据样本的不平衡指数,确定基分类器的权重参数,进而提高分类器性能。利用该方法,结合多个经典分类器,在人工数据集和标准数据集上进行实验分析,并对比相关方法,结果表明,基于E-AdaBoost的不平衡数据集分类设计方法能够有效提高不平衡数据集的分类性能。  相似文献   

18.
贝叶斯网络结构学习算法主要包括爬山法和K2算法等,但这些方法均要求面向大样本数据集。针对实际问题中样本集规模小的特点,通过引入概率密度核估计方法以实现对原始样本集的拓展,利用K2算法进行贝叶斯网络结构学习。通过优化选择核函数和窗宽,基于密度核估计方法实现了样本集的有效扩展;同时基于互信息度进行变量顺序的确认,进而建立了小规模样本集的贝叶斯结构学习算法。仿真结果验证了新学习算法的有效性和实用性。  相似文献   

19.
传统的不均衡数据集处理方法存在人工设置特征繁琐、普适性差等缺陷,难以适用于海军军械不均衡文本数据集处理。针对此问题,本文提出一种基于biRNN模型的海军军械不均衡文本数据集处理方法。通过biRNN模型自动学习文本序列特征,以双向文本序列预测方式扩展少数类文本,达到文本数据均衡目的,并在均衡数据集的基础上将整个文本数据集进行扩充。分别对原始数据集、均衡数据集、扩充数据集进行文本分类实验,实验结果表明,基于biRNN的不均衡数据集扩展方法对原始数据集进行均衡、扩展处理能够有效提高文本分类的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号