首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
带权值数据流滑动窗口随机抽样算法的改进   总被引:3,自引:0,他引:3       下载免费PDF全文
通过改进加权抽样算法,结合基本窗口技术,提出了两种面向带权值数据流上连续更新滑动窗口的随机抽样算法:WRSB算法和IWRSB算法。当新的数据元组到达时,根据数据元组的权值计算出该元组的键值,根据元组键值的大小决定其是否进入样本集以及样本集中被替换的数据元组,同时设置一个系统缓冲区来保存最近到达的键值较大的部分数据元组,作为过期数据元组的后备,使算法能够有效地处理过期数据元组问题。理论分析和实验结果表明,两种算法都能有效地处理带权值数据流上连续更新滑动窗口的随机抽样问题,相比较而言,IWRSB算法具有更好的性能。  相似文献   

2.
针对不确定数据流上的聚类问题提出一种不确定数据流子空间聚类算法UDSSC.该算法使用滑动窗口机制接收新到达的数据,剔除陈旧的数据;还引入子空间簇生成策略和新型离群点机制;系统建立了三个缓冲区分别存储新到来的元组、要进行聚类的元组和离群点元组,以此获得高质量的聚类结果.实验表明,UDSSC算法与同类型算法相比,具有更好的聚类效果、更低的时间复杂度和更强的扩展性.  相似文献   

3.
基于滑动窗口的XML数据流聚类算法   总被引:1,自引:0,他引:1  
通过对XML数据流的聚类研究,提出一种基于滑动窗口的XML数据流聚类算法SW-XSCLS。该算法采用滑动窗口技术,以聚类特征指数直方图作为概要数据结构,能动态地淘汰“过时”的数据,较好地保存当前窗口内的数据分布状况,从而获取较高质量的聚类结果。理论分析和实验结果表明,该算法可以获得较高的聚类质量和较快的处理速度。  相似文献   

4.
动态滑动窗口的数据流聚类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
数据流聚类是聚类分析中的重要问题。针对数据流的流速是变化的问题,在两阶段聚类框架基础上提出基于动态滑动窗口的数据流聚类算法。在线阶段,引入微聚类特征来存储数据流的概要信息,利用存储的概要信息动态调整滑动窗口规模,并计算数据点与微聚类中心的距离,以维护微聚类特征;离线阶段,对在线聚类阶段的聚类结果采用K-means算法进行宏聚类,生成最终聚类。实验结果表明,该算法具有较高的聚类质量和较好的伸缩性。  相似文献   

5.
在实际应用中,人们往往比较关心最近一段时间内数据流的分布状况.在传统的基于界标模型的聚类算法CluStream中,没有淘汰过期元组,不能准确反映当前数据流的数据分布状况.滑动窗口是数据流中一种关注近期数据的近似方法.为了提高对流数据聚类分析的质量及效率,对算法clustream进行了改进,采用滑动窗口来支持数据处理.为了减少聚类操作中每次迭代的计算次数,算法采用改进的k-means来执行聚类操作.优化后的算法能及时淘汰过期元组,同时对新到达的元组不断进行实时处理,可以获得更准确的分析结果.与聚类算法CluStream相比,优化算法可获得较小的内存开销和快速的数据处理能力,聚类结果更合理清晰.  相似文献   

6.
提出一种基于滑动窗口的概率数据流聚类方法PWStream。PWStream采用聚类特征指数直方图保存最近数据元组的信息摘要,在允许的误差范围内删除过期的数据元组;并针对数据流上概率元组提出强簇、过渡簇和弱簇的概念,设计了一种基于距离和存在概率的簇选择策略,从而可以发现更多的强簇。理论分析和实验结果表明,该方法具有良好的聚类质量和较快的数据处理能力。  相似文献   

7.
在传统分段式数据流聚类算法中,在线部分中的微簇阈值半径T取值不精确以及离线部分对微聚类的处理相对简单,导致了聚类质量不高.针对这一缺点,在现有动态滑动窗口模型基础上,提出了一种针对离线部分处理的基于人工蜂群优化的数据流聚类算法.该算法包括两部分:(1)在线部分根据数据在窗口内停留的时间长短来动态调整窗口的大小和改进微簇阈值半径T的取值,逐步得到微簇集.(2)离线部分利用改进的蜂群算法不断动态调整来求出最优聚类结果.实验结果证明,本文算法不但有较高的聚类质量,而且有较好的延展性和稳定性.  相似文献   

8.
总结目前主流数据流聚类算法的优缺点后,提出了一种新的数据流聚类算法------DsStrcam。该算法采用双层聚类框架,应用滑动窗口技术,基于密度对数据流进行动态聚类,可以挖掘具有任意形状的数据流,且能够动态掌握数据流的分布特征。  相似文献   

9.
滑动窗口规模的动态调整算法   总被引:9,自引:0,他引:9  
李建中  张冬冬 《软件学报》2004,15(12):1800-1814
讨论当数据流系统的数据流流速或连续查询发生变化时,滑动窗口规模的动态调整问题.根据可用内存空间大小和连续查询需求,提出了3类动态调整滑动窗口规模的算法,实现了对连续查询3种服务质量级别的支持,提高了连续查询处理的效率和效果.理论分析与实验结果表明,提出的算法可以有效地应用于数据流系统.  相似文献   

10.
基于构造型神经网络引入一种新的数据流聚类相似性函数,并根据滑动窗口模型数据流聚类的特点,定义了平均覆盖和重叠覆盖等概念,进而提出基于构造型神经网络的滑动窗口模型数据流聚类算法.该算法可以降低计算量,提高聚类速度.大规模无线电监洲数据聚类实验验证了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号