首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 71 毫秒
1.
基于滑动窗口的进化数据流聚类   总被引:24,自引:0,他引:24  
常建龙  曹锋  周傲英 《软件学报》2007,18(4):905-918
提出了纳伪(false positive)和拒真(false negative)两种聚类特征指数直方图分别来支持纳伪误差和拒真误差窗口的聚类分析;然后,提出一种基于滑动窗口的数据流聚类方法.该方法在占用窗口大小的次线性内存空间前提下,及时保存最近数据记录的分布状况,从而实现对滑动窗口内的数据进行聚类.此外,它还可被扩展用于N-n窗口(滑动窗口的扩展模型)的数据聚类.实验采用KDD-CUP'99和KDD-CUP'98真实数据集以及变换高斯分布的人工数据集构造进化数据流.理论分析和  相似文献   

2.
基于混合差分进化的滑动窗口数据流聚类算法研究   总被引:1,自引:0,他引:1  
针对传统的基于滑动窗口的数据流聚类算法存在的算法执行效率低、聚类质量较差等缺点,提出了一种基于混合差分进化的滑动窗口数据流聚类算法。该算法将数据流聚类过程分为两个部分:在线的时序窗口数据信息微簇特征向量生成和离线阶段的聚类优化。对在线生成的微簇进行微簇集合的更新与维护,利用改进的粒子群算法对离线的微簇数据信息进行适应度值的计算,将种群分为优势子种群和普通子种群,然后利用个体适应度值和平均适应度值的判别来生成当前个体环境的最优候选解,并迭代地对个体进行进化,输出具有最优适应度值的聚类集合,完成对数据流的聚类。仿真实验结果表明,算法在对数据流执行聚类时具有较高的执行效率,并且最后聚类的质量较好,算法实用性强。  相似文献   

3.
滑动窗口内进化数据流任意形状聚类算法   总被引:1,自引:0,他引:1  
任意形状聚类是数据流挖掘中的重要研究课题.提出一种滑动窗口内进化数据流任意形状聚类算法SWASCStream.提出了改良的微簇特征结构,能够全面地描述滑动窗口内任意形状的簇;提出新的稀疏微簇、临界微簇和非疏微簇的概念,有助于从本质上提高滑动窗口内的聚类质量;提出了合理的微簇周期删除策略,能够有效降低算法的维护代价,并且保证误差可控.通过一系列真实和人工数据集上的试验,验证了本文算法的高效性.  相似文献   

4.
总结目前主流数据流聚类算法的优缺点后,提出了一种新的数据流聚类算法------DsStrcam。该算法采用双层聚类框架,应用滑动窗口技术,基于密度对数据流进行动态聚类,可以挖掘具有任意形状的数据流,且能够动态掌握数据流的分布特征。  相似文献   

5.
本文提出了一种基于自适应网格划分的数据流聚类算法。通过采用网格的自适应划分,对传统的基于密度网格的数据流聚类算法,以均衡划分网格的方法进行改进,使网格的划分更加合理,减少硬性划分对结果可能造成的影响,提高了硬性划分边界的精度。同时采用剪枝方法,减少了算法的执行时间。最后,通过实验验证了该算法的有效性。  相似文献   

6.
滑动窗口模型下的优化数据流聚类算法   总被引:2,自引:0,他引:2  
胡彧  闫巧梅 《计算机应用》2008,28(6):1414-1416
为提高对进化数据流的聚类质量及效率,采用聚类特征指数直方图支持数据处理,减少直方图结构的维护数,改进滑动窗口下的流数据聚类算法。实验表明,与传统基于界标模型的聚类算法相比,优化算法可获得较好的工作效率、较小的内存开销和快速的数据处理能力,拓展了流数据挖掘技术的应用领域。  相似文献   

7.
胡志冬  任永功  杨雪 《计算机科学》2013,40(9):254-256,269
对于移动计算领域的移动对象轨迹数据流的管理,最普遍采用的技术手段是采样技术,而传统的均匀采样易丢失一些关键的变化数据,造成信息丢失现象.针对这一问题,提出一种基于概率密度聚类的数据流偏倚采样算法.该算法在滑动窗口模型下,充分利用了轨迹数据流自身的分布特性,结合偏倚采样算法思想克服了均匀采样的数据丢失问题.算法首先采用基于数据存在密度的聚类技术将滑动窗口划分为强簇、弱簇和过度簇,然后针对不同的簇给予不同的采样率,进行偏倚采样,进而得到最终的数据流摘要.经过实际数据集的实验检测,证明算法较好地保证了采样质量,并具有较快的数据处理能力.  相似文献   

8.
数据流的网格密度聚类算法   总被引:3,自引:0,他引:3  
提出一种基于密度的实时数据流聚类算法RTCS.算法采用在线/离线双层框架,它在前台在线层快速实时地将到达的数据点放入相应的单元格,对多维数据和空间单元格动态计算密度.在后台离线层形成初始聚类,并不断地更新单元格的密度来自适应地调整聚类.RTCS算法能够根据密度的动态变化区分出真正的孤立点并剔除之,而这种剔除对后面的聚类结果没有影响.实验结果证明,算法可以很好地挖掘出各种形状的聚类,与CluStream算法相比,取得聚类的质量更高,有更快的处理速度,对数据维数和规模有更好的可扩展性.  相似文献   

9.
滑动窗口内基于密度网格的数据流聚类算法   总被引:1,自引:0,他引:1  
李子文  邢长征 《计算机应用》2010,30(4):1093-1095
提出了一种基于密度网格的数据流聚类算法。通过引入“隶度”,对传统的基于网格密度的数据流聚类算法,以网格内数据点的个数作为网格密度的思想加以改进,解决了一个网格内属于两个类的数据点以及边界点的处理问题。从而既利用了基于网格算法的高效率,还较大程度地提高了聚类精度。  相似文献   

10.
提出一种适用于分布式数据流环境的、基于密度网格的聚类算法。利用局部站点快速更新数据流信息,使网格空间反映当前数据流的变化。中心站点负责在接收及合并局部网格结构后,对全局网格结构进行密度网格聚类以及噪声网格优化,形成全局聚类结果。实验结果表明,该算法能减少网络通信量,提高全局聚类精度。  相似文献   

11.
一种基于密度的空间数据流在线聚类算法   总被引:2,自引:0,他引:2  
于彦伟  王沁  邝俊  何杰 《自动化学报》2012,38(6):1051-1059
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial datastream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033 ms.  相似文献   

12.
基于概率数据流的有效聚类算法   总被引:6,自引:0,他引:6  
戴东波  赵杠  孙圣力 《软件学报》2009,20(5):1313-1328
提出一种在概率数据流上进行聚类的有效方法P-Stream.P-Stream针对数据流上的概率元组提出强簇、过渡簇和弱簇的概念,设计一种有效的在线候选簇选择策略,为每个不断到达的数据元组合理地找到可能归属的簇,并在每个检查点存储微簇快照,以便离线进一步高层聚类和演化分析.最后设计一个“积极”的二层聚类模型来判断现有的第1层聚类模型是否还适应数据流中最近到达的概率元组.实验采用KDD-CUP’98和KDD-CUP’99真实数据集以及变换高斯分布的人工数据集构造概率数据流.实验结果表明,P-Stream具有良好的聚类质量、较快的处理速度,能够有效地适应数据演化情况.  相似文献   

13.
基于滑动窗口的XML数据流聚类算法   总被引:1,自引:0,他引:1  
通过对XML数据流的聚类研究,提出一种基于滑动窗口的XML数据流聚类算法SW-XSCLS。该算法采用滑动窗口技术,以聚类特征指数直方图作为概要数据结构,能动态地淘汰“过时”的数据,较好地保存当前窗口内的数据分布状况,从而获取较高质量的聚类结果。理论分析和实验结果表明,该算法可以获得较高的聚类质量和较快的处理速度。  相似文献   

14.
基于滑动窗口的支持泛在应用的流聚类挖掘算法   总被引:2,自引:0,他引:2  
近年来,泛在数据流挖掘逐渐成为数据挖掘发展的新热点,它具有在有限的资源上去挖掘无限的数据流,并可随时随地返回挖掘结果的特点,对此,本文提出一种基于滑动窗口的流聚类算法;该方法将一个滑动窗口分成n个大小相等的窗口单元,基于窗口单元进行增量式的知识相关性的挖掘,提高了流挖掘的效率;当窗口滑动时,通过衰变函数衰减当前滑动窗口内的第一个窗口单元的挖掘结果,并在当前滑动窗口挖掘结果中将其剔除,实现下一滑动窗口的增量式挖掘.  相似文献   

15.
基于数据流的任意形状聚类算法   总被引:36,自引:4,他引:36  
朱蔚恒  印鉴  谢益煌 《软件学报》2006,17(3):379-387
详细分析了数据流聚类算法CluStream的不足之处,如对非球形的聚类效果不好、对周期性数据的聚类变化反映不完整等,并针对这些不足之处提出了一种采用空间分割、组合以及按密度聚类的算法ACluStream.实验结果表明,ACluStream在准确度和速度上都比CluStream有较大的提高.  相似文献   

16.
许多应用程序会产生大量的流数据,如网络流、web点击流、视频流、事件流和语义概念流。数据流挖掘已成为热点问题,其目标是从连续不断的流数据中提取隐藏的知识/模式。聚类作为数据流挖掘领域的一个重要问题,在近期被广泛研究。不同于传统的静态数据聚类问题,数据流聚类面临有限内存、一遍扫描、实时响应和概念漂移等许多约束。本文对数据流挖掘中的各种聚类算法进行了总结。首先介绍了数据流挖掘的约束;随后给出了数据流聚类的一般模型,并描述了其与传统数据聚类之间的关联;最后提出数据流聚类领域中进一步的研究热点和研究方向。  相似文献   

17.
一种混合属性数据流聚类算法   总被引:5,自引:0,他引:5  
杨春宇  周杰 《计算机学报》2007,30(8):1364-1371
数据流聚类是数据流挖掘中的重要问题.现实世界中的数据流往往同时具有连续属性和标称属性,但现有算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法.目前还没有能在算法层次上进行混合属性数据流聚类的算法.文中提出了一种针对混合属性数据流的聚类算法;建立了数据流到达的泊松过程模型;用频度直方图对离散属性进行了描述;给出了混合属性条件下微聚类生成、更新、合并和删除算法.在公共数据集上的实验表明,文中提出的算法具有鲁棒的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号