首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
基于密度与近邻传播的数据流聚类算法   总被引:1,自引:0,他引:1  
针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引 入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更 符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模 型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工 数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果.  相似文献   

2.
基于密度的混合属性数据流聚类算法   总被引:2,自引:0,他引:2  
数据流聚类分析是当前数据挖掘研究的热点问题,为了克服数据流聚类框架CluStream算法不能处理混合属性数据流的缺陷,提出了基于密度的混合属性数据流聚类算法MCStream.在微聚类中使用面向维度的距离来度量对象之间的相似度,在宏聚类中使用改进的密度聚类算法M-DBSCAN对微簇进行聚类.实验结果表明,MCStream算法能快速有效地处理混合属性数据流聚类问题.  相似文献   

3.
提出的基于相对密度的数据流模糊聚类算法结合了相对密度聚类和模糊聚类的优点,能形成任意形状、多密度分辨率的层次聚类结果.同时,利用微簇空间位置重叠关系,定义了微簇集合间的差运算,从而有效地支持了用户指定时间窗口内的数据流聚类要求.通过与CluStream算法在聚类质量和处理时间两个方面的比较分析,发现基于相对密度的数据流模糊聚类算法具有明显的优势.  相似文献   

4.
在不确定数据流聚类算法的研究中,位置不确定性是一种新的不确定数据类型.已有的不确定数据模型不能很好地描述和处理位置不确定数据.鉴于此,在提出基于联系数的位置不确定数据模型、联系距离函数、微簇密度可达性等主要概念的基础上,提出了一种联系数表达的位置不确定数据流聚类算法--UCNStream.数据流聚类算法采用在线/离线两级处理框架,使用基于密度峰值思想的初始化策略,定义了新的可动态维护的微簇聚类特征向量.利用衰减函数和微簇删除机制对微簇进行在线维护,准确地反映了数据流的演化过程.最后,分析了算法的计算复杂性,并通过对实际数据集上的实验与几种优秀的聚类算法进行了比较,实验结果表明,UCNStream算法具有较高的聚类精度和处理效率.  相似文献   

5.
基于近邻传播与密度相融合的进化数据流聚类算法   总被引:3,自引:0,他引:3  
邢长征  刘剑 《计算机应用》2015,35(7):1927-1932
针对目前数据流离群点不能很好地被处理、数据流聚类效率较低以及对数据流的动态变化不能实时检测等问题,提出一种基于近邻传播与密度相融合的进化数据流聚类算法(I-APDenStream)。此算法使用传统的两阶段处理模型,即在线与离线聚类两部分。不仅引进了能够体现数据流动态变化的微簇衰减密度以及在线动态维护微簇的删减机制,而且在对模型采用扩展的加权近邻传播(WAP)聚类进行模型重建时,还引进了异常点检测删除机制。通过在两种类型数据集上的实验结果表明,所提算法的聚类准确率基本能保持在95%以上,其纯度对比实验等其他相关测试都有较好结果,能够高实效、高质量、高效率地处理数据流数据聚类。  相似文献   

6.
针对不确定数据流上的聚类问题提出一种不确定数据流子空间聚类算法UDSSC.该算法使用滑动窗口机制接收新到达的数据,剔除陈旧的数据;还引入子空间簇生成策略和新型离群点机制;系统建立了三个缓冲区分别存储新到来的元组、要进行聚类的元组和离群点元组,以此获得高质量的聚类结果.实验表明,UDSSC算法与同类型算法相比,具有更好的聚类效果、更低的时间复杂度和更强的扩展性.  相似文献   

7.
针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,所提算法能明显提高分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。  相似文献   

8.
离群点检测和分析离群模式隐含的特征是离群点挖掘的重要研究内容.现有离群点检测算法存在两个明显的不足:根据离群度检测离群点,难以确定离群点的数量;忽略了与离群点邻接的聚类信息,不能提供解析离群模式的有效证据.为此,提出一种基于共享反K近邻的离群点检测算法,首先定义了一种对密度和维数变化不敏感的共享反K近邻相似度,然后应用聚类方法将数据集划分为聚类簇和包含离群点的离群簇,从而获取数据集中的离群点及解析离群点的聚类结构.仿真结果表明,反K近邻算法比现有方法更能精确地检测数据集中的局部离群点,具有很好的控制性能.  相似文献   

9.
数据流离群检测因内存容量限制和实时检测需求而成为离群检测的一个难点。介绍了一种快速混合属性数据流离群检测算法。在衰减模型下增量聚类数据流,生成代表数据分布的聚类特征集合,半径阈值动态变化;当接收到检测请求时,计算满足条件的每个簇的离群因子,具有高离群因子的簇作为结果输出。同时提出了一种可有效区分离群簇与数据进化初始阶段的方法。算法的时间与空间复杂度同数据流规模近似成线性关系,在真实数据集上的实验结果显示,该算法可有效检测混合属性数据流中的离群点。  相似文献   

10.
为了解决滑块窗口的数据流聚类算法中的聚类质量和算法执行效率问题,提出了基于微簇进化学习的数据流快速聚类算法.首先在在现阶段以时间滑块窗口的时间快照窗口周期为时间单位进行数据流粒度快照获取,并进行微簇的实时生成,依据微簇更新机制进行微簇维护;然后在离线阶段对微簇数据信息进行实时获取,利用改进的粒子群算法对数据进行聚类,根据粒子速度进行粒距划分和粒子权重系数的映射与调整,并计算粒子的适应度值;最后迭代地对粒子的局部极值和全局极值进行更新,输出聚类好的类别.实验证明改进算法具有较好的算法执行效率,并且有较优的负载能力.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号