首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
基于密度的优化数据流聚类算法   总被引:2,自引:1,他引:1  
为了解决数据流聚类算法中有效处理离群点这一关键问题,改进了基于密度的数据流聚类算法,在DenStream算法基础上提出了具有双检测时间策略DDTS(double derection time strategy)的基于密度的数据流聚类算法.该策略在数据流流速波动的情况下,结合时间与流数据数量两方面因素对微簇进行测试.通过在线动态维护和删减微簇,保存可能升级的离群点来改善聚类效果.实验结果表明,改进算法具有良好的适用性和有效性,能够取得较高的聚类质量.  相似文献   

2.
基于密度的混合属性数据流聚类算法   总被引:2,自引:0,他引:2  
数据流聚类分析是当前数据挖掘研究的热点问题,为了克服数据流聚类框架CluStream算法不能处理混合属性数据流的缺陷,提出了基于密度的混合属性数据流聚类算法MCStream.在微聚类中使用面向维度的距离来度量对象之间的相似度,在宏聚类中使用改进的密度聚类算法M-DBSCAN对微簇进行聚类.实验结果表明,MCStream算法能快速有效地处理混合属性数据流聚类问题.  相似文献   

3.
在不确定数据流聚类算法的研究中,位置不确定性是一种新的不确定数据类型.已有的不确定数据模型不能很好地描述和处理位置不确定数据.鉴于此,在提出基于联系数的位置不确定数据模型、联系距离函数、微簇密度可达性等主要概念的基础上,提出了一种联系数表达的位置不确定数据流聚类算法--UCNStream.数据流聚类算法采用在线/离线两级处理框架,使用基于密度峰值思想的初始化策略,定义了新的可动态维护的微簇聚类特征向量.利用衰减函数和微簇删除机制对微簇进行在线维护,准确地反映了数据流的演化过程.最后,分析了算法的计算复杂性,并通过对实际数据集上的实验与几种优秀的聚类算法进行了比较,实验结果表明,UCNStream算法具有较高的聚类精度和处理效率.  相似文献   

4.
为了解决滑块窗口的数据流聚类算法中的聚类质量和算法执行效率问题,提出了基于微簇进化学习的数据流快速聚类算法.首先在在现阶段以时间滑块窗口的时间快照窗口周期为时间单位进行数据流粒度快照获取,并进行微簇的实时生成,依据微簇更新机制进行微簇维护;然后在离线阶段对微簇数据信息进行实时获取,利用改进的粒子群算法对数据进行聚类,根据粒子速度进行粒距划分和粒子权重系数的映射与调整,并计算粒子的适应度值;最后迭代地对粒子的局部极值和全局极值进行更新,输出聚类好的类别.实验证明改进算法具有较好的算法执行效率,并且有较优的负载能力.  相似文献   

5.
提出基于相对密度的多分辨率聚类算法,结合了密度聚类和模糊聚类的优点,能形成任意形状、多级分辨率的聚类结果,具有抗噪声能力和处理大数据集的能力,并有效地解决参数值难以设置,以及高密度簇完全被相连的低密度簇所包含等问题.  相似文献   

6.
针对分布式数据流聚类算法存在的聚类质量不高、通信代价大的问题,提出了密度和代表点聚类思想相结合的分布式数据流聚类算法。该算法的局部站点采用近邻传播聚类,引入了类簇代表点的概念来描述局部分布的概要信息,全局站点采用基于改进的密度聚类算法合并局部站点上传的概要数据结构进而获得全局模型。仿真实验结果表明,所提算法能明显提高分布式环境下数据流的聚类质量,同时算法使用类簇代表点能够发现不同形状的聚簇并显著降低数据传输量。  相似文献   

7.
基于密度与近邻传播的数据流聚类算法   总被引:1,自引:0,他引:1  
针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引 入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更 符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模 型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工 数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果.  相似文献   

8.
鉴于现有算法缺乏从时序演化角度解决不确定数据流聚类问题,提出基于近邻传播的不确定数据流演化聚类算法。考虑不确定数据流在线形成微簇时的变化因素对离线聚类的影响,提出不确定微簇变化率的概念。从不确定数据流演化的角度衡量微簇之间的相似程度,提出不确定微簇关联度的概念,并以此为基础构造不确定相似度矩阵,结合近邻传播思想实现不确定数据流演化聚类。通过实验证明文中算法的有效性和良好的聚类效果。  相似文献   

9.
一种基于密度的空间数据流在线聚类算法   总被引:2,自引:0,他引:2  
于彦伟  王沁  邝俊  何杰 《自动化学报》2012,38(6):1051-1059
为了解决空间数据流中任意形状簇的聚类问题,提出了一种基于密度的空间数据流在线聚类算法(On-line density-based clustering algorithm for spatial datastream,OLDStream),该算法在先前聚类结果上聚类增量空间数据,仅对新增空间点及其满足核心点条件的邻域数据做局部聚类更新,降低聚类更新的时间复杂度,实现对空间数据流的在线聚类.OLDStream算法具有快速处理大规模空间数据流、实时获取全局任意形状的聚类簇结果、对数据流的输入顺序不敏感、并能发现孤立点数据等优势.在真实数据和合成数据上的综合实验验证了算法的聚类效果、高效率性和较高的可伸缩性,同时实验结果的统计分析显示仅有4%的空间点消耗最坏运行时间,对每个空间点的平均聚类时间约为0.033 ms.  相似文献   

10.
在传统分段式数据流聚类算法中,在线部分中的微簇阈值半径T取值不精确以及离线部分对微聚类的处理相对简单,导致了聚类质量不高.针对这一缺点,在现有动态滑动窗口模型基础上,提出了一种针对离线部分处理的基于人工蜂群优化的数据流聚类算法.该算法包括两部分:(1)在线部分根据数据在窗口内停留的时间长短来动态调整窗口的大小和改进微簇阈值半径T的取值,逐步得到微簇集.(2)离线部分利用改进的蜂群算法不断动态调整来求出最优聚类结果.实验结果证明,本文算法不但有较高的聚类质量,而且有较好的延展性和稳定性.  相似文献   

11.
5G通讯技术的迅猛发展使工业物联网得到了全面提升, 工业物联网数据规模将越来越大、数据维度也越来越高, 如何高效利用流聚类进行工业物联网数据挖掘工作是一个亟需解决的问题. 提出了一种基于工业物联网数据流自适应聚类方法. 该算法利用微簇之间的高密性, 计算各微簇节点的局部密度峰值以自适应产生宏簇数; 采用引力能量函数对微...  相似文献   

12.
基于多策略优化的分治多层聚类算法的话题发现研究   总被引:1,自引:2,他引:1  
话题发现与跟踪是一项评测驱动的研究,旨在依据事件对语言文本信息流进行组织利用。自1996年提出以来,该研究得到了越来越广泛的关注。本文在研究已有成熟算法的基础上,提出了基于分治多层聚类的话题发现算法,其核心思想是把全部数据分割成具有一定相关性的分组,对各个分组分别进行聚类,得到各个分组内部的话题(微类) ,然后对所有的微类再进行聚类,得到最终的话题,在聚类的过程中采用多种策略进行优化,以保证聚类的效果。基于该算法的系统在TDT4中文语料上进行了测试,结果表明该算法属于目前结果最好的算法之一。  相似文献   

13.
便利体和障碍物下基于网格的空间聚类算法   总被引:1,自引:1,他引:0  
为了降低计算代价,在CLIQUE算法的基础上引入了便利网格和障碍网格等概念,提出了便利体和障碍物下基于网格的聚类算法(GBSCFO)。GBSCFO首先利用CLIQUE算法生成微簇,然后在微簇的粒度上计算障碍距离。通过理论分析和实验验证,GBSCFO具有较好的时间复杂度和聚类效果。  相似文献   

14.
提出一种密度敏感模糊核最大熵聚类算法.该算法首先通过核函数将原始非线性非高斯的数据集转化为核空间数据集,然后利用核函数的相似性抵消不属于该聚类的样本数据在聚类过程中对聚类中心求解的干扰,消除正则化系数对聚类结果的影响,进而抑制传统最大熵聚类算法的趋同性.最后通过引入相对密度项,解决因样本数据在特征空间的分布差异而导致的聚类中心求解偏差问题,从而提高聚类结果的准确性.实验部分,本文讨论了算法参数间的关系以及对聚类结果的影响.通过与传统模糊C均值聚类算法、核模糊C均值聚类算法、最大熵聚类算法、最大熵规范化权重核模糊C均值聚类算法以及其他两种改进最大熵聚类算法的聚类结果进行对比分析,结果表明本文提出的密度敏感模糊核最大熵聚类算法的聚类性能明显优于其他算法.  相似文献   

15.
针对模糊C均值聚类算法易受初始聚类中心影响且收敛速度慢的缺陷,提出一种基于二次网格优化的粒子群模糊聚类算法Grid-PFcm。该算法首先将数据空间网格化,依据深度优先遍历规则,连通相邻密集网格单元,计算连通网格的相对密度,选取相对密度值最大的连通网格,计算中心位置,初始化聚类中心。然后,按照基于网格空间的单维向量变化原理,实现最佳粒子全局寻优,进一步优化初始聚类中心,以降低初始聚类中心选取对聚类效果的影响度。最后,通过实验表明,该算法能够加快寻优收敛速度,提高聚类效率和效果。  相似文献   

16.
以KDDCUP99-10%网络入侵数据集作为数据流,提出一种混合属性数据流的两阶段入侵检测算法。通过增量聚类提取数据流的代表信息,根据提出的加权模糊簇特征对增量聚类结果做模糊聚类,簇数可动态改变。理论分析和实验结果表明,该算法可以有效检测数据流入侵。  相似文献   

17.
提出一种基于密度与分形维数的数据流聚类算法。采用在线/离线的两阶段框架,结合密度聚类和分形聚类的优点,克服传统数据流聚类算法的不足。针对数据流的时效性,在计算网格密度时对数据点使用衰减策略。实验结果表明,该算法能有效提高数据流聚类效率及聚类精度,且可以发现任意形状和距离非邻近的聚类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号