首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
在实际应用中,人们往往比较关心最近一段时间内数据流的分布状况.在传统的基于界标模型的聚类算法CluStream中,没有淘汰过期元组,不能准确反映当前数据流的数据分布状况.滑动窗口是数据流中一种关注近期数据的近似方法.为了提高对流数据聚类分析的质量及效率,对算法clustream进行了改进,采用滑动窗口来支持数据处理.为了减少聚类操作中每次迭代的计算次数,算法采用改进的k-means来执行聚类操作.优化后的算法能及时淘汰过期元组,同时对新到达的元组不断进行实时处理,可以获得更准确的分析结果.与聚类算法CluStream相比,优化算法可获得较小的内存开销和快速的数据处理能力,聚类结果更合理清晰.  相似文献   

2.
基于密度的混合属性数据流聚类算法   总被引:2,自引:0,他引:2  
数据流聚类分析是当前数据挖掘研究的热点问题,为了克服数据流聚类框架CluStream算法不能处理混合属性数据流的缺陷,提出了基于密度的混合属性数据流聚类算法MCStream.在微聚类中使用面向维度的距离来度量对象之间的相似度,在宏聚类中使用改进的密度聚类算法M-DBSCAN对微簇进行聚类.实验结果表明,MCStream算法能快速有效地处理混合属性数据流聚类问题.  相似文献   

3.
为有效考虑大数据流环境中设备节点的内存、计算处理能力、电池电量等资源有限的问题,分析在资源约束的情况下,快速有效挖掘抽取知识的方法,并在K-means算法的基础上提出DRA-Kmeans聚类算法.结合基于资源约束的自适应聚类算法框架RA-Cluster算法,引入自适应聚类方法,对数据流聚类算法CluStream进行改进.该算法在资源受限时优化聚类有效范围,加大聚类精确度;增大聚类半径阈值,抑制新聚类的生成,减少有限资源消耗.  相似文献   

4.
针对CluStream算法对非球状簇聚类的不足,同时基于均匀网格划分的聚类算法多数是以降低聚类精度为代价来提高聚类效率,给出了一种新的数据流聚类算法一GTSClu算法,该算法是基于网格的最小生成树(MST)数据流聚类算法.算法分为在线处理与离线聚类两部分,并运用了网格拆分与最小生成树技术,可以有效排除噪声数据,发现任意...  相似文献   

5.
本文提出的基于网格的数据流聚类算法,克服了算法CluStream对非球形的聚类效果不好等缺陷,不仅能在噪声干扰下发现任意形状的类,而且有效地解决了聚类算法参数敏感和聚类结果无法区分密度差异等问题。  相似文献   

6.
提出的基于相对密度的数据流模糊聚类算法结合了相对密度聚类和模糊聚类的优点,能形成任意形状、多密度分辨率的层次聚类结果.同时,利用微簇空间位置重叠关系,定义了微簇集合间的差运算,从而有效地支持了用户指定时间窗口内的数据流聚类要求.通过与CluStream算法在聚类质量和处理时间两个方面的比较分析,发现基于相对密度的数据流模糊聚类算法具有明显的优势.  相似文献   

7.
分布式密度和中心点数据流聚类算法的研究   总被引:1,自引:0,他引:1  
分析分布式数据流聚类算法的基本框架结构,针对CluStream算法对非球形聚类效果不佳提出一种基于密度和中心点的分布式数据流聚类算法DDCS-Clustering(Distributed Density and Centers Stream Clustering)。该算法应用密度、中心点与衰减时间窗口,在分布式环境下对数据流进行聚类。实验结果表明,DDCS-Clustering算法具有较高的聚类质量与较低的通信代价。  相似文献   

8.
现有的数据流聚类算法大都只能处理单一数值属性的数据,不能应对同时包含数值属性与分类属性特征的数据,且已存在的混合属性数据流聚类算法在对数据的标准化处理和聚类上还有很大的改进之处,为此,提出二重k近邻混合属性数据流聚类算法.该算法采用CluStream算法的在线、离线框架,并提出了混合属性数据流下三步聚类的思想.算法先运用二重k近邻和改进的维度距离生成微聚类,然后利用动态标准化数据方法和基于均值的余弦模型生成初始宏聚类,最后利用基于均值的余弦模型和先验聚类结果进行宏聚类优化.实验结果表明,所提出的算法具有良好的聚类质量及可扩展性.  相似文献   

9.
数据流的网格密度聚类算法   总被引:3,自引:0,他引:3  
提出一种基于密度的实时数据流聚类算法RTCS.算法采用在线/离线双层框架,它在前台在线层快速实时地将到达的数据点放入相应的单元格,对多维数据和空间单元格动态计算密度.在后台离线层形成初始聚类,并不断地更新单元格的密度来自适应地调整聚类.RTCS算法能够根据密度的动态变化区分出真正的孤立点并剔除之,而这种剔除对后面的聚类结果没有影响.实验结果证明,算法可以很好地挖掘出各种形状的聚类,与CluStream算法相比,取得聚类的质量更高,有更快的处理速度,对数据维数和规模有更好的可扩展性.  相似文献   

10.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。  相似文献   

11.
基于相异度矩阵的混合属性数据流聚类算法   总被引:3,自引:1,他引:2       下载免费PDF全文
数据流的聚类是数据流挖掘的一个重要问题。提出一种针对混合属性的数据流聚类算法,它采用相异度来代替普通的聚类距离,并将等价相异度矩阵引入聚类过程。基于真实数据集的实验表明该算法比基地同类算法具有更好的聚类性能。  相似文献   

12.
一种面向高维符号数据的随机投影聚类算法   总被引:1,自引:0,他引:1  
现实数据往往分布在高维空间中,从整个向量空间来看,这些数据间的联系非常分散,因此如何降低维数实现高维数据的聚类受到众多研究者的普遍关注.介绍了一种适用于符号型高维数据的随机投影聚类算法.其根据频率选择与聚类相关的维向量,随机产生并根据投影聚类效果择优选择聚类中心及相关维向量,将投影聚类算法扩展至符号数据空间.实验结果证实了这种算法的实用性与有效性.  相似文献   

13.
基于数据流的BIRCH改进聚类算法   总被引:2,自引:0,他引:2  
数据流管理作为一种新兴课题正在逐渐受到国内外广大研究学者的重视,数据流聚类是其中的一个重要研究领域。论文基于BIRCH聚类算法,提出了一种M-BIRCH聚类算法,克服了BIRCH算法对非球形的聚类效果不佳等缺点。实验结果证明,M-BIRCH聚类算法在聚类质量上比BIRCH有较大提高。  相似文献   

14.
肖升生  刘鹏 《计算机应用研究》2011,28(10):3665-3670
为了深入地探索聚类结果簇的形态特征,提出了一种基于维度映射的类圆簇识别算法。该算法将结果簇按维度进行映射,通过比较、分析簇在各个映射维度上的频数曲线及形态特征,自动将类圆簇从众多结构复杂的聚类结果簇中识别出来。算法经过大量实验验证,具有很好的识别能力和抗干扰能力,对于高维度数据集合也具有很强的扩展性。  相似文献   

15.
针对目前聚类算法对大数据集的聚类分析中存在时间花费过大的问题,提出了一种基于最近邻相似性的数据集压缩算法。通过将若干个相似性最近邻的数据点划分成一个数据簇并随机选择簇头构成新的数据集,大大缩减了数据的规模。然后分别采用k-means算法和AP算法对压缩后的数据集进行聚类分析。实验结果表明,压缩后的数据集与原始数据集的聚类分析相比,在保证聚类准确率基本一致的前提下有效降低了聚类的花费时长,提高了算法的聚类性能,证明该数据集压缩算法在聚类分析中的有效性与可靠性。  相似文献   

16.
在北斗用户机的位置数据采集过程中,容易出现数据冗余现象。为此,分析导致数据冗余的原因,提出一种基于时序聚类的冗余数据压缩算法。该算法采用基于密度的聚类方法将数据集进行分簇,把属于同一类运动特征的位置数据归为一类,根据簇直径判断该簇是否为冗余数据,并对冗余数据进行压缩。实验结果表明,该算法可以正确标识冗余数据,实现数据压缩。  相似文献   

17.
半监督的仿射传播聚类   总被引:4,自引:0,他引:4       下载免费PDF全文
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号