共查询到18条相似文献,搜索用时 78 毫秒
1.
分析了数据流的特点,针对数据流聚类算法CluStream对数据流中非球形聚类效果不好的情况,提出了基于数据流的不规则网格增量聚类算法IIGStream.IIGStream算法具备了传统网格聚类算法处理速度快的优点.同时能够动态增量地调整网格结构.对新到来的数据点,通过判断网格是否相连,保证了对于不同形状聚类的聚类效果.IIGStream在聚类时无需预先指定聚类数目.且对孤立点不敏感.在真实数据集与仿真数据集上的实验结果表明,IIGStream算法具有良好的适用性和有效性,在聚类精度以及速度上均优于CluStream算法. 相似文献
2.
《信息工程大学学报》2014,15(4)
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。
相似文献
3.
为了在高维数据流中有效地形成聚类,针对经典算法CELL-Tree存在的问题,提出一种新的概要数据结构PL-Tree以及基于此数据结构的算法PLStream,并采取衰减窗口模式来适应数据流的变化,采用剪枝策略控制内存中聚类模型的规模.实验表明,PLStream算法能较好地适应高维数据流,比CELL/Tre算法具有更好的时... 相似文献
4.
针对传统多目标跟踪算法在航迹初始阶段易受杂波干扰,提出一种交互多模型核预估数据流聚类的多目标跟踪算法(CE_DMTT)。对数据流进行在线聚类,并运用交互式多模型预估类核位置,缩小聚类搜索范围,同时引入Renyi熵,对聚类进行自适应提取,获取潜在航迹。然后基于潜在航迹运用多假设跟踪算法实现实时跟踪。仿真结果表明,该算法有效减少计算复杂度,提高系统实时性。 相似文献
5.
数据流聚类分析是数据流挖掘领域的重要分支。由于数据流海量、快速、动态到达,传统的静态数据挖掘技术不能满足在线分析的需求。数据流聚类的核心是设计单遍数据集扫描算法,在有限的内存中存储少量概要特征信息,实现数据流实时、在线聚类分析。采用数据流处理中广泛应用的滑动窗口模型,提出一种新的基于增量傅立叶变换(DFT)的数据流概要算法,并在此基础上运用k-均值(k-means)聚类,实现数据流的在线挖掘。基于增量DFT概要的数据流聚类算法可减少运行时间,节省内存空间,实际用电负荷数据证明了算法的有效性。 相似文献
6.
7.
障碍约束下的空间聚类问题具有很强的实用价值,是近几年来空间数据挖掘研究领域的一个热点,研究和分析了现有的障碍约束空间聚类算法,针对其中存在的问题,提出了一种新的基于密度和网格的障碍约束下空间聚类算法,该算法在CLICQU算法的基础上,引入障碍网格的概念和障碍物的网格化表达,使其能够处理任意形状的障碍约束聚类,通过理论分析和实验验证,该算法具有较好的时间复杂度和聚类效果。 相似文献
8.
陆亿红 《浙江工业大学学报》2007,35(3):288-291
随着数据采集和通信技术的发展,对时时变化的不同来源的信息即数据流,实施实时监控将成为可能.数据流是大量的连续变化的数据序列,传输速度快,传统的挖掘算法将被适合于挖掘量大、能自由出入的数据流的技术所代替.笔者提出了用聚类技术来改进数据流挖掘的问题.笔者对K-均值算法、基于网格的统计聚类算法、回归分析算法等适用于数据流挖掘的算法进行了研究和分析,并对它们进行了比较. 相似文献
9.
10.
基于分布模型的层次聚类算法 总被引:1,自引:0,他引:1
提出了一种新的层次聚类算法,先对数据集进行采样,以采样点为中心吸收邻域内的数据点形成子簇,再根据子簇是否相交实现层次聚类。在层次聚类过程中,重新定义了簇与簇之间的距离度量,并以此为基础建立堆结构。利用估计数据点总体分布的思想,证明该算法将逼近最优解。实验结果表明,算法的聚类效果大大优于现有的聚类算法。 相似文献
11.
一种新的聚类算法:等密度线算法 总被引:7,自引:3,他引:7
提出了一种新的聚类算法:等密度线聚类算法。该算法从样本分布等密度线图的思想出发,从图中找出样本分布比较集中的区域,从而发现隐含在样本集中的类。等密度线聚类算法不需要输入任何参数,是一种无监督式聚类。它能够自动发现任意形状的类,并且能有效地排除噪声干扰。实验结果表明,等密度线聚类算法具有较快的聚类速度和较好的聚类效果。 相似文献
12.
聚类分析是数据挖掘领域中一种非常有用的技术,它用于从大量数据中寻找隐含的数据分布模式,主要有分割法、层次法、密度法、网格法和模型法等。该文主要讨论数据挖掘中一种基于密度和网格的聚类分析算法及其在客户关系管理中的应用。该算法具有较高的聚类效率而且容易实现,可以发现任意形状的聚类,时间复杂度低,聚类精度高,适用于数据的批量更新。该文还提出增量式聚类技术,它不仅能够利用前期聚类的结果,充分提高聚类分析的效率,而且可以降低维护知识库所带来的巨大开销。实验证明了算法的有效性。 相似文献
13.
基于K-means聚类算法的分析及应用 总被引:7,自引:0,他引:7
聚类分析能作为一个独立的工具来获得数据分布的情况,观察每一个簇的特点,集中对特定的某些簇作进一步的分析;本文主要介绍了传统聚类算法及其局限性,然后对直接K-means算法进行分析改进,着重分析了该算法的思想体系以及它的优缺点,针对它的缺点之一提出了一种基于距离的改进策略,并将该改进策略应用到对学生成绩的分析中,实验目的是应用该算法将学生划分为合理的簇(或类)以及对聚类结果进行分析,总之实验表明了该算法的灵活性以及在此应用中的适用性. 相似文献
14.
基于最近邻优先的高效聚类算法 总被引:12,自引:1,他引:12
针对高维空间中任意形状的多层次聚类问题,基于“同类相近”的思想,提出并实现了最近邻优先吸收聚类算法NNAF算法。证明了最近邻点搜索定理,基于这一定理又提出了SNN(Searching Nearest Neighbors)算法和GSNN(Grid-based Searching Nearest Neighbors)算法,其时间复杂度为O(n*log(n)),当用扫描图像所得数据时,时间复杂度会降为O(n);而使用传统的搜索算法,时间复杂度为O(n^2);提出了实现任意形状高维空间聚类的NNAF算法,时间复杂度为O(n);提出了MLCA(Multi-layer Cluster Algorithm)算法并证明了两个相关的定理,在改变阈值后重新聚类时,使用MLCA算法可以节省90%以上的时间。实验结果显示,以上算法适应于任意形状的高维空间数据的聚类,可以有效过滤噪声数据,且用户需要的先验知识少、可快速获得各种层次的聚类结果。 相似文献
15.
网格聚类在多雷达数据融合算法中的应用 总被引:1,自引:0,他引:1
应用网格聚类的方法区分同一雷达接收的不同目标的观测数据,通过类间数据融合,实现同一目标不同雷达接收数据的融合,以便对多目标进行实时跟踪。研究了观测数据网格聚类的基本思想、形式化描述及算法实现,讨论了对机动目标跟踪的Kalman滤波方程及空管系统中易于计算的各参数矩阵理论依据及相应的初值。仿真结果表明,通过网格聚类能很好地区分不同目标,聚类后再进行跟踪融合更加准确。 相似文献
16.
针对网络流量在线识别的难题,提出一种聚类算法和在线流量识别方案.以网络数据流的若干初始数据包作为子流,提取子流的统计特征,应用基于滤波器算法的属性相关性算法提取子流最佳特征子集,并提出基于密度的在线带噪声空间聚类算法对子流特征向量进行聚类,采用优势概率业务实现聚类和应用类型的映射.实验结果表明,该方案具备识别新应用类型和加密数据流的功能,且能实现在线的网络流量分类. 相似文献
17.
迭代自组织数据分析算法(ISODATA)是一种基于统计模式识别的非监督学习动态聚类算法。针对当前各算法初始聚类数取值困难、容易陷入局部最优等问题,介绍了ISODATA的原理和实现步骤,并将此算法应用于负荷分类中。在MATLAB中结合具体日负荷曲线样本进行聚类分析,结果证明聚类效果较好。将ISODATA与各种传统聚类方法进行了对比实验,比较各种算法的聚类效果、预定聚类数目对算法结果的影响,以及初始聚类中心的选择对结果的影响。对比结果证明,此方法适用于负荷分类的研究。 相似文献
18.
In
traditional data clustering, similarity of a cluster of objects is measured by distance
between objects. Such measures are not appropriate for categorical data. A new clustering
criterion to determine the similarity between points with categorical attributes is
presented. Furthermore, a new clustering algorithm for categorical attributes is
addressed. A single scan of the dataset yields a good clustering, and more additional
passes can be used to improve the quality further. 相似文献