首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
提出了一种基于网格密度的混合聚类算法。该算法使用平方误差密度函数作为密度评估标准,避免了传统密度算法由于Eps和MinPts设置不当给聚类效果带来的不稳定因素。提出了动态邻域半径策略,解决了传统密度算法采用全局静态邻域半径造成的聚类偏差问题。对空间区域内的所有结点设置网格密度启发信息。在进行数据结构构造和邻域半径计算时,只需计算对应网格区域内结点,从而降低了计算成本;在进行区域查询时,只选择符合条件的代表对象进行扩展,从而减少了查询次数,节省了程序运行时间。对Pendigits数据集和SE-QUOIA 2000数据库进行测试,结果表明:提出的基于网格密度的混合快速聚类算法在海量数据聚类精度、聚类时间以及聚类稳定性上要优于传统的聚类算法。  相似文献   

2.
为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.  相似文献   

3.
现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究.利用模糊可扩展聚类框架,与模糊加权软子空间聚类算法相结合,提出了一种有效的模糊加权流数据软子空间聚类算法(FWSSC).实验结果表明,FWSSC对于高维流数据可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

4.
针对密度聚类算法无法应用于大规模数据集的问题,提出一种基于划分网格的密度聚类算法(GDSCAN)。将大规模二维点阵图划分为若干网格,网格最短边不小于给定邻域半径,目标点所在网格中任意点的邻域范围不会超过与该网格直接连接的网格,只需在保留网格内寻找邻域点,从而减少计算量;聚类从任意无类别核心点开始,将该点的所有密度可达组成一个簇,以此类推直至所有核心点都有类别;采用提出的GDSCAN算法对不同数量级的二维路网节点进行聚类验证。结果表明,GDSCAN算法可有效解决大规模二维点阵数据集中密度聚类的效率问题,数据量越大,效果越明显,且时间复杂度明显降低。  相似文献   

5.
分析了数据流的特点,针对数据流聚类算法CluStream对数据流中非球形聚类效果不好的情况,提出了基于数据流的不规则网格增量聚类算法IIGStream.IIGStream算法具备了传统网格聚类算法处理速度快的优点.同时能够动态增量地调整网格结构.对新到来的数据点,通过判断网格是否相连,保证了对于不同形状聚类的聚类效果.IIGStream在聚类时无需预先指定聚类数目.且对孤立点不敏感.在真实数据集与仿真数据集上的实验结果表明,IIGStream算法具有良好的适用性和有效性,在聚类精度以及速度上均优于CluStream算法.  相似文献   

6.
基于相对密度的聚类算法研究   总被引:1,自引:0,他引:1  
基于相对密度的聚类算法Red的基本思想是,根据给定的半径参数求出每个点的密度,并据其对数据集中的点按照从大到小的顺序进行排序,每次均从未被聚类的点中找出密度最大的点开始聚类。聚类时,先找出一个未被聚类的密度最大的点,找到所有可达该点的点作为一类,再对剩余未被聚类的数据集中找到一个密度最大的点用同样的方法继续聚类,最后输出各个类,将不属于任何类的点作为孤立点。  相似文献   

7.
针对聚类神经网络初始权值与样本分类数的设定问题,提出一种基于网格和密度的聚类神经网络结构优化算法.以网格和密度为工具提取聚类样本的聚类中心,并由此确定样本分类数,从而对聚类神经网络结构进行优化,可以有效地提高神经网络的聚类效果,缩短样本聚类时间.  相似文献   

8.
随着数据采集和通信技术的发展,对时时变化的不同来源的信息即数据流,实施实时监控将成为可能.数据流是大量的连续变化的数据序列,传输速度快,传统的挖掘算法将被适合于挖掘量大、能自由出入的数据流的技术所代替.笔者提出了用聚类技术来改进数据流挖掘的问题.笔者对K-均值算法、基于网格的统计聚类算法、回归分析算法等适用于数据流挖掘的算法进行了研究和分析,并对它们进行了比较.  相似文献   

9.
为了实现XML(extensible markup language)数据流的在线动态聚类,提出一种XML聚类特征指数直方图.该结构以XML时间聚类特征为基础,遵循指数直方图的维护规律.采用该结构的聚类算法在真实和模拟数据集上的实验结果说明:这一结构在聚类质量上可以达到甚至超过静态聚类方法;直方图个数固定时,内存开销基本稳定.  相似文献   

10.
流数据挖掘技术是数据挖掘领域的新研究方向之一,而聚类研究又是其重要的内容。本文介绍了流数据基本特点,在统一流聚类表示模型的基础上,对现有流数据聚类算法进行了总结,并进一步提出了流数据聚类技术的研究方向和前景。  相似文献   

11.
为了在高维数据流中有效地形成聚类,针对经典算法CELL-Tree存在的问题,提出一种新的概要数据结构PL-Tree以及基于此数据结构的算法PLStream,并采取衰减窗口模式来适应数据流的变化,采用剪枝策略控制内存中聚类模型的规模.实验表明,PLStream算法能较好地适应高维数据流,比CELL/Tre算法具有更好的时...  相似文献   

12.
对近年来不确定性数据聚类算法的研究现状与进展进行总结。首先对较有代表性的聚类算法,从思想、关键技术和优缺点等方面进行分析。其次选用数据集对基于密度的算法进行测试和对比分析。并给出基于不确定性数据的聚类算法,上述工作将为不确定数据管理提供有益的参考。  相似文献   

13.
与传统静态数据库中的数据不同,数据流是一个按时间到达的有序的项集,这使得经典的频繁项集挖掘算法难以适用到数据流中.根据数据流的特点,提出了数据流频繁项集挖掘算法FP—SegCount.该算法将数据流分段并利用改进的FP—growth算法挖掘分段中的频繁项集.然后,利用Count Min Sketch进行项集计数.算法解决了压缩统计和计算快速高效的问题.通过和FP—Ds算法的实验对比,FP—SegCount算法具有较好的时间效率.  相似文献   

14.
数据流挖掘中的主要问题是概念流动和噪音污染。目前的数据流挖掘算法不能有效地处理数据流中的噪音,而一个理想的学习算法应该同时拥有对概念流动的敏感性和对噪音的健壮性。文中探讨了如何使用聚类方法在数据流中区分出噪音实例和难以学习的实例,并提出了相应的概念流动检测方法。在此基础上设计了基于推进技术的集合分类器算法RobustBoosting。通过在合成数据集和实际数据集上的实验,表明文中的算法即使在高达40%的类噪音时,与AdaptiveBoosting算法[1]相比,仍能保持更高的分类准确度,更快地收敛到新的目标概念。  相似文献   

15.
针对现有的数据流聚类算法不能在线实时生成用户需要的聚类结果问题,提出一种基于滑动窗口的数据流在线聚类算法.该算法采用密度网格存储结构,实现了数据流的在线聚类过程,能实时地向用户提供聚类结果,动态地检测数据流的进化情况.实验结果表明,该方法具有快速在线聚类能力,并能保证良好的聚类质量.  相似文献   

16.
聚类效果往往依赖于密度和相似度的定义,并且当数据的维增加时,其复杂度也随之增加。该文基于共享型最近邻居聚类算法SNN,提出了一种改进的共享型最近邻居聚类算法RSNN,并将RSNN应用于高速公路交通数据集上,解决了SNN算法在"去噪"、孤立点和代表点的判断、聚类效果等方面的不足之处。实验结果表明,RSNN算法比SNN算法在时空数据集上具有更好的聚类效果。  相似文献   

17.
针对传统聚类算法对维度较低的数据集和纯数值型数据或纯分类型数据聚类效果较好,却很难适用于多维度多类别属性数据计算的问题,提出一种依靠提取主要指标属性的多属性聚类算法,这些主要指标可以最大限度反映原来指标的信息.该方法针对多类别属性将所有变量放在一起进行处理,提高了聚类效率.  相似文献   

18.
离群点检测算法研究   总被引:1,自引:0,他引:1  
离群点检测是数据挖掘中一项重要内容,通过对当前有代表性的离群点检测算法的分析和比较,对各算法的优缺点进行了总结.针对高维数据中离群点检测算法进行了分析和研究,提出了高维数据中离群点检测需要注意的一些问题,从而便于研究者以这些算法为基础,在此基础上提出新的改进算法.  相似文献   

19.
利用车牌照匹配技术获取的小样本旅行时间数据中通常夹杂大量异常点,无法直接用以表征当前交通状态及交通旅行时间数据的动态、离散、小样本等特性,在传统剔除算法的基础上,提出了一种统计分析与模糊C均值聚类相结合的异常点剔除新方法。将新剔除方法与传统剔除方式效果进行分析比较,得出一种精确度较高的异常点剔除方法。仿真结果表明,该方法在处理交通小样本数据上,大幅度提高了异常点检测的准确性,能够有效过滤异常数据。  相似文献   

20.
针对现有的分簇算法因存在数据回传现象使节点在能量利用效率方面存在不足的问题,提出了一种面向数据聚集的有向分簇算法,使节点数据总是沿着接近Sink的方向传输,避免了数据回传带来的能量浪费.仿真实验结果表明,有向分簇算法具有较高的能量利用效率,能延长传感器网络的生存周期.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号