首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

2.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

3.
基于改进的启发式蚁群算法的聚类问题的研究   总被引:1,自引:0,他引:1  
蚁群算法是优化领域中新出现的一种仿生进化算法,广泛应用于求解复杂组合优化问题,并已在通信网络、机器人等许多应用领域得以具体应用。聚类问题作为一种无监督的学习,能根据数据间的相似程度自动地进行分类。基于蚁群算法的聚类算法已经在当前的数据挖掘研究中得到应用。文中针对早期蚁群聚类算法的缺点,提出一种改进的启发式蚁群聚类算法(IHAC),将蚁群在多维空间中移动的启发式知识存储在称之为“记忆银行”的设备当中,来指导蚁群后边的移动行为,降低蚁群移动的随意性,避免产生未分配的数据对象。并用一些数据做了一些实验,结果证明改进的蚁群聚类算法在误分类错误率和运行时间上优于早期的蚁群聚类算法。  相似文献   

4.
蚁群算法是优化领域中新出现的一种仿生进化算法,广泛应用于求解复杂组合优化问题,并已在通信网络、机器人等许多应用领域得以具体应用。聚类问题作为一种无监督的学习,能根据数据间的相似程度自动地进行分类。基于蚁群算法的聚类算法已经在当前的数据挖掘研究中得到应用。文中针对早期蚁群聚类算法的缺点,提出一种改进的启发式蚁群聚类算法(IHAC),将蚁群在多维空间中移动的启发式知识存储在称之为"记忆银行"的设备当中,来指导蚁群后边的移动行为,降低蚁群移动的随意性,避免产生未分配的数据对象。并用一些数据做了一些实验,结果证明改进的蚁群聚类算法在误分类错误率和运行时间上优于早期的蚁群聚类算法。  相似文献   

5.
现有的基于密度优化初始聚类中心的k-means算法存在聚类中心的搜索范围大、消耗时间久以及聚类结果对孤立点敏感等问题,针对这些问题,提出了一种基于平均密度优化初始聚类中心的k-means算法adk-means。该算法将数据集中的孤立点划分出来,计算出剩余数据集样本的平均密度,孤立点不参与聚类过程中各类所含样本均值的计算;在大于平均密度的密度参数集合中选择聚类中心,根据最小距离原则将孤立点分配给离它最近的聚类中心,直至将数据集完整分类。实验结果表明,这种基于平均密度优化初始聚类中心的k-means算法比现有的基于密度的k-means算法有更快的收敛速度,更强的稳定性及更高的聚类精度,消除了聚类结果对孤立点的敏感性。  相似文献   

6.
一种改进的基于密度的聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,但处理大数据集时效果不佳,为此提出了一种改进的算法M-DBSCAN,保留了基于密度聚类算法的优点,同时克服了以往算法不能处理大数据集的缺点。实验结果证明,M-DBSCAN聚类算法在聚类质量及速度上都比原DBSCAN有较大提高。  相似文献   

7.
为克服当前密度聚类算法存在的随机性、主观性和连带错误等问题,提出一种基于两阶段搜索的密度聚类算法。给出密度阈值和簇最近邻定义及计算方法。采用密度排序、簇最近邻分配和自适应搜索策略构建算法的两阶段聚类机制,设计邻域递归搜索和簇最近邻搜索两个阶段的聚类算法,实现不同密度数据点的准确聚类。8个数据集聚类实验结果表明,该密度聚类算法聚类稳定,无噪声,且自动确定类簇数,聚类精度优于比较的密度聚类算法。  相似文献   

8.
一种基于密度的高性能增量聚类算法   总被引:4,自引:1,他引:4       下载免费PDF全文
刘建晔  李芳 《计算机工程》2006,32(21):76-78
提出并证明了一种基于密度的高性能增量聚类算法,算法的主要工作包括:(1)利用分区和抽样技术对数据进行抽取和清理。(2)利用密度和网格技术对数据进行聚类。(3)改变阈值后提出一种增量算法,只对受影响的点重新计算聚类。(4)在动态环境下,数据增删后的增量聚类算法。实验证明,该算法能很好地处理高维数据,有效过滤噪声数据,大大节省聚类时间。  相似文献   

9.
章曼  张正军  冯俊淇  严涛 《计算机应用》2022,42(6):1914-1921
针对基于快速搜索和发现密度峰值的聚类(CFSFDP)算法中截断距离需要人工选取,以及最近邻分配带来的误差导致的在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类(ARD-DPC)算法。该算法利用非参数核密度估计方法计算点的局部密度,根据决策图选取聚类中心,并利用自适应可达距离分配数据点,从而得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法ARD-DPC与基于快速搜索和发现密度峰值的聚类(CFSFDP)、基于密度的噪声应用空间聚类(DBSCAN)、基于密度自适应距离的密度峰聚类(DADPC)算法进行了比较,实验结果表明,相比其他三种算法,ARD-DPC算法在7个数据集上的标准化互信息(NMI)、兰德指数(RI)和F1-measure取得了最大值,在2个数据集分别取得F1-measure和NMI的最大值,只对模糊度较高、聚类特征不明显的Pima数据集聚类效果不佳;同时,ARD-DPC算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。  相似文献   

10.
面向复杂簇的聚类算法研究与实现   总被引:2,自引:0,他引:2  
有效聚类各种复杂的数据对象簇是聚类算法应用干事务对象划分、图像分割、机器学习等方面需要解决的关键技术.在分析与研究现有聚类算法的基础上,提出一种基于密度和自适应密度可达的改进算法.实验证明,该算法能够有效聚类任意分布形状、不同密度、不同尺度的簇;同时,算法的计算复杂度与传统基于密度的聚类算法相比有明显的降低.  相似文献   

11.
基于密度复杂簇聚类算法研究与实现   总被引:1,自引:2,他引:1       下载免费PDF全文
聚类算法在模式识别、数据分析、图像处理、以及市场研究的应用中,需要解决的关键技术是如何有效地聚类各种复杂的数据对象簇。在分析与研究现有聚类算法的基础上,提出了一种基于密度和自适应密度可达的改进算法。实验证明,该算法能够有效聚类任意分布形状、不同密度、不同尺度的簇;同时,算法的计算复杂度与传统基于密度的聚类算法相比有明显的降低。  相似文献   

12.
基于粒计算的K-medoids聚类算法   总被引:1,自引:0,他引:1  
马箐  谢娟英 《计算机应用》2012,32(7):1973-1977
传统K-medoids聚类算法的聚类结果随初始中心点不同而波动,且计算复杂度较高不适于处理大规模数据集;快速K-medoids聚类算法通过选择合适的初始聚类中心改进了传统K-medoids聚类算法,但是快速K-medoids聚类算法的初始聚类中心有可能位于同一类簇。为克服传统K-medoids聚类算法和快速K-medoids聚类算法的缺陷,提出一种基于粒计算的K-medoids聚类算法。算法引入粒度概念,定义新的样本相似度函数,基于等价关系产生粒子,根据粒子包含样本多少定义粒子密度,选择密度较大的前K个粒子的中心样本点作为K-medoids聚类算法的初始聚类中心,实现K-medoids聚类。UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明了基于粒计算的K-medoids聚类算法能得到更好的初始聚类中心,聚类准确率和聚类误差平方和优于传统K-medoids和快速K-medoids聚类算法,具有更稳定的聚类结果,且适用于大规模数据集。  相似文献   

13.
针对数据集中数据分布密度不均匀以及存在噪声点,噪声点容易导致样本聚类时产生较大的偏差问题,提出一种基于网络框架下改进的多密度SNN聚类算法。网格化递归划分数据空间成密度不同的网格,对高密度网格单元作为类簇中心,利用网格相对密度差检测出在簇边界网格中包含噪声点;使用改进的SNN聚类算法计算边界网格内样本数据点的局部密度,通过数据密度特征分布对噪声点进行类簇分配,从而提高聚类算法的鲁棒性。在UCI高维的数据集上的实验结果表明,与传统的算法相比,该算法通过网格划分数据空间和局部密度峰值进行样本类簇分配,有效地平衡聚类效果和时间性能。  相似文献   

14.
启发式聚类算法采用局部搜索策略发现使得目标函数取极小值的聚类结果,即局部最优聚类结果。算法虽然具有收敛速度快等优点,但是初始解敏感问题严重地影响了聚类结果的质量。利用多个局部最优聚类结果中的共有信息设计启发式聚类算法。首先给出共有信息的定义及其发现算法FCI_G;然后利用共有信息设计启发式聚类算法CIGC;最后在多组仿真和实际数据集上考察了CIGC算法的性能。实验结果表明,共有信息对提高聚类算法质量有着显著的作用。  相似文献   

15.
针对具有噪声的基于密度的空间聚类(DBSCAN)算法使用固定参数Eps和Minpts,导致多密度的数据聚类效果不理想的问题,提出了一种适合多密度的DBSCAN改进算法.对数据进行预处理,识别出每个数据对象周围的密度,据此自动生成适合本区域密度的密度阈值.聚类结束前,采用密度阈值进行扩展聚类;进行下一个簇的聚类时自动生成适合本区域的密度阈值,依次进行,直到达到聚类停止条件.大量实验表明:所提算法能有效地对多密度,任意形状的数据进行聚类.  相似文献   

16.
邱保志  唐雅敏 《计算机应用》2017,37(12):3482-3486
针对如何快速寻找密度骨架、提高高维数据聚类准确性的问题,提出一种快速识别高密度骨架的聚类(ECLUB)算法。首先,在定义了对象局部密度的基础上,根据互k近邻一致性及近邻点局部密度关系,快速识别出高密度骨架;然后,对未分配的低密度点依据邻近关系进行划分,得到最终聚类。人工合成数据集及真实数据集上的实验验证了所提算法的有效性,在Olivetti Face数据集上的聚类结果显示,ECLUB算法的调整兰德系数(ARI)和归一化互信息(NMI)分别为0.8779和0.9622。与经典的基于密度的聚类算法(DBSCAN)、密度中心聚类算法(CFDP)以及密度骨架聚类算法(CLUB)相比,所提ECLUB算法效率更高,且对于高维数据聚类准确率更高。  相似文献   

17.
基于扩展和网格的多密度聚类算法   总被引:6,自引:1,他引:6  
邱保志  沈钧毅 《控制与决策》2006,21(9):1011-1014
提出了网格密度可达的聚类概念和边界处理技术,并在此基础上提出一种基于扩展的多密度网格聚类算法。该算法使用网格技术提高聚类的速度,使用边界处理技术提高聚类的精度,每次聚类均从最高的密度单元开始逐步向周围扩展形成聚类.实验结果表明,该算法能有效地对多密度数据集和均匀密度数据集进行聚类,具有聚类精度高等优点.  相似文献   

18.
BK-means:骨架初始解K-means   总被引:2,自引:0,他引:2       下载免费PDF全文
K-means是典型的启发式聚类算法,容易受到初始解的影响而无法获得高质量的聚类结果。骨架是近年来启发式算法设计的研究热点,它是指所有全局最优解中相同的部分,对于提高启发式算法性能具有重要意义。给出的骨架初始解K-means算法(BK-means)的基本思想是:首先利用K-means算法得到一组局部最优解(聚类结果),通过对局部最优解求交得到骨架簇。利用骨架簇构造骨架初始解及新的搜索空间。最后以骨架初始解引导K-means算法在新的搜索空间中搜索聚类结果。在15组仿真数据集和4组实际数据集上的实验结果表明,BK-means算法具有获得高内聚、高分离的聚类结果能力。  相似文献   

19.
基于密度的增量式网格聚类算法   总被引:29,自引:0,他引:29  
提出基于密度的网格聚类算法GDcA,发现大规模空间数据库中任意形状的聚类.该算法首先将数据空间划分成若干体积相同的单元,然后对单元进行聚类只有密度不小于给定阈值的单元才得到扩展,从而大大降低了时间复杂性在GDcA的基础上,给出增量式聚类算法IGDcA,适用于数据的批量更新.  相似文献   

20.
针对K-Prototypes聚类算法中人为指定初始聚类中心和聚类数目导致算法准确度和稳定性低下的问题,提出了基于密度优化的K-Prototypes聚类算法,该算法根据数据对象的密度分布,自适应地优化聚类数目和初始聚类中心的设置,并通过区分每个属性对聚类结果的不同影响权重,改进相异度计算公式,提升聚类的准确度。在合成数据集和UCI数据集上实验结果表明,该算法与K-Prototypes算法、DPCM算法和Fuzzy K-Prototypes算法相比,平均准确率分别提高了8.52%、4.28%和8.33%,达到了相对较好的聚类结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号