首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
针对密度峰值聚类算法(DPC)不能自动确定聚类中心,并且聚类中心点与非聚类中心点在决策图上的显示不够明显的问题,设计了一种自动确定聚类中心的比较密度峰值聚类算法(ACPC).该算法首先利用距离的比较量来代替原距离参数,使潜在的聚类中心在决策图中更加突出;然后通过二维区间估计方法进行对聚类中心的自动选取,从而实现聚类过程...  相似文献   

2.
密度峰值聚类算法(Density Peaks Clustering,DPC),是一种基于密度的聚类算法,该算法具有不需要指定聚类参数,能够发现非球状簇等优点。针对密度峰值算法凭借经验计算截断距离[dc]无法有效应对各个场景并且密度峰值算法人工选取聚类中心的方式难以准确获取实际聚类中心的缺陷,提出了一种基于基尼指数的自适应截断距离和自动获取聚类中心的方法,可以有效解决传统的DPC算法无法处理复杂数据集的缺点。该算法首先通过基尼指数自适应截断距离[dc],然后计算各点的簇中心权值,再用斜率的变化找出临界点,这一策略有效避免了通过决策图人工选取聚类中心所带来的误差。实验表明,新算法不仅能够自动确定聚类中心,而且比原算法准确率更高。  相似文献   

3.
CFSFDP算法(Clustering by Fast Search and Find of Density Peaks)具有简单高效且需要较少参数的优点,但存在需要人为确定截断距离参数和聚类中心的不足。为克服以上不足,提出了自适应快速搜索密度峰值聚类算法。该算法针对截断距离参数的确定问题,构造关于截断距离参数的局部密度信息熵,通过最小化信息熵自适应地确定截断距离参数;针对聚类中心的确定问题,利用从非聚类中心到聚类中心数据点局部密度和距离的乘积,存在明显跳跃这一特征确定阈值,从而能自动确定聚类中心。实验结果表明该算法能够取得较好的聚类性能,且无需人为确定截断距离参数和聚类中心。  相似文献   

4.
CFSFDP是基于密度的新聚类算法,可聚类非球形数据集,具有聚类速度快实现简单等优点。CFSFDP需人工尝试确定密度阈值dc且对一个类中存在多密度峰值的数据无法进行准确聚类,为解决该缺点,本文提出基于近邻距离曲线和类合并优化CFSFDP(简称 NM-CFSFDP)的聚类算法。首先,算法用近邻距离曲线变化情况自动确定密度阈值dc;然后,用本文提出自动确定dc的CFSFDP对数据聚类;最后用本文计算dc值的方法指导类的合并,引入内聚程度衡量参数解决了类合并后不能撤销的难题,从而实现对多密度峰值数据的正确聚类。通过实验对比,NM-CFSFDP算法确实比CFSFDP算法具有更加精确的聚类效果。  相似文献   

5.
针对快速K-medoids聚类算法和方差优化初始中心的K-medoids聚类算法存在需要人为给定类簇数,初始聚类中心可能位于同一类簇,或无法完全确定数据集初始类簇中心等缺陷,受密度峰值聚类算法启发,提出了两种自适应确定类簇数的K-medoids算法。算法采用样本x i的t最近邻距离之和倒数度量其局部密度ρi,并定义样本x i的新距离δi,构造样本距离相对于样本密度的决策图。局部密度较高且相距较远的样本位于决策图的右上角区域,且远离数据集的大部分样本。选择这些样本作为初始聚类中心,使得初始聚类中心位于不同类簇,并自动得到数据集类簇数。为进一步优化聚类结果,提出采用类内距离与类间距离之比作为聚类准则函数。在UCI数据集和人工模拟数据集上进行了实验测试,并对初始聚类中心、迭代次数、聚类时间、Rand指数、Jaccard系数、Adjusted Rand index和聚类准确率等经典聚类有效性评价指标进行了比较,结果表明提出的K-medoids算法能有效识别数据集的真实类簇数和合理初始类簇中心,减少聚类迭代次数,缩短聚类时间,提高聚类准确率,并对噪音数据具有很好的鲁棒性。  相似文献   

6.
针对快速搜索和发现密度峰值聚类(CFSFDP)算法需人工在决策图上选择聚类中心的问题,提出一种基于密度峰值和密度聚类的集成算法。首先,借鉴CFSFDP思想,将局部密度最大的数据作为第一个中心;接着,从该中心点出发采用一种利用Warshall算法求解密度相连改进的基于密度的噪声应用空间聚类(DBSCAN)算法进行聚类,得到第一个簇;最后,在尚未被划分的数据中找出最大局部密度的数据,将它作为下一个簇的中心后再次采用上述算法进行聚类,直到所有数据被聚类或有部分数据被视为噪声。所提算法既解决了CFSFDP选择中心需人工干预的问题,又优化了DBSCAN算法,即每次迭代都是从当前最好的点(局部密度最大的点)出发寻找簇。通过可视化数据集和非可视化数据集与经典算法(CFSFDP、DBSCAN、模糊C均值(FCM)算法和K均值(K-means)算法)的对比实验结果表明,所提算法聚类效果更好,准确率更高,优于对比算法。  相似文献   

7.
密度峰值聚类算法综述   总被引:1,自引:0,他引:1  
密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望.  相似文献   

8.
机器学习的无监督聚类算法已被广泛应用于各种目标识别任务。基于密度峰值的快速搜索聚类算法(DPC)能快速有效地确定聚类中心点和类个数,但在处理复杂分布形状的数据和高维图像数据时仍存在聚类中心点不容易确定、类数偏少等问题。为了提高其处理复杂高维数据的鲁棒性,文中提出了一种基于学习特征表示的密度峰值快速搜索聚类算法(AE-MDPC)。该算法采用无监督的自动编码器(AutoEncoder)学出数据的最优特征表示,结合能刻画数据全局一致性的流形相似性,提高了同类数据间的紧致性和不同类数据间的分离性,促使潜在类中心点的密度值成为局部最大。在4个人工数据集和4个真实图像数据集上将AE-MDPC与经典的K-means,DBSCAN,DPC算法以及结合了PCA的DPC算法进行比较。实验结果表明,在外部评价指标聚类精度、内部评价指标调整互信息和调整兰德指数上,AE-MDPC的聚类性能优于对比算法,而且提供了更好的可视化性能。总之,基于特征表示学习且结合流形距离的AE-MDPC算法能有效地处理复杂流形数据和高维图像数据。  相似文献   

9.
密度峰值聚类算法(DPC)能够有效地进行非球形数据的聚类,该算法需要输入截断距离,人工截取聚类中心,导致DPC算法的聚类效果有时较差。针对这些问题,提出一种结合密度比和系统演化的密度峰值聚类算法(DS-DPC)。利用自然最近邻搜索得出各样本点的邻居数目,根据密度比思想改进密度计算公式,使其能够反映周围样本的分布情况;对局部密度与相对距离的乘积进行降序排列,根据排序值选出聚类中心,将剩余样本按照DPC算法的分配策略进行聚类,避免了手动选择聚类中心的主观性;利用系统演化方法判断聚类结果是否需要合并或分离。通过在多个数据集上进行实验,并与其他聚类算法进行比较,实验结果表明,该算法具有较好的聚类效果。  相似文献   

10.
针对密度峰值聚类算法(DPC)的聚类结果对截断距离dc的取值较为敏感、手动选取聚类中心存在着一定主观性的问题,提出了一种结合鲸鱼优化算法的自适应密度峰值聚类算法(WOA-DPC).利用加权的局部密度和相对距离乘积的斜率变化趋势实现聚类中心的自动选择,避免了手动选取导致的聚类中心少选或多选的情况;考虑到合理的截断距离dc...  相似文献   

11.
一种基于簇中心点自动选择策略的密度峰值聚类算法   总被引:1,自引:0,他引:1  
马春来  单洪  马涛 《计算机科学》2016,43(7):255-258, 280
针对基于密度峰值的聚类算法(CFSFDP)无法自行选择簇中心点的问题,提出了CFSFDP改进算法。该算法采用簇中心点自动选择策略,根据簇中心权值的变化趋势搜索“拐点”,并以“拐点”之前的一组点作为各簇中心,这一策略有效避免了通过决策图判决簇中心的方法所带来的误差。仿真实验采用5类数据集,并与DBSCAN及CFSFDP算法进行了对比,结果表明,CFSFDP改进算法具有较高的准确度及较强的鲁棒性,适用于较低维度的数据的聚类分析。  相似文献   

12.
《计算机科学与探索》2016,(11):1614-1622
密度峰聚类是一种新的基于密度的聚类算法,该算法不需要预先指定聚类数目,能够发现非球形簇。针对密度峰聚类算法需要人工确定聚类中心的缺陷,提出了一种自动确定聚类中心的密度峰聚类算法。首先,计算每个数据点的局部密度和该点到具有更高密度数据点的最短距离;其次,根据排序图自动确定聚类中心;最后,将剩下的每个数据点分配到比其密度更高且距其最近的数据点所属的类别,并根据边界密度识别噪声点,得到聚类结果。将新算法与原密度峰算法进行对比,在人工数据集和UCI数据集上的实验表明,新算法不仅能够自动确定聚类中心,而且具有更高的准确率。  相似文献   

13.
刘奕志  程汝峰  梁永全 《计算机科学》2018,45(2):125-129, 146
基于加权K近邻的密度峰值发现算法(FKNN-DPC)是一种简单、高效的聚类算法,能够自动发现簇中心,并采用加权K近邻的思想快速、准确地完成对非簇中心样本的分配,在各种规模、任意维度、任意形状的数据集上都能得到高质量的聚类结果,但其样本分配策略中的权重仅考虑了样本间的欧氏距离。文中提出了一种基于共享近邻的相似度度量方式,并以此相似度改进样本分配策略,使得样本的分配更符合真实的簇归属情况,从而提高聚类质量。在UCI真实数据集上进行实验,并将所提算法与K-means,DBSCAN,AP,DPC,FKNN-DPC等算法进行对比,验证了其有效性。  相似文献   

14.
针对密度峰值聚类算法(Density Peaks Clustering,DPC)需要人为指定截断距离d c,以及局部密度定义简单和一步分配策略导致算法在复杂数据集上表现不佳的问题,提出了一种基于自然最近邻的密度峰值聚类算法(Density Peaks Clustering based on Natural Nearest Neighbor,NNN-DPC)。该算法无需指定任何参数,是一种非参数的聚类方法。该算法首先根据自然最近邻的定义,给出新的局部密度计算方法来描述数据的分布,揭示内在的联系;然后设计了两步分配策略来进行样本点的划分。最后定义了簇间相似度并提出了新的簇合并规则进行簇的合并,从而得到最终聚类结果。实验结果表明,在无需参数的情况下,NNN-DPC算法在各类数据集上都有优秀的泛化能力,对于流形数据或簇间密度差异大的数据能更加准确地识别聚类数目和分配样本点。与DPC、FKNN-DPC(Fuzzy Weighted K-nearest Density Peak Clustering)以及其他3种经典聚类算法的性能指标相比,NNN-DPC算法更具优势。  相似文献   

15.
由于人们对事物认知的局限性和信息的不确定性,在对决策问题进行聚类分析时,传统的模糊聚类不能有效解决实际场景中的决策问题,因此有学者提出了有关犹豫模糊集的聚类算法.现有的层次犹豫模糊K均值聚类算法没有利用数据集本身的信息来确定距离函数的权值,且簇中心的计算复杂度和空间复杂度都是指数级的,不适用于大数据环境.针对上述问题,...  相似文献   

16.
基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.再根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行bagging集成分类.实验表明,文中方法在大多数数据集上性能表现较优.  相似文献   

17.
针对密度峰值聚类算法的决策函数不能自动有效地确定聚类中心的问题,提出自动确定聚类中心的密度峰值聚类算法.首先,通过归一化处理,使决策函数中的两个变量分布均匀.然后,在确定聚类中心时,提出正序迭代选择策略,即根据聚类核心点数目的变化趋势搜索拐点,并以拐点之前的点作为聚类中心,完成聚类.最后,在UCI数据集上验证文中算法的性能,算法在未提高时间复杂度的情况下,可以对任意分布形状的数据集进行聚类,具有较好的适应性和聚类效果.  相似文献   

18.
为了克服聚类算法对灰度不均匀和有噪声的医学图像分割存在鲁棒性较差等缺点,提出一种基于核密度估计的密度聚类方法分割医学图像.在分析DENCLUE密度聚类算法的思想及爬山策略存在的三个问题的基础上,改进了此密度聚类的爬山策略,并设计了适合于人体组织器官图像分割的DCMIS(Density Clustering based Medical Image Segmentation)算法.该算法先用核密度估计数学模型描述医学图像,然后用改进的爬山算法识别聚类,最后根据聚类分割医学图像.该算法有容忍大量噪声数据等特性.实验结果中的欠分割率、过分割率和错误分割率表明DCMIS比DENCLUE和FCM算法有更好的性能和较好的医学图像分割效能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号