首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
针对密度分布不均数据,密度峰值聚类算法易忽略类簇间样本的疏密差异,导致误选类簇中心;分配策略易将稀疏区域的样本误分到密集区域,导致聚类效果不佳的问题,本文提出一种面向密度分布不均数据的加权逆近邻密度峰值聚类算法。该算法首先在局部密度公式中引入基于sigmoid函数的权重系数,增加稀疏区域样本的权重,结合逆近邻思想,重新定义了样本的局部密度,有效提升类簇中心的识别率;其次,引入改进的样本相似度策略,利用样本间的逆近邻及共享逆近邻信息,使得同一类簇样本间具有较高的相似度,可有效改善稀疏区域样本分配错误的问题。在密度分布不均、复杂形态和UCI数据集上的对比实验表明,本文算法的聚类效果优于IDPC-FA、FNDPC、FKNN-DPC、DPC和DPCSA算法。  相似文献   

2.
流形数据由一些弧线状或环状的类簇组成,其特点是同一类簇的样本间距离差距较大。密度峰值聚类算法不能有效识别流形类簇的类簇中心且分配剩余样本时易引发样本的连续误分配问题。为此,本文提出面向流形数据的共享近邻密度峰值聚类(density peaks clustering based on shared nearest neighbor for manifold datasets,DPC-SNN)算法。提出了一种基于共享近邻的样本相似度定义方式,使得同一流形类簇样本间的相似度尽可能高;基于上述相似度定义局部密度,不忽略距类簇中心较远样本的密度贡献,能更好地区分出流形类簇的类簇中心与其他样本;根据样本的相似度分配剩余样本,避免了样本的连续误分配。DPC-SNN算法与DPC、FKNNDPC、FNDPC、DPCSA及IDPC-FA算法的对比实验结果表明,DPC-SNN算法能够有效发现流形数据的类簇中心并准确完成聚类,对真实以及人脸数据集也有不错的聚类效果。  相似文献   

3.
刘奕志  程汝峰  梁永全 《计算机科学》2018,45(2):125-129, 146
基于加权K近邻的密度峰值发现算法(FKNN-DPC)是一种简单、高效的聚类算法,能够自动发现簇中心,并采用加权K近邻的思想快速、准确地完成对非簇中心样本的分配,在各种规模、任意维度、任意形状的数据集上都能得到高质量的聚类结果,但其样本分配策略中的权重仅考虑了样本间的欧氏距离。文中提出了一种基于共享近邻的相似度度量方式,并以此相似度改进样本分配策略,使得样本的分配更符合真实的簇归属情况,从而提高聚类质量。在UCI真实数据集上进行实验,并将所提算法与K-means,DBSCAN,AP,DPC,FKNN-DPC等算法进行对比,验证了其有效性。  相似文献   

4.
密度峰值聚类(DPC)将数据样本点的局部密度和相对距离进行结合,能对任意形状数据集进行聚类处理,但密度峰值聚类算法存在主观选择截断距离、简单分配策略和较高时间复杂度等问题。为此,提出了一种基于网格近邻优化的密度峰值聚类算法(KG-DPC算法)。首先对数据空间进行网格化,减少了样本数据点之间距离的计算量;在计算局部密度时不仅考虑了网格自身的密度值,而且考虑了周围k个近邻的网格密度值,降低了主观选择截断距离对聚类结果的影响,提高了聚类准确率,设定网格密度阈值,保证了聚类结果的稳定性。通过实验结果表明,KG-DPC算法比DBSCAN、DPC和SDPC算法在聚类准确率上有很大提升,在聚类平均消耗时间上DPC、SNN-DPC和DPC-NN算法分别降低38%、44%和44%。在保证基本聚类准确率的基础上,KG-DPC算法在聚类效率上有特定优势。  相似文献   

5.
密度峰值聚类算法的局部密度定义未考虑密度分布不均数据类簇间的样本密度差异影响, 易导致误选类簇中心; 其分配策略依据欧氏距离通过密度峰值进行链式分配, 而流形数据通常有较多样本距离其密度峰值较远, 导致大量本应属于同一个类簇的样本被错误分配给其他类簇, 致使聚类精度不高. 鉴于此, 本文提出了一种K近邻和加权相似性的密度峰值聚类算法. 该算法基于样本的K近邻信息重新定义了样本局部密度, 此定义方式可以调节样本局部密度的大小, 能够准确找到密度峰值; 采用样本的共享最近邻及自然最近邻信息定义样本间的相似性, 摒弃了欧氏距离对分配策略的影响, 避免了样本分配策略产生的错误连带效应. 流形及密度分布不均数据集上的对比实验表明, 本文算法能准确找到疏密程度相差较大数据集的密度峰值, 避免了流形数据的分配错误连带效应, 得到了满意的聚类效果; 同时在真实数据集上的聚类效果也十分优秀.  相似文献   

6.
张清华  周靖鹏  代永杨  王国胤 《软件学报》2023,34(12):5629-5648
密度峰值聚类(density peaks clustering, DPC)是一种基于密度的聚类算法,该算法可以直观地确定类簇数量,识别任意形状的类簇,并且自动检测、排除异常点.然而, DPC仍存在些许不足:一方面, DPC算法仅考虑全局分布,在类簇密度差距较大的数据集聚类效果较差;另一方面, DPC中点的分配策略容易导致“多米诺效应”.为此,基于代表点(representative points)与K近邻(K-nearest neighbors, KNN)提出了RKNN-DPC算法.首先,构造了K近邻密度,再引入代表点刻画样本的全局分布,提出了新的局部密度;然后,利用样本的K近邻信息,提出一种加权的K近邻分配策略以缓解“多米诺效应”;最后,在人工数据集和真实数据集上与5种聚类算法进行了对比实验,实验结果表明,所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果.  相似文献   

7.
密度峰值聚类算法(DPC)是一种简单高效的无监督聚类算法,能够快速找到聚类中心完成聚类。该算法通过截断距离定义局部密度未考虑样本点的空间分布特征;通过决策图选择聚类中心点,具有较强人为主观性;在分配样本点时采用单一分配策略,易产生连带错误。因此提出一种自适应聚类中心策略优化的密度峰值聚类算法(ADPC),采用共享近邻定义两点之间的相似性度量,重新定义了局部密度,使局部密度反应样本间的空间分布特征;通过相邻点之间斜率差分确定样本密度ρ与相对距离δ的乘积γ值的“拐点”,并对γ进行幂函数变换,以提高潜在聚类中心与非聚类中心的区分度,利用决策函数确定潜在的聚类中心,再通过潜在聚类中心之间距离均值自适应确定真实聚类中心;优化了非聚类中心点的分配策略。通过在UCI以及人工数据集上进行实验,该算法都可以自适应准确选定聚类中心,且在一定程度上提高了聚类性能。  相似文献   

8.
针对密度峰值聚类算法(DPC)在处理维数较高、含噪声及结构复杂数据集时聚类性能不佳问题,提出一种结合K近邻的改进密度峰值聚类算法(IDPCA)。该算法首先给出新的局部密度度量方法来描述每个样本在空间中的分布情况,然后引入核心点的概念并结合K近邻思想设计了全局搜索分配策略,通过不断将核心点的未分配K近邻正确归类以加快聚类速度,进而提出一种基于K近邻加权的统计学习分配策略,利用剩余点的K近邻加权信息来确定其被分配到各局部类的概率,有效提高了聚类质量。实验结果表明,IDPCA算法在21个典型的测试数据集上均有良好的适用性,而在与DPC算法及另外3种典型聚类算法的性能指标对比上,其优势更为明显。  相似文献   

9.
密度峰值聚类算法是一种新颖的密度聚类算法,但是原算法仅仅考虑了数据的全局结构,在对分布不均匀的数据集进行聚类时效果不理想,并且原算法仅仅依据决策图上各点的分布情况来选取聚类中心,缺乏可靠的选取标准。针对上述问题,提出了一种基于加权K近邻的改进密度峰值聚类算法,将最近邻算法的思想引入密度峰值聚类算法,重新定义并计算了各数据点的局部密度,并通过权值斜率变化趋势来判别聚类中心临界点。通过在人工数据集上与UCI真实数据集上的实验,将该改进算法与原密度峰值聚类、K-means及DBSCAN算法进行了对比,证明了改进算法能够在密度不均匀数据集上有效完成聚类,能够发现任意形状簇,且在三个聚类性能指标上普遍高于另外三种算法。  相似文献   

10.
密度峰值聚类(DPC)是近年来提出的一种新的密度聚类算法,算法的核心是基于局部密度和相对距离,通过画出决策图,人为选定聚类中心,进而完成聚类.DPC算法利用截断距离计算局部密度,本质上只考虑了周围近邻节点的数量,且算法采用单步分配策略,一定程度上限制了算法对任意数据集的计算精度和有效性.针对上述问题,提出基于二阶k近邻...  相似文献   

11.
为解决传统密度峰聚类算法容易忽略低密度簇中心以及难以自动选择聚类中心的问题,提出罚处共享最近邻密度峰聚类算法.设计罚处系数,减少高密度簇中非中心点的共享最近邻局部密度值,降低低密度簇中心点被忽视的机率;采用迭代阈值法实现簇中心点的自动选择.在人工数据集、UCI真实数据集以及图像数据集上进行仿真实验,其结果表明,该算法能找到数据集的簇中心和簇数目,聚类精度优于相比较的其它算法,该算法是可行的、有效的.  相似文献   

12.
动态最近邻聚类算法的优化研究   总被引:4,自引:0,他引:4  
针对最近邻聚类算法对聚类半径敏感、不易获得最优解的问题,提出了基于贝叶斯信息测度BIC(Bayesianinformationcriterion)的优化方法。通过DBSCAN算法对初始数据集进行预处理,去除噪声数据。在参数空间内逐步调整聚类半径,利用最近邻聚类算法对数据集进行聚类,并计算每次聚类结果的贝叶斯信息测度值。比较各次聚类结果的贝叶斯信息测度值,最大贝叶斯信息测度值对应的聚类即为最优聚类结果。实验结果表明,优化的最近邻聚类算法很好地解决了合适的聚类半径选取问题。  相似文献   

13.
周欢欢  郑伯川  张征  张琦 《计算机应用》2022,42(5):1464-1471
针对基于共享最近邻的密度峰聚类算法中的近邻参数需要人为设定的问题,提出了一种基于自适应近邻参数的密度峰聚类算法。首先,利用所提出的近邻参数搜索算法自动获得近邻参数;然后,通过决策图选取聚类中心;最后,根据所提出的代表点分配策略,先分配代表点,后分配非代表点,从而实现所有样本点的聚类。将所提出的算法与基于共享最近邻的快速密度峰搜索聚类(SNN?DPC)、基于密度峰值的聚类(DPC)、近邻传播聚类(AP)、对点排序来确定聚类结构(OPTICS)、基于密度的噪声应用空间聚类(DBSCAN)和K-means这6种算法在合成数据集以及UCI数据集上进行聚类结果对比。实验结果表明,所提出的算法在调整互信息(AMI)、调整兰德系数(ARI)和FM指数(FMI)等评价指标上整体优于其他6种算法。所提算法能自动获得有效的近邻参数,且能较好地分配簇边缘区域的样本点。  相似文献   

14.
基于密度和最近邻的Kk-means文本聚类算法   总被引:4,自引:0,他引:4  
张文明  吴江  袁小蛟 《计算机应用》2010,30(7):1933-1935
初始中心点的选择对于传统的K-means算法聚类效果影响较大,容易使聚类陷入局部最优解。针对这个问题,引入密度和最近邻思想,提出了生成初始聚类中心的算法,将所选聚类中心用于K-means算法,得到了更好的应用于文本聚类的DN-K-means算法。实验结果表明,该算法可以生成聚类质量较高并且稳定性较好的结果。  相似文献   

15.
聚类是一种无监督的机器学习方法,其任务是发现数据中的自然簇。共享最近邻聚类算法(SNN)在处理大小不同、形状不同以及密度不同的数据集上具有很好的聚类效果,但该算法还存在以下不足:(1)时间复杂度为O(n2),不适合处理大规模数据集;(2)没有明确给出参数阈值的简单指导性操作方法;(3)只能处理数值型属性数据集。对共享最近邻算法进行改进,使其能够处理混合属性数据集,并给出参数阈值的简单选择方法,改进后算法运行时间与数据集大小成近似线性关系,适用于大规模高维数据集。在真实数据集和人造数据集上的实验结果表明,提出的改进算法是有效可行的。  相似文献   

16.
基于网格的共享近邻聚类算法   总被引:1,自引:0,他引:1  
刘敏娟  柴玉梅 《计算机应用》2006,26(7):1673-1675
提出了一种基于网格的共享近邻聚类算法(Grid based shared Nearest Neighbor algorithm, GNN)。该算法主要利用网格技术去除数据集中的部分孤立点或噪声,使用密度阈值处理技术来处理网格的密度阈值,使用中心点技术提高聚类效率。GNN算法仅对数据集进行一遍扫描,且能处理任意形状和大小的聚类。实验表明,GNN有较好的可扩展性,其精度和效率明显地好于共享近邻SNN算法。  相似文献   

17.
密度峰值聚类(density peaks clustering,DPC)算法基于局部密度和相对距离识别簇中心,忽视了样本所处环境对样本点密度的影响,因此不容易发现低密度区域的簇中心;DPC算法采用的单步分配策略的容错性差,一旦一个样本点分配错误,将导致后续一系列样本点分配错误。针对上述问题,提出二阶自然最近邻和多簇合并的密度峰值聚类算法(TNMM-DPC)。首先,引入二阶自然邻居的概念,同时考虑样本点的密度与样本点所处的环境,重新定义了样本点的局部密度,以降低类簇的疏密对类簇中心选择的影响;其次,定义了核心点集来选取初始微簇,依据样本点与微簇间的关联度对样本点进行分配;最后引入了邻居边界点集的概念对相邻的子簇进行合并,得到最终的聚类结果,避免了分配错误连带效应。在人工数据集和UCI数据集上,将TNMM-DPC算法与DPC及其改进算法进行了对比,实验结果表明,TNMM-DPC算法能够解决DPC算法所存在的问题,可以有效聚类人工数据集和UCI数据集。  相似文献   

18.
为解决密度聚类算法在处理高维和多密度数据集时聚类结果不精确的问题,提出一种基于共享近邻亲和度(SNNA)的聚类算法。该算法引入[k]近邻和共享近邻,定义共享近邻亲和度作为对象的局部密度度量。算法首先根据亲和度来提取核心点,然后利用广度优先搜索算法对核心点进行聚类,最后对非核心点进行指派即完成整个数据集的聚类。实验结果表明,该算法能够发现任意形状、大小、密度的聚类;与同类算法相比,SNNA算法在处理高维数据时具有较高的聚类准确率。  相似文献   

19.
密度峰值聚类算法对密集程度不一数据的聚类效果不佳,样本分配过程易产生连带错误.为此,提出一种基于相互邻近度的密度峰值聚类算法.所提算法引入k近邻思想计算局部密度,以此保证密度的相对性.定义综合数据全局和局部特征的样本相互邻近度的度量准则,据此准则,提出一种新的样本分配策略.新的分配策略采用k近邻思想寻找密度峰值,将密度...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号