期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

丁志成葛洪伟《计算机科学与探索》2020,14(5):792-802

针对密度峰值聚类算法在面对复杂结构数据集时容易出现分配错误的问题,提出一种优化分配策略的密度峰值聚类算法(ODPC)。新算法首先引入参数积γ,扩大了聚类中心的选取范围;然后使用改进的数据点分配策略,对数据集的数据点进行基于相似度指标MS的重新分配,进一步优化了簇类中点集的分配;最后使用dc近邻法优化识别数据集的噪声点。在人工数据集及UCI真实数据集上的实验均可证明,新算法能够在优化噪声识别的同时,提高复杂流形数据集中数据点分配的正确率,并取得比DPC算法、DenPEHC算法、GDPC算法更好的聚类效果。相似文献

2.

密度峰值聚类算法综述 总被引：1，自引：0，他引：1

陈叶旺申莲莲钟才明王田陈谊杜吉祥《计算机研究与发展》2020,57(2):378-394

密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理：首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望. 相似文献

3.

物理学优化的密度峰值聚类算法

下载免费PDF全文

贾露张德生吕端端《计算机工程与应用》2020,56(13):47-53

针对密度峰值聚类算法（DPC）在计算样本的局部密度时随机选取截断距离、分配剩余样本点错误率高等问题，提出了一种物理学改进的密度峰值聚类算法W-DPC。通过万有引力定律定义样本的局部密度；基于第一宇宙速度建立了两步策略对剩余样本点进行分配，即必须属于点的分配和可能属于点的分配，使剩余样本点的分配更加精确。利用人工合成数据集与UCI上的真实数据集对W-DPC算法进行测试，并与KNN-DPC算法、DPC算法、DBSCAN算法、AP算法以及K-Means算法进行比较，数值实验表明：W-DPC算法的聚类效果明显优于其他算法。相似文献

4.

结合鲸鱼优化算法的自适应密度峰值聚类算法

下载免费PDF全文

王芙银张德生张晓《计算机工程与应用》2021,57(3):94-102

针对密度峰值聚类算法(DPC)的聚类结果对截断距离dc的取值较为敏感、手动选取聚类中心存在着一定主观性的问题,提出了一种结合鲸鱼优化算法的自适应密度峰值聚类算法(WOA-DPC).利用加权的局部密度和相对距离乘积的斜率变化趋势实现聚类中心的自动选择,避免了手动选取导致的聚类中心少选或多选的情况;考虑到合理的截断距离dc... 相似文献

5.

相对邻域与剪枝策略优化的密度峰值聚类算法

纪霞姚晟赵鹏《自动化学报》2020,46(3):562-575

针对Science发表的密度峰值聚类(Density peaks clustering, DPC)算法及其改进算法效率不高的缺陷, 提出一种相对邻域和剪枝策略优化的密度峰值聚类(Relative neighborhood and pruning strategy optimized DPC, RP-DPC)算法. DPC聚类算法主要有两个阶段: 聚类中心点的确定和非聚类中心点样本的类簇分配, 并且时间复杂度集中在第1个阶段, 因此RP-DPC算法针对该阶段做出改进研究. RP-DPC算法去掉了DPC算法预先计算距离矩阵的步骤, 首先利用相对距离将样本映射到相对邻域中, 再从相对邻域来计算各样本的密度, 从而缩小各样本距离计算及密度统计的范围; 然后在计算各样本的δ值时加入剪枝策略, 将大量被剪枝样本δ值的计算范围从样本集缩小至邻域以内, 极大地提高了算法的效率. 理论分析和在人工数据集及UCI数据集的对比实验均表明, 与DPC算法及其改进算法相比, RP-DPC算法在保证聚类质量的同时可以实现有效的时间性能提升. 相似文献

6.

基于密度峰值与密度聚类的集成算法

王治和黄梦莹杜辉秦红武《计算机应用》2019,39(2):398-402

针对快速搜索和发现密度峰值聚类（CFSFDP）算法需人工在决策图上选择聚类中心的问题，提出一种基于密度峰值和密度聚类的集成算法。首先，借鉴CFSFDP思想，将局部密度最大的数据作为第一个中心；接着，从该中心点出发采用一种利用Warshall算法求解密度相连改进的基于密度的噪声应用空间聚类（DBSCAN）算法进行聚类，得到第一个簇；最后，在尚未被划分的数据中找出最大局部密度的数据，将它作为下一个簇的中心后再次采用上述算法进行聚类，直到所有数据被聚类或有部分数据被视为噪声。所提算法既解决了CFSFDP选择中心需人工干预的问题，又优化了DBSCAN算法，即每次迭代都是从当前最好的点（局部密度最大的点）出发寻找簇。通过可视化数据集和非可视化数据集与经典算法（CFSFDP、DBSCAN、模糊C均值（FCM）算法和K均值（K-means）算法）的对比实验结果表明，所提算法聚类效果更好，准确率更高，优于对比算法。相似文献

7.

密度峰值优化初始中心的K-medoids聚类算法

《计算机科学与探索》2016,(2):230-247

针对快速K-medoids聚类算法和方差优化初始中心的K-medoids聚类算法存在需要人为给定类簇数,初始聚类中心可能位于同一类簇,或无法完全确定数据集初始类簇中心等缺陷,受密度峰值聚类算法启发,提出了两种自适应确定类簇数的K-medoids算法。算法采用样本x i的t最近邻距离之和倒数度量其局部密度ρi,并定义样本x i的新距离δi,构造样本距离相对于样本密度的决策图。局部密度较高且相距较远的样本位于决策图的右上角区域,且远离数据集的大部分样本。选择这些样本作为初始聚类中心,使得初始聚类中心位于不同类簇,并自动得到数据集类簇数。为进一步优化聚类结果,提出采用类内距离与类间距离之比作为聚类准则函数。在UCI数据集和人工模拟数据集上进行了实验测试,并对初始聚类中心、迭代次数、聚类时间、Rand指数、Jaccard系数、Adjusted Rand index和聚类准确率等经典聚类有效性评价指标进行了比较,结果表明提出的K-medoids算法能有效识别数据集的真实类簇数和合理初始类簇中心,减少聚类迭代次数,缩短聚类时间,提高聚类准确率,并对噪音数据具有很好的鲁棒性。相似文献

8.

密度峰值聚类算法研究进展

徐晓丁世飞丁玲《软件学报》2022,33(5):1800-1816

密度峰值聚类(density peaks clustering, DPC)算法是聚类分析中基于密度的一种新兴算法, 该算法考虑局部密度和相对距离绘制决策图, 快速识别簇中心, 完成聚类. DPC具有唯一的输入参数, 且无需先验知识, 也无需迭代. 自2014年提出以来, DPC引起了学者们的极大兴趣, 并得到了快速发展... 相似文献

9.

基于相互邻近度的密度峰值聚类算法

赵嘉姚占峰吕莉樊棠怀《控制与决策》2021,36(3):543-552

密度峰值聚类算法对密集程度不一数据的聚类效果不佳,样本分配过程易产生连带错误.为此,提出一种基于相互邻近度的密度峰值聚类算法.所提算法引入k近邻思想计算局部密度,以此保证密度的相对性.定义综合数据全局和局部特征的样本相互邻近度的度量准则,据此准则,提出一种新的样本分配策略.新的分配策略采用k近邻思想寻找密度峰值,将密度... 相似文献

10.

基于密度峰值优化的谱聚类算法 总被引：1，自引：0，他引：1

薛丽霞孙伟汪荣贵杨娟胡敏《计算机应用研究》2019,36(7)

针对经典谱聚类算法无法自适应确定聚类数目、以及在处理大数据量的聚类问题时效率不高的问题,本文提出了一种基于密度峰值优化的谱聚类算法。该方法首先计算数据对象的局部密度,以及每个数据对象与较其他数据对象的最小距离,并依据一定的规则自适应产生初始聚类中心,确定聚类数目。其次,使用Nystr?m抽样来降低特征分解的计算复杂度以达到提高谱聚类算法的效率。实验结果表明,本文方法能够准确地得到聚类数目,并且有效提高聚类的准确率和效率。相似文献

11.

融合KNN优化的密度峰值和FCM聚类算法

下载免费PDF全文

兰红黄敏《计算机工程与应用》2021,57(9):81-88

针对模糊C均值(Fuzzy C-Means,FCM)聚类算法对初始聚类中心和噪声敏感、对边界样本聚类不够准确且易收敛于局部极小值等问题,提出了一种K邻近(KNN)优化的密度峰值(DPC)算法和FCM相结合的融合聚类算法(KDPC-FCM).算法利用样本的K近邻信息定义样本局部密度,快速准确搜索样本的密度峰值点样本作为初... 相似文献

12.

基于代表点与K近邻的密度峰值聚类算法

张清华周靖鹏代永杨王国胤《软件学报》2023,34(12):5629-5648

密度峰值聚类(density peaks clustering, DPC)是一种基于密度的聚类算法,该算法可以直观地确定类簇数量,识别任意形状的类簇,并且自动检测、排除异常点.然而, DPC仍存在些许不足:一方面, DPC算法仅考虑全局分布,在类簇密度差距较大的数据集聚类效果较差;另一方面, DPC中点的分配策略容易导致“多米诺效应”.为此,基于代表点(representative points)与K近邻(K-nearest neighbors, KNN)提出了RKNN-DPC算法.首先,构造了K近邻密度,再引入代表点刻画样本的全局分布,提出了新的局部密度;然后,利用样本的K近邻信息,提出一种加权的K近邻分配策略以缓解“多米诺效应”;最后,在人工数据集和真实数据集上与5种聚类算法进行了对比实验,实验结果表明,所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果. 相似文献

13.

基于改进模糊核聚类的室内定位方法研究

杜凯颖张为公王东《测控技术》2018,37(2):42-46

针对室内定位中,WiFi位置指纹法存在的定位实时性和精度的问题,提出一种基于改进模糊核聚类(KFCM)和加权K近邻(WKNN)结合的室内定位方法,旨在降低定位时间和改善定位精度.首先利用快速搜索和发现峰值聚类(CFSFDP)确定聚类数目和初始聚类中心,克服KFCM算法对初始聚类中心选取的依赖性而导致聚类结果不稳定的缺点,在此基础上,采用WKNN进行定位匹配,提高定位精度.实验表明,所提出方法相较于无聚类的室内定位方法,能在保证一定精度的前提下,减少定位计算量和时间.此外,将所提出方法与基于K均值、KFCM和CFSFDP的方法进行实验对比,结果显示,该方法具有更好的聚类效果和定位精度. 相似文献

14.

基于网格筛选的大规模密度峰值聚类算法

徐晓丁世飞孙统风廖红梅《计算机研究与发展》2018,55(11):2419-2429

密度峰值聚类算法(density peaks clustering algorithm, DPC)是2014年提出的一种新型聚类分析算法,它基于聚类中心局部密度大以及与密度更大点之间的距离较远两大特点绘制决策图寻找聚类中心,从而得到任意形状的簇.但在寻找聚类中心的过程中,求解局部密度以及高密度距离属性都依赖于相似度矩阵的计算,计算复杂度较高,限制了密度峰值聚类算法在大规模数据集中的应用.针对此不足,提出基于网格筛选的密度峰值聚类算法(density peaks clustering algorithm based on grid screening, SDPC),根据数据的不均匀分布,使用网格化方法去除部分密度稀疏的点,然后再使用密度峰值聚类算法中决策图的方法选取聚类中心,可以在保证聚类准确性的基础上有效降低计算复杂度.理论分析和实验测试表明：基于网格筛选的密度峰值聚类算法不仅可以对大规模数据集进行正确的聚类,还极大地降低了计算复杂度. 相似文献

15.

基于不相似性度量优化的密度峰值聚类算法

丁世飞徐晓王艳茹《软件学报》2020,31(11):3321-3333

密度峰值聚类（clustering by fast search and find of density peaks,简称DPC）是一种基于局部密度和相对距离属性快速寻找聚类中心的有效算法.DPC通过决策图寻找密度峰值作为聚类中心,不需要提前指定类簇数,并可以得到任意形状的簇聚类.但局部密度和相对距离的计算都只是简单依赖基于距离度量的相似度矩阵,所以在复杂数据上DPC聚类结果不尽如人意,特别是当数据分布不均匀、数据维度较高时.另外,DPC算法中局部密度的计算没有统一的度量,根据不同的数据集需要选择不同的度量方式.第三,截断距离d_c的度量只考虑数据的全局分布,忽略了数据的局部信息,所以d_c的改变会影响聚类的结果,尤其是在小样本数据集上.针对这些弊端,提出一种基于不相似性度量优化的密度峰值聚类算法（optimized density peaks clustering algorithm based on dissimilarity measure,简称DDPC）,引入基于块的不相似性度量方法计算相似度矩阵,并基于新的相似度矩阵计算样本的K近邻信息,然后基于样本的K近邻信息重新定义局部密度的度量方法.经典数据集的实验结果表明,基于不相似性度量优化的密度峰值聚类算法优于DPC的优化算法FKNN-DPC和DPC-KNN,可以在密度不均匀以及维度较高的数据集上得到满意的结果;同时统一了局部密度的度量方式,避免了传统DPC算法中截断距离d_c对聚类结果的影响. 相似文献

16.

VANET随机部署环境下基于改进型共享最近邻密度峰聚类的快速分簇算法

下载免费PDF全文

陈靖宇徐志林《计算机测量与控制》2023,31(9):174-182

针对车辆高速移动场景下,网络拓扑变化过大导致网络分簇结果不稳定的问题,提出一种基于改进型共享最近邻密度峰聚类的快速成簇算法SNNCA(shared nearest neighbor clustering algorithm);通过综合考虑节点的链路生存周期和移动相似性,提出一种全新的节点连接稳定程度评估指标,并将该评估指标应用于节点共享最近邻的计算过程,以组织网络节点为划分合理的多跳簇结构;为适应网络环境的动态变化,提出一种簇维护策略,其中每个层级的簇成员承担着维护下一层级簇成员的任务,该策略能够对簇成员进行批量分离或合并,从而实现了算法的分布式快速收敛;根据随机部署场景中进行的仿真实验结果显示,相比其他较新算法,SNNCA算法降低了74%的簇数量,并且簇成员的平均存活时间增加了近1倍,表现出更好的网络稳定性和健壮性。相似文献

17.

基于密度峰值和近邻优化的聚类算法

何云斌董恒万静李松《计算机科学与探索》2020,14(4):554-565

针对密度峰值算法在选取聚类中心时的时间复杂度过高,需要人工选择截断距离并且处理流形数据时有可能出现多个密度峰值,导致聚类准确率下降等问题,提出一种新的密度峰值聚类算法,从聚类中心选择、离群点筛选、数据点分配三方面进行讨论和分析,并给出相应的聚类算法。在聚类中心的选择上采取KNN的思想计算数据点的密度,离群点的筛选和剪枝以及数据点分配则利用Voronoi图的性质,结合数据点的分布特征进行处理,并在最后应用层次聚类的思想以合并相似类簇,提高聚类准确率。实验结果表明:所提算法与实验对比算法相比较,具有较好的聚类效果和准确性。相似文献