期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

董晓君程春玲《计算机科学》2018,45(11):244-248

快速搜索和发现密度峰值的聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一种新的基于密度的聚类算法,它通过发现密度峰值来有效地识别类簇中心,具有聚类速度快、实现简单等优点。针对CFSFDP算法的准确性依赖于数据集的密度估计和截断距离(dc)的人为选择问题,提出一种基于核密度估计的K-CFSFDP算法。该算法利用无参的核密度估计分析数据点的分布特征并自适应地选取dc,从而搜索和发现数据点的密度峰值,并以峰值点数据作为初始聚类中心。基于4个典型数据集的仿真结果表明,K-CFSFDP算法比CFSFDP,K-means和DBSCAN算法具有更高的准确度和更强的鲁棒性。相似文献

2.

自动确定聚类中心的密度峰值算法

下载免费PDF全文

王洋张桂珠《计算机工程与应用》2018,54(8):137-142

密度峰值聚类算法（Density Peaks Clustering,DPC）,是一种基于密度的聚类算法,该算法具有不需要指定聚类参数,能够发现非球状簇等优点。针对密度峰值算法凭借经验计算截断距离[dc]无法有效应对各个场景并且密度峰值算法人工选取聚类中心的方式难以准确获取实际聚类中心的缺陷,提出了一种基于基尼指数的自适应截断距离和自动获取聚类中心的方法,可以有效解决传统的DPC算法无法处理复杂数据集的缺点。该算法首先通过基尼指数自适应截断距离[dc],然后计算各点的簇中心权值,再用斜率的变化找出临界点,这一策略有效避免了通过决策图人工选取聚类中心所带来的误差。实验表明,新算法不仅能够自动确定聚类中心,而且比原算法准确率更高。相似文献

3.

自然反向最近邻优化的密度峰值聚类算法

刘娟万静《计算机科学与探索》2021,15(10):1888-1899

密度峰值聚类算法是一种基于密度的聚类算法.针对密度峰值聚类算法存在的参数敏感和对复杂流形数据得到的聚类结果较差的缺陷,提出一种新的密度峰值聚类算法,该算法基于自然反向最近邻结构.首先,该算法引入反向最近邻计算数据对象的局部密度;其次,通过代表点和密度相结合的方式选取初始聚类中心;然后,应用密度自适应距离计算初始聚类中心之间的距离,利用基于反向最近邻计算出的局部密度和密度自适应距离在初始聚类中心上构建决策图,并通过决策图选择最终的聚类中心;最后,将剩余的数据对象分配到距离其最近的初始聚类中心所在的簇中.实验结果表明,该算法在合成数据集和UCI真实数据集上与实验对比算法相比较,具有较好的聚类效果和准确性,并且在处理复杂流形数据上的优越性较强. 相似文献

4.

自然最近邻优化的密度峰值聚类算法*

金辉钱雪忠《计算机科学与探索》2019,13(4):711-720

针对现有的基于密度的聚类算法存在参数敏感,处理非球面数据和复杂流形数据聚类效果差的问题,提出一种新的基于密度峰值的聚类算法。该算法首先根据自然最近邻居的概念确定数据点的局部密度,然后根据密度峰局部密度最高并且被稀疏区域分割来确定聚类中心,最后提出一种新的类簇间相似度概念来解决复杂流形问题。在实验中,该算法在合成和实际数据集中的表现比DPC(clustering by fast search and find of density peaks)、DBSCAN(density-based spatial clustering of applications with noise)和K-means算法要好,并且在非球面数据和复杂流形数据上的优越性特别大。相似文献

5.

基于密度比例的密度峰值聚类算法

高诗莹周晓锋李帅《计算机工程与应用》2017,53(16):10-17

CFSFDP（Clustering by Fast Search and Find of Density Peaks）是一种新的基于密度的聚类算法。该算法可以对非球形分布的数据聚类,有待调节参数少、聚类速度快等优点。但是对于类簇间密度相差较大的数据,该算法容易遗漏密度较小的类簇而影响聚类的准确率。针对这一问题,提出了基于密度比例峰值聚类算法即R-CFSFDP。该算法将密度比例引入到CFSFDP中,通过计算样本数据的密度比峰值来提高数据中密度较小类簇的辨识度,进而提升整体聚类的准确率。基于9个常用测试数据集（2个人工合成数据集,7个UCI数据集）的聚类实验结果表明,对于类簇间密度相差较大和类簇形状复杂的数据聚类问题,R-CFSFDP能够使得类簇中心更加清晰、易确定,聚类结果更好。相似文献

6.

基于密度与划分方法的聚类算法设计与实现

孟海东宋飞燕郝永宽《计算机工程与应用》2007,43(27):171-174

在分析常用聚类算法的特点和适应性基础上提出一种基于密度与划分方法的聚类算法。该算法根据数据对象密度分布状态来自动确定聚类簇密度吸引中心点和聚类簇的初始划分;然后利用划分的方法,根据密度可达定义来寻找密度可达数据对象簇,从而完成数据对象簇的最终聚类。实验证明该算法能够很好地处理具有任意形状和大小的簇,能够有效地屏蔽噪声和离群点的影响和发现孤立点;同时也减小了输入参数对领域知识的依赖性。相似文献

7.

优化分配策略的密度峰值聚类算法

丁志成葛洪伟《计算机科学与探索》2020,14(5):792-802

针对密度峰值聚类算法在面对复杂结构数据集时容易出现分配错误的问题,提出一种优化分配策略的密度峰值聚类算法(ODPC)。新算法首先引入参数积γ,扩大了聚类中心的选取范围;然后使用改进的数据点分配策略,对数据集的数据点进行基于相似度指标MS的重新分配,进一步优化了簇类中点集的分配;最后使用dc近邻法优化识别数据集的噪声点。在人工数据集及UCI真实数据集上的实验均可证明,新算法能够在优化噪声识别的同时,提高复杂流形数据集中数据点分配的正确率,并取得比DPC算法、DenPEHC算法、GDPC算法更好的聚类效果。相似文献

8.

混合的密度峰值聚类算法

王军周凯程勇《计算机应用》2019,39(2):403-408

密度峰值聚类（DP）算法是一种新的基于密度的聚类算法，当它处理的单个聚类包含多个密度峰值时，会将每个不同密度峰值视为潜在聚类中心，以致难以在数据集中确定正确数量聚类，为此，提出一种混合的密度峰值聚类算法C-DP。首先，以密度峰值点为初始聚类中心将数据集划分为子簇；然后，借鉴代表点层次聚类算法（CURE），从子簇中选取分散的代表点，将拥有最小距离的代表点对的类进行合并，引入参数收缩因子以控制类的形状。仿真实验结果表明，在4个合成数据集上C-DP算法比DP算法聚类效果更好；在真实数据集上的Rand Index指标对比表明，在数据集S1上，C-DP算法比DP算法性能提高了2.32%，在数据集4k2_far上，C-DP算法比DP算法性能提高了1.13%。由此可见，C-DP算法在单个类簇中包含多密度峰值的数据集中能提高聚类的准确性。相似文献

9.

基于相对密度的密度峰值聚类算法

位雅张正军何凯琳唐莉《计算机工程》2023,(6):53-61

密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部密度计算方法并计算相对密度。在绘制决策图确定聚类中心后,基于对簇间密度差异的考虑,提出密度因子计算各个簇的聚类距离,根据聚类距离对剩余样本点进行划分,实现不同形状、不同密度数据集的聚类。在合成数据集和真实数据集上进行实验,结果表明,该算法的FMI、ARI和NMI指标较经典的密度峰值聚类算法和其他3种聚类算法分别平均提高约14、26和21个百分点,并且在簇间密度相差较大的数据集上能够准确识别聚类中心和分配剩余的样本点。相似文献

10.

基于密度峰值与密度聚类的集成算法

王治和黄梦莹杜辉秦红武《计算机应用》2019,39(2):398-402

针对快速搜索和发现密度峰值聚类（CFSFDP）算法需人工在决策图上选择聚类中心的问题，提出一种基于密度峰值和密度聚类的集成算法。首先，借鉴CFSFDP思想，将局部密度最大的数据作为第一个中心；接着，从该中心点出发采用一种利用Warshall算法求解密度相连改进的基于密度的噪声应用空间聚类（DBSCAN）算法进行聚类，得到第一个簇；最后，在尚未被划分的数据中找出最大局部密度的数据，将它作为下一个簇的中心后再次采用上述算法进行聚类，直到所有数据被聚类或有部分数据被视为噪声。所提算法既解决了CFSFDP选择中心需人工干预的问题，又优化了DBSCAN算法，即每次迭代都是从当前最好的点（局部密度最大的点）出发寻找簇。通过可视化数据集和非可视化数据集与经典算法（CFSFDP、DBSCAN、模糊C均值（FCM）算法和K均值（K-means）算法）的对比实验结果表明，所提算法聚类效果更好，准确率更高，优于对比算法。相似文献

11.

基于K近邻和优化分配策略的密度峰值聚类算法

孙林秦小营徐久成薛占熬《软件学报》2022,33(4):1390-1411

密度峰值聚类(density peak clustering, DPC)是一种简单有效的聚类分析方法.但在实际应用中,对于簇间密度差别大或者簇中存在多密度峰的数据集,DPC很难选择正确的簇中心;同时,DPC中点的分配方法存在多米诺骨牌效应.针对这些问题,提出一种基于K近邻(K-nearest neighbors,KNN)和优化分配策略的密度峰值聚类算法.首先,基于KNN、点的局部密度和边界点确定候选簇中心;定义路径距离以反映候选簇中心之间的相似度,基于路径距离提出密度因子和距离因子来量化候选簇中心作为簇中心的可能性,确定簇中心.然后,为了提升点的分配的准确性,依据共享近邻、高密度最近邻、密度差值和KNN之间距离构建相似度,并给出邻域、相似集和相似域等概念,以协助点的分配;根据相似域和边界点确定初始聚类结果,并基于簇中心获得中间聚类结果.最后,依据中间聚类结果和相似集,从簇中心到簇边界将簇划分为多层,分别设计点的分配策略;对于具体层次中的点,基于相似域和积极域提出积极值以确定点的分配顺序,将点分配给其积极域中占主导地位的簇,获得最终聚类结果.在11个合成数据集和27个真实数据集上进行仿真... 相似文献

12.

结合自然和共享最近邻的密度峰值聚类算法

柏锷湘罗可罗潇《计算机科学与探索》2021,15(5):931-940

基于快速搜索和寻找密度峰值聚类算法(DPC)具有无需迭代且需要较少参数的优点,但其仍然存在一些缺点:需要人为选取截断距离参数;在流形数据集上的处理效果不佳。针对这些问题,提出一种密度峰值聚类改进算法。该算法结合了自然和共享最近邻算法,重新定义了截断距离和局部密度的计算方法,并且算法融合了候选聚类中心计算概念,通过算法选出不同的候选聚类中心,然后以这些候选中心为新的数据集,再次开始密度峰值聚类,最后将剩余的点分配到所对应的候选中心点所在类簇中。改进的算法在合成数据集和UCI数据集上进行验证,并与K-means、DBSCAN和DPC算法进行比较。实验结果表明,提出的算法在性能方面有明显提升。相似文献

13.

基于非参数核密度估计的密度峰值聚类算法*

谢国伟钱雪忠周世兵《计算机应用研究》2018,35(10)

针对密度峰值聚类算法CFSFDP(Clustering by fast search and find of density peaks)计算密度时人为判断截断距离和人工截取簇类中心的缺陷,提出了一种基于非参数核密度估计的密度峰值的聚类算法。首先,应用非参数核密度估计方法计算数据点的局部密度;其次,根据排序图采用簇中心点自动选择策略确定潜在簇类中心点,将其余数据点归并到相应的簇类中心;最后,依据簇类间的合并准则,对邻近相似子簇进行合并,并根据边界密度识别噪声点,得到聚类结果。在人工测试数据集和UCI真实数据集上的实验表明,新算法较之原CFSFDP算法,不仅有效避免了人为判断截断距离和截取簇类中心的主观因素,而且可以取得更高的准确度。相似文献

14.

基于密度峰值和近邻优化的聚类算法

何云斌董恒万静李松《计算机科学与探索》2020,14(4):554-565

针对密度峰值算法在选取聚类中心时的时间复杂度过高,需要人工选择截断距离并且处理流形数据时有可能出现多个密度峰值,导致聚类准确率下降等问题,提出一种新的密度峰值聚类算法,从聚类中心选择、离群点筛选、数据点分配三方面进行讨论和分析,并给出相应的聚类算法。在聚类中心的选择上采取KNN的思想计算数据点的密度,离群点的筛选和剪枝以及数据点分配则利用Voronoi图的性质,结合数据点的分布特征进行处理,并在最后应用层次聚类的思想以合并相似类簇,提高聚类准确率。实验结果表明:所提算法与实验对比算法相比较,具有较好的聚类效果和准确性。相似文献

15.

一种改进的k-means初始聚类中心选取算法 总被引：3，自引：0，他引：3

下载免费PDF全文

韩凌波王强蒋正锋郝志强《计算机工程与应用》2010,46(17):150-152

在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。相似文献

16.

一种基于K近邻的比较密度峰值聚类算法

下载免费PDF全文

杜沛程晓荣《计算机工程与应用》2019,55(10):161-168

快速搜索与发现密度峰值聚类算法（Fast Search and Discovery Density Peak Clustering Algorithm，CFSFDP）的聚类效果十分依赖截断距离[dc]的主观选取，而最佳[dc]值的确定并不容易，并且当处理分布复杂、密度变化大的数据集时，算法生成的决策图中类簇中心点与非类簇中心点的区分不够明显，使类簇中心的选取变得困难。针对这些问题，对其算法进行了优化，并提出了基于K近邻的比较密度峰值聚类算法（Comparative Density Peak Clustering algorithm Based on K-Nearest Neighbors，CDPC-KNN）。算法结合K近邻概念重新定义了截断距离和局部密度的度量方法，对任意数据集能自适应地生成截断距离，并使局部密度的计算结果更符合数据的真实分布。同时在决策图中引入距离比较量代替原距离参数，使类簇中心在决策图上更加明显。通过实验验证，CDPC-KNN算法的聚类效果整体上优于CFSFDP算法与DBSCAN算法，分离度实验表明新算法使类簇中心与非类簇中心点的区分度得到有效提高。相似文献

17.

基于距离和权重改进的K-means算法

下载免费PDF全文

王子龙李进宋亚飞《计算机工程与应用》2020,56(23):87-94

K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。相似文献