首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 546 毫秒
1.
本文阐述了一种应用于大规模数据节点划分的改进网格密度峰值聚类算法.针对传统的密度峰值聚类算法距离矩阵计算时间长,人工选取阈值对聚类结果的影响较大,限制其在大规模数据集中的应用等缺点,本文采用基于自适应网格划分的密度峰值聚类,通过判断网格均衡来计算网格间距离,引入万有引力得到网格相对引力,通过极大值平均选取法自动得到密度...  相似文献   

2.
纪霞  姚晟  赵鹏 《自动化学报》2020,46(3):562-575
针对Science发表的密度峰值聚类(Density peaks clustering,DPC)算法及其改进算法效率不高的缺陷,提出一种相对邻域和剪枝策略优化的密度峰值聚类(Relative neighborhood and pruning strategy optimized DPC,RP-DPC)算法.DPC聚类算法主要有两个阶段:聚类中心点的确定和非聚类中心点样本的类簇分配,并且时间复杂度集中在第1个阶段,因此RP-DPC算法针对该阶段做出改进研究.RP-DPC算法去掉了DPC算法预先计算距离矩阵的步骤,首先利用相对距离将样本映射到相对邻域中,再从相对邻域来计算各样本的密度,从而缩小各样本距离计算及密度统计的范围;然后在计算各样本的δ值时加入剪枝策略,将大量被剪枝样本δ值的计算范围从样本集缩小至邻域以内,极大地提高了算法的效率.理论分析和在人工数据集及UCI数据集的对比实验均表明,与DPC算法及其改进算法相比,RP-DPC算法在保证聚类质量的同时可以实现有效的时间性能提升.  相似文献   

3.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

4.
传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。  相似文献   

5.
基于高斯分布的簇间距离计算方法   总被引:2,自引:0,他引:2  
凝聚的层次聚类算法是一种性能优越的聚类算法,该算法通过不断合并距离相近的簇最终将数据集合划分为用户指定的若干个类别。在聚类的过程中簇间距离计算的准确性是影响算法性能的重要因素。本文提出一种新的基于高斯分布的簇间距离的计算方法,该方法通过簇自身的大小、密度分布等因素改进算法的计算准确性,在不同文本集合上与现有的簇间距离计算方法进行了对比实验,实验结果表明该方法有效地改进了层次聚类算法的性能。  相似文献   

6.
聚类分析是数据挖掘领域的重要组成部分之一,而度量学习是聚类分析中的关键性步骤。传统聚类算法中通常使用欧氏距离进行距离度量,但是欧氏距离只关注两两样本之间的距离关系,并没有顾及数据的全局性分布结构。考虑到数据的全局性结构信息,提出了一种新的具有全局性的度量方法——有效距离度量(effective distance metric),其主要思想是通过稀疏重构的方法计算数据样本之间的有效距离。进一步地,将有效距离应用到K-means、K-medoids和FCM(fuzzy C-means)3种经典聚类算法中开发了3种基于有效距离的聚类算法,即EK-means,EK-medoids和EFCM聚类算法。通过与传统聚类算法在UCI标准数据集上的实验结果进行比较,验证了基于有效距离的聚类算法能显著提高聚类效果。  相似文献   

7.
基于网格距离的高精度聚类算法   总被引:2,自引:0,他引:2  
为了提高基于网格聚类技术的聚类精度和效率,提出一种新的基于网格距离的高精度聚类算法。该算法一方面通过参考网格在逻辑空间的相对距离进行聚类,从而弥补了大多数计算网格之间距离的算法中需要大量数学运算的不足,另一方面,提出了一种新的边界点处理技术。用实际数据集进行的,实验结果表明,该技术能够有效地提取有意义的边界点,运行速度快、聚类精度高。  相似文献   

8.
密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部密度计算方法并计算相对密度。在绘制决策图确定聚类中心后,基于对簇间密度差异的考虑,提出密度因子计算各个簇的聚类距离,根据聚类距离对剩余样本点进行划分,实现不同形状、不同密度数据集的聚类。在合成数据集和真实数据集上进行实验,结果表明,该算法的FMI、ARI和NMI指标较经典的密度峰值聚类算法和其他3种聚类算法分别平均提高约14、26和21个百分点,并且在簇间密度相差较大的数据集上能够准确识别聚类中心和分配剩余的样本点。  相似文献   

9.
K-means算法是数据挖掘领域研究、应用都非常广泛的一种聚类算法,其各种衍生算法很多,其中包括近年出现的以点对称距离为测度的K-means聚类算法。在点对称距离聚类算法的基础上提出一种新的聚类算法,根据对对称性的分析,为对称性的描述增加方向约束,提高对称距离的描述准确性,以此来提高聚类的准确性。同时,针对对称点成对出现的特点,调整了聚类过程中的收敛策略,以对称点对连线中点计算聚类中心,改善了基于对称距离的聚类算法收敛性能。通过数值仿真比较了所提算法与原有算法的优劣,结果显示该算法在计算复杂度不变的条件下获得了更准确的结果,聚类结果更接近数据的真实分类。  相似文献   

10.
密度峰值聚类(DPC)将数据样本点的局部密度和相对距离进行结合,能对任意形状数据集进行聚类处理,但密度峰值聚类算法存在主观选择截断距离、简单分配策略和较高时间复杂度等问题。为此,提出了一种基于网格近邻优化的密度峰值聚类算法(KG-DPC算法)。首先对数据空间进行网格化,减少了样本数据点之间距离的计算量;在计算局部密度时不仅考虑了网格自身的密度值,而且考虑了周围k个近邻的网格密度值,降低了主观选择截断距离对聚类结果的影响,提高了聚类准确率,设定网格密度阈值,保证了聚类结果的稳定性。通过实验结果表明,KG-DPC算法比DBSCAN、DPC和SDPC算法在聚类准确率上有很大提升,在聚类平均消耗时间上DPC、SNN-DPC和DPC-NN算法分别降低38%、44%和44%。在保证基本聚类准确率的基础上,KG-DPC算法在聚类效率上有特定优势。  相似文献   

11.
传统的基于真实距离的聚类分析方法不利于地震不同断层破裂传播和愈合速度的精确计算。为提高地震预测精度,提出并建立了基于软距离计算的聚类方法。给出了基于软距离聚类过程、软距离计算方法以及具体的基于软距离计算的聚类算法。以现实的强震样本点作为聚类数据源,采用该聚类方法以及其它传统聚类方法对该样本数据进行聚类分析。分析结果表明,采用该聚类方法获得的聚类中心点更接近地壳应力场演变的客观真实性,该聚类分析方法为地震的断层带下次发生强震的精确计算提供了很好的计算依据。  相似文献   

12.
针对已有分裂算法时间复杂度较高,不适用于社团数目未知的大型网络等问题,借鉴电压谱分割算法和GN算法的思想,提出以扩散距离为分割依据,以模块度函数为社团结构划分满意度的快速分裂算法.实验结果表明,与已有的社团结构划分算法相比,基于扩散距离的快速分裂算法能够得到高质量的社团结构,其时间复杂度较低,不仅对稀疏网络能够快速运算...  相似文献   

13.
核向量机可以高效学习大样本数据集,却有泛化能力低的缺陷.针对已有参数C选择算法缺乏启发性以及选取困难的不足,本文在分析了核聚类算法和距离比较算法的基础之上,提出基于核聚类的相对距离比较方法,该算法利用核聚类算法在特征空间对样本点进行聚类分簇,然后根据样本点到簇心相对距离的比值,得到参数C.本文在理论和实验两个方面,证明该算法有效地选择参数C,从而提高核支持向量机算法的泛化能力.  相似文献   

14.
吴斌  卢红丽  江惠君 《计算机应用》2020,40(6):1654-1661
密度峰值聚类(DPC)算法是一种新型的聚类算法,具有调节参数少、无需迭代求解、能够发现非球形簇等优点;但也存在截断距离无法自动调节、聚类中心需要人工指定等缺点。针对上述问题,提出了一种自适应DPC(ADPC)算法,实现了基于基尼系数的自适应截断距离调节,并建立了一种聚类中心的自动获取策略。首先,综合考虑局部密度和相对距离两种因素以重新定义簇中心权值计算公式;然后,基于基尼系数建立自适应截断距离调节方法;最后,根据决策图和簇中心权值排序图提出自动选取聚类中心的策略。仿真实验结果表明,ADPC算法可以根据问题特征来自动调节截断距离并自动获取聚类中心点,而且在测试数据集上取得了比几种常用的聚类算法和DPC改进算法更好的结果。  相似文献   

15.
应用层协议识别是指从承载应用层协议数据的网络流量中提取出可以标识应用层协议的关键特征,并以这些关键特征为基础,将同种类型的应用层协议数据划分在一起。针对现有网络流量识别方法对未知应用层协议识别率低的问题,提出了一种自适应聚类的未知应用层协议识别方法。该方法以传统的AGNES层次聚类算法为基础,依据网络流应用层协议数据的负载特征,基于相似度对应用层协议进行聚类。方法将聚类算法中相似度计算划分为聚类前应用层协议数据间的相似度计算和聚类中簇间的相似度计算两部分,避免了重复性地计算应用层协议数据间的相似度,提升了算法的聚类效率。实验结果表明所提出的方法能够高效准确地对未知协议的网络流量进行识别。  相似文献   

16.
一种基于加权欧氏距离聚类方法的研究   总被引:3,自引:0,他引:3  
聚类分析中最常用的距离度量方法是欧氏距离。针对传统的基于欧氏距离计算相似度的不足,提出了一种在领域知识未知的情况下基于加权欧氏距离的计算方法。并对此进行了分析与研究。实验证明,该方法不仅在一定程度上克服了欧氏距离的缺陷,而且能够提高聚类质量,优化聚类性能。  相似文献   

17.
针对现有的基于流形距离的聚类算法对“绝对流形”数据集较“相对流形”数据集聚类效果佳和参数[ρ]在较大范围内变化时,聚类性能较差等问题,提出基于改进流形距离的粗糙集k-means聚类算法。该算法通过用属性划分和最大最小距离选择初始聚类中心,以改进的流形距离和粗糙集优化k-means,并结合终止判断条件以达到解决边界数据聚类问题和提升聚类效果的目的。仿真结果表明:该算法对“绝对流形”和“相对流形”数据集聚类效果均有较好改善,且参数变化对聚类性能影响较大。  相似文献   

18.
密度峰值聚类(DPC)算法在对密度分布差异较大的数据进行聚类时效果不佳,聚类结果受局部密度及其相对距离影响,且需要手动选取聚类中心,从而降低了算法的准确性与稳定性。为此,提出一种基于加权共享近邻与累加序列的密度峰值算法DPC-WSNN。基于加权共享近邻重新定义局部密度的计算方式,以避免截断距离选取不当对聚类效果的影响,同时有效处理不同类簇数据集分布不均的问题。在原有DPC算法决策值的基础上,生成一组累加序列,将累加序列的均值作为聚类中心和非聚类中心的临界点从而实现聚类中心的自动选取。利用人工合成数据集与UCI上的真实数据集测试与评估DPC-WSNN算法,并将其与FKNN-DPC、DPC、DBSCAN等算法进行比较,结果表明,DPC-WSNN算法具有更好的聚类表现,聚类准确率较高,鲁棒性较强。  相似文献   

19.
密度峰值聚类算法在处理分类型数据时难以产生较好的聚类效果。针对该现象,详细分析了其产生的原因:距离计算的重叠问题和密度计算的聚集问题。同时为了解决上述问题,提出了一种面向分类型数据的密度峰值聚类算法(Cauchy kernel-based density peaks clustering for categorical data,CDPCD)。算法首先指出分类型数据距离度量过程中有序特性(分类型数据属性值之间的顺序关系)鲜有考虑的现状,进而提出一种基于概率分布的加权有序距离度量来缓解重叠问题。通过结合柯西核函数,在共享最近邻密度峰值聚类算法基础上重新评估数据密度值,改进了密度计算和二次分配方式,增强了密度多样性,降低了聚集问题带来的影响。多个真实数据集上的实验结果表明,相较于传统的基于划分和密度的聚类算法,CDPCD都取得了更好的聚类结果。  相似文献   

20.
针对聚类算法中特征数据对聚类中心贡献的差异性及算法对初始聚类中心的敏感性等问题,提出一种基于知识量加权的直觉模糊均值聚类方法。首先将原始数据集直觉模糊化并改进最新的直觉模糊知识测度计算知识量,据此实现数据集特征加权,再利用核空间密度与核距离初始化聚类中心,以提高高维特征数据集的计算精度与聚类效率,最后基于类间样本距离与最小知识量原理建立聚类优化模型,得到最优迭代算法。基于UCI人工数据集的实验结果表明,所提方法较大程度地提高了聚类的准确性与迭代效率,分类正确率及执行效率分别平均提高了10.63%和31.75%,且具有良好的普适性和稳定性。该方法首次将知识测度新理论引入模糊聚类并取得优良效果,为该理论在其他相关领域的潜在应用开创了新例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号