首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
为了提高K-medoids算法的精度和稳定性,并解决K-medoids算法的聚类数目需要人工给定和对初始聚类中心点敏感的问题,提出了基于密度权重Canopy的改进K-medoids算法。该算法首先计算数据集中每个样本点的密度值,选择密度值最大的样本点作为第1个聚类中心,并从数据集中删除这个密度簇;然后通过计算剩下样本点的权重,选择出其他聚类中心;最后将密度权重Canopy作为K-medoids的预处理过程,其结果作为K-medoids算法的聚类数目和初始聚类中心。UCI真实数据集和人工模拟数据集上的仿真实验表明,该算法具有较高的精度和较好的稳定性。  相似文献   

2.
基于密度的K-means聚类中心选取的优化算法   总被引:2,自引:0,他引:2  
针对传统的K-means算法对于初始聚类中心点和聚类数的敏感问题,提出了一种优化初始聚类中心选取的算法。该算法针对数据对象的分布密度以及计算最近两点的垂直中点方法来确定k个初始聚类中心,再结合均衡化函数对聚类个数进行优化,以获得最优聚类。采用标准的UCI数据集进行实验对比,发现改进后的算法相比传统的算法有较高的准确率和稳定性。  相似文献   

3.
粒子群优化(PSO)的K-Medoids进化聚类算法中初始种群是随机产生的,导致选择的初始中心点有可能位于同一类簇中.为提高聚类准确性,提出一种采用递减概率化初始点选择的PSO与K-Medoids结合新算法.根据样本的分布密度设置对应的选择概率,并由轮盘赌策略依次选择中心点,使获得的中心点位于密度较高区域且在不同的簇中,同时又实现了初始种群的多样性.在人工和UCI真实数据集上的实验结果表明,改进后的算法有更快的收敛速度,提高了聚类准确率和稳定性.  相似文献   

4.
纪霞  姚晟  赵鹏 《自动化学报》2020,46(3):562-575
针对Science发表的密度峰值聚类(Density peaks clustering,DPC)算法及其改进算法效率不高的缺陷,提出一种相对邻域和剪枝策略优化的密度峰值聚类(Relative neighborhood and pruning strategy optimized DPC,RP-DPC)算法.DPC聚类算法主要有两个阶段:聚类中心点的确定和非聚类中心点样本的类簇分配,并且时间复杂度集中在第1个阶段,因此RP-DPC算法针对该阶段做出改进研究.RP-DPC算法去掉了DPC算法预先计算距离矩阵的步骤,首先利用相对距离将样本映射到相对邻域中,再从相对邻域来计算各样本的密度,从而缩小各样本距离计算及密度统计的范围;然后在计算各样本的δ值时加入剪枝策略,将大量被剪枝样本δ值的计算范围从样本集缩小至邻域以内,极大地提高了算法的效率.理论分析和在人工数据集及UCI数据集的对比实验均表明,与DPC算法及其改进算法相比,RP-DPC算法在保证聚类质量的同时可以实现有效的时间性能提升.  相似文献   

5.
密度峰值聚类(DPC)算法是一种新颖的基于密度的聚类算法,其原理简单、运行效率高.但DPC算法的局部密度只考虑了样本之间的距离,忽略了样本所处的环境,导致算法对密度分布不均数据的聚类效果不理想;同时,样本分配过程易产生分配错误连带效应.针对上述问题,提出一种基于相对密度估计和多簇合并的密度峰值聚类(DPC-RD-MCM)算法. DPC-RD-MCM算法结合K近邻和相对密度思想,定义了相对K近邻的局部密度,以降低类簇疏密程度对类簇中心的影响,避免稀疏区域没有类簇中心;重新定义微簇间相似性度量准则,通过多簇合并策略得到最终聚类结果,避免分配错误连带效应.在密度分布不均数据集、复杂形态数据集和UCI数据集上,将DPC-RD-MCM算法与DPC及其改进算法进行对比,实验结果表明:DPC-RD-MCM算法能够在密度分布不均数据上获得十分优异的聚类效果,在复杂形态数据集和UCI数据集的聚类性能上高于对比算法.  相似文献   

6.
模糊C均值算法(FCM)是一种用于聚类的最流行的技术。不过,传统的FCM使用欧氏距离作为数据集的相似准则,从而导致数据集的划分有相等的趋势。而数据集的形状和簇的密度对聚类性能有高度影响。为了解决这个问题,提出基于簇密度的距离调节因子以修正相似性度量。同时,针对模糊C-均值(FCM)聚类算法对初始聚类中心选择敏感,易陷入局部最优的问题,采用量子粒子群优化算法以获取全局最优解。仿真实验证明,改进的聚类算法(QPSO-FCM-CD)具有良好的性能。  相似文献   

7.
模糊C均值算法(FCM)是一种用于聚类的最流行的技术。不过,传统的FCM使用欧氏距离作为数据集的相似准则,从而导致数据集的划分有相等的趋势。而数据集的形状和簇的密度对聚类性能有高度影响。为了解决这个问题,提出基于簇密度的距离调节因子以修正相似性度量。同时,针对模糊C-均值(FCM)聚类算法对初始聚类中心选择敏感,易陷入局部最优的问题,采用量子粒子群优化算法以获取全局最优解。仿真实验证明,改进的聚类算法(QPSO-FCM-CD)具有良好的性能。  相似文献   

8.
针对大部分聚类算法无法高效地发现任意形状及不同密度的簇的问题,提出了一种高效的基于距离关联性动态模型的聚类改进算法。首先,为提高聚类效率,使用层次聚类算法对数据集进行初始聚类,并剔除样本点含量过低的簇;其次,为发现任意形状及不同密度的簇,以初始聚类结果的簇的质心作为代表点,利用距离关联性动态模型进行聚类,并利用层次聚类的树状结构进行有效的剪枝计算;最后,检验算法的有效性。实验采用Chameleon数据集进行测试,结果表明,该算法能够有效识别任意形状及不同密度的簇,且与同类算法相比,时间效率有显著的提高。  相似文献   

9.
基于粒计算的K-medoids聚类算法   总被引:1,自引:0,他引:1  
马箐  谢娟英 《计算机应用》2012,32(7):1973-1977
传统K-medoids聚类算法的聚类结果随初始中心点不同而波动,且计算复杂度较高不适于处理大规模数据集;快速K-medoids聚类算法通过选择合适的初始聚类中心改进了传统K-medoids聚类算法,但是快速K-medoids聚类算法的初始聚类中心有可能位于同一类簇。为克服传统K-medoids聚类算法和快速K-medoids聚类算法的缺陷,提出一种基于粒计算的K-medoids聚类算法。算法引入粒度概念,定义新的样本相似度函数,基于等价关系产生粒子,根据粒子包含样本多少定义粒子密度,选择密度较大的前K个粒子的中心样本点作为K-medoids聚类算法的初始聚类中心,实现K-medoids聚类。UCI机器学习数据库数据集以及随机生成的人工模拟数据集实验测试,证明了基于粒计算的K-medoids聚类算法能得到更好的初始聚类中心,聚类准确率和聚类误差平方和优于传统K-medoids和快速K-medoids聚类算法,具有更稳定的聚类结果,且适用于大规模数据集。  相似文献   

10.
针对密度峰值聚类算法存在数据集密度差异较大时,低密度区域聚类中心难以检测和参数敏感的问题,提出了一种新型密度极值算法。引入自然邻居概念寻找数据对象自然近邻,定义椭圆模型计算自然稳定状态下数据局部密度;计算数据对象余弦相似性值,用余弦相似性值来更新数据对象连通值,采用连通值划分高低密度区域和离群点;构造密度极值函数找到高低密度不同区域聚类中心点;将不同区域非聚类中心点归并到离其最近的聚类中心所在簇中。通过在合成数据集和UCI公共数据集实验分析:该算法比其他对比算法在处理密度分布差异较大数据集上取得了更好的结果。  相似文献   

11.
K-prototypes算法是处理混合属性数据的主要聚类算法,但是存在对初值敏感、参数依赖和易受噪声干扰等问题。为了克服以上缺点,该文对K-prototypes算法的初始中心点选择进行了研究与分析,提出了一种基于近邻法的初始中心点选择策略对算法进行改进,算法先利用近邻法获得初始中心点集和k值,然后进行K-prototypes运算,最后加入识别异常数据点的规则。改进后的算法成功解决了传统K-prototypes算法的缺陷,而且具有更好的分类精度和稳定性。经实验证明,改进算法是正确和有效的,明显优于传统的K-prototypes算法。  相似文献   

12.
一种优化初始中心的K-means粗糙聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
针对K-means算法的不足,提出了一种优化初始中心的聚类算法。首先,采用密度敏感的相似性度量来计算对象的密度,基于对象之间的距离和对象的邻域,选择相互距离尽可能远的数据点作为初始聚类中心。然后,采用基于粗糙集的K-means聚类算法处理边界对象,同时利用均衡化函数自动生成聚类数目。实验表明,算法具有较好的聚类效果和综合性能。  相似文献   

13.
初始聚类中心优化的k-means算法   总被引:37,自引:0,他引:37       下载免费PDF全文
传统的k-means算法对初始聚类中心敏感,聚类结果随不同的初始输入而波动。为消除这种敏感性,提出一种优化初始聚类中心的方法,此方法计算每个数据对象所在区域的密度,选择相互距离最远的k个处于高密度区域的点作为初始聚类中心。实验表明改进后的k-means算法能产生质量较高的聚类结果,并且消除了对初始输入的敏感性。  相似文献   

14.
当前混合属性数据发布中隐私保护方法大多存在隐私保护效果不佳或数据效用较差的问题,采用差分隐私与优化的k-prototype聚类方法相结合,提出改进k-prototype聚类的差分隐私混合属性数据发布方法(DCKPDP)。为解决传统k-prototype聚类算法没有考虑不同数值型属性对聚类结果有较大影响的问题,利用信息熵为每个数值型属性添加属性权重;为解决聚类初始中心点人为规定或者由随机算法随机确定,导致聚类结果精确度不高的问题,结合数据对象的局部密度和高密度对聚类过程中初始中心点进行自适应选择;为解决数据信息泄露风险较高的问题,对聚类中心值进行差分隐私保护。实验结果表明,DCKPDP算法满足差分隐私保护所需的噪声量更小,数据的可用性更好。  相似文献   

15.
为避免初始聚类中心选取到孤立点容易导致聚类结果陷入局部最优的不足,提出一种基于密度的K-means(聚类算法)初始聚类中心选择方法。该方法首先计算每个数据对象与其它数据对象间的平均相似度,找出平均相似度高于某固定阈值的对象视作核心对象,再从核心对象中选取彼此间最不相似的作为初始聚类中心。通过自构建的新浪微博抓取工具,分别抓取不同类别的数千条数据,经过分词、预处理及权重计算后,用改进的K-means算法对其进行聚类分析,查准/全率较传统的K-means算法要稳定,聚类的平均时间也得到缩短。实验结果表明,改进后的算法在微博聚类中有更高的准确性和稳定性,有利于从大量的微博数据中发现热点舆情。  相似文献   

16.
在聚类研究中,通常认为数据集的对象、属性等方面是满足独立同分布的,它们之间是互不影响的,然而实际上它们之间存在着某些潜在的联系,即非独立同分布。为了更好地挖掘其存在的潜在关系,将数据集进行二次幂处理,计算皮尔森相关系数后得到二次幂耦合的数据集样本,为了解决[K]-means聚类算法存在选取初始中心点的敏感性问题,基于密度的思想,通过计算密度参数合理调整高密度区域,利用聚类迭代的方法进行选点,将高密度区域中的密度最大点作为初始点,距离初始点最远点作为第二个点,以前两个点为中心聚类迭代得到两个质心,将距离两个质心最远的点作为第三点,以此类推,实验结果表明所给的算法能够得到较高的准确率,较少的迭代次数,以及相对较好的聚类效果。  相似文献   

17.
基于密度和对象方向聚类算法的改进   总被引:10,自引:1,他引:10  
针对K-means算法所存在的问题进行了深入的研究,提出了基于密度和聚类对象方向的改进算法(KADD算法)。该算法采取聚类对象分布密度方法来确定初始聚类中心,然后根据对象的聚类方向来发现任意形状的簇。理论分析与实验结果表明,改进算法在不改变时间、空间复杂度的情况下能取得更好的聚类结果。  相似文献   

18.
现有面向矩阵数据集的算法多数通过随机选取初始类中心得到聚类结果。为克服不同初始类中心对聚类结果的影响,针对分类型矩阵数据,提出一种新的初始聚类中心选择算法。根据属性值的频率定义矩阵对象的密度和矩阵对象间的距离,扩展最大最小距离算法,从而实现初始类中心的选择。在7个真实数据集上的实验结果表明,与初始类中心选择算法CAOICACD和BAIICACD相比,该算法均具有较优的聚类效果。  相似文献   

19.
一种基于划分的动态聚类算法   总被引:8,自引:5,他引:8  
聚类分析是数据挖掘的一个重要研究分支,已经提出了许多聚类算法,划分方法是其中之一。划分方法的缺点是要求事先给定聚类结果数,对初始划分和输入顺序敏感等。为克服这些缺陷,以划分方法为基础,提出了一种基于划分的动态聚类算法。该算法按密度从大到小,依距离选择较为分散的初始值,同时可以过滤噪声数据,并在聚类的过程中动态地改变聚类结果数,改善了聚类质量,获得了更自然的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号