首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 10 毫秒
1.
基于Ward's方法的k-平均优化算法及其应用   总被引:1,自引:0,他引:1       下载免费PDF全文
通过对k-平均算法存在不足的分析,提出了一种基于Ward’s方法的k-平均优化算法。算法首先在用Ward’s方法对样本数据初步聚类的基础上,确定合适的簇数目、初始聚类中心等k-平均算法的初始参数,并进行孤立点检测、删除;基于上述处理再采用传统k-平均算法进行聚类。将优化的k-平均算法应用到罪犯人格类型分析中,实验结果表明,该算法的效率、聚类效果均明显优于传统k-平均算法。  相似文献   

2.
现有的基于密度优化初始聚类中心的k-means算法存在聚类中心的搜索范围大、消耗时间久以及聚类结果对孤立点敏感等问题,针对这些问题,提出了一种基于平均密度优化初始聚类中心的k-means算法adk-means。该算法将数据集中的孤立点划分出来,计算出剩余数据集样本的平均密度,孤立点不参与聚类过程中各类所含样本均值的计算;在大于平均密度的密度参数集合中选择聚类中心,根据最小距离原则将孤立点分配给离它最近的聚类中心,直至将数据集完整分类。实验结果表明,这种基于平均密度优化初始聚类中心的k-means算法比现有的基于密度的k-means算法有更快的收敛速度,更强的稳定性及更高的聚类精度,消除了聚类结果对孤立点的敏感性。  相似文献   

3.
K-Means聚类算法的研究   总被引:6,自引:0,他引:6  
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足.比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等.文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣.实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布.  相似文献   

4.
K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣。实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布。  相似文献   

5.
K-Means算法是一种基于划分方法的经典聚类算法,已经在很多领域得到广泛的应用.虽然该算法有很多优点,但其也存在自身的局限性,比如需要用户输入聚类簇个数,初始聚类中心是随机性选择的,算法容易陷入局部最优解,对孤立点比较敏感等.文中首先应用统计学中的标准分数对样本进行孤立点分析,然后提出一种新的初始聚类中心确定策略.对改进的算法和原算法分别做实验进行比较,实验结果表明,改进的算法在准确率、收敛速度和稳定性方面都有很大的提高.  相似文献   

6.
将数据挖掘技术应用于入侵检测中可以提高检测的精度和效率.针对k-means算法对初始聚类中心很敏感,在聚类过程中对数据输入的顺序也有依赖性等特性,本文首先利用遗传算法初始中心点对k-means聚类算法进行了改进,然后使用k-means算法快速收敛获取聚类结果,最后在入侵检测的经典数据集KDD CUP 1999上检验了算法的有效性.实验结果表明,该方法与相关研究对比提高了入侵检测系统的精度和效率.  相似文献   

7.
改进的k-平均聚类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
孙士保  秦克云 《计算机工程》2007,33(13):200-201
聚类算法的好坏直接影响聚类的效果。该文讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种基于加权改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果。  相似文献   

8.
K-means算法的聚类效果与初始聚类中心的选择以及数据中的孤立点有很大关联,具有很强的不确定性。针对这个缺点,提出了一种优化初始聚类中心选择的K-means算法。该算法考虑数据集的分布情况,将样本点分为孤立点、低密度点和核心点,之后剔除孤立点与低密度点,在核心点中选取初始聚类中心,孤立点不参与聚类过程中各类样本均值的计算。按照距离最近原则将孤立点分配到相应类中完成整个算法。实验结果表明,改进的K-means算法能提高聚类的准确率,减少迭代次数,得到更好的聚类结果。  相似文献   

9.
提出一种新的选取初始聚类中心的算法,该算法结合了凝聚层次聚类算法AGNES,利用该算法选出初始聚类中心,再应用到K-means算法中进行聚类。实验表明,改进的算法聚类效果更好,准确率得到了提高,迭代次数也明显减少,还能够发现异常点。  相似文献   

10.
针对现有聚类算法普遍存在聚类质量低、参数依赖性大、孤立点难识别等问题,提出一种基于数据场的聚类算法。该算法通过计算每个数据对象点的势值,根据类簇中心的势值比周围邻居的势值大,且与其他类簇中心有相对较大距离的特点,确定类簇中心;根据孤立点的势值等于零的特点,选出孤立点;最后将其他数据对象点划分到比自身势值大且最近邻的类簇中,从而实现聚类。仿真实验表明,该算法在不需要人为调参的情况下准确找出类簇中心和孤立点,聚类效果优良,且与数据集的形状无关。  相似文献   

11.
针对DBSCAN算法存在的参数敏感性和不能区分相连的不同密度的簇等缺陷,提出了一种基于DBSCAN算法的改进算法。算法提出了累积平均密度的概念,用来作为簇合并的依据,弱化了密度阈值Minpts的作用;选取密度最大的对象作为初始聚类中心,按照密度由高到低的顺序进行聚类,具有一定的层次性,因此支持变密度数据集聚类。最后,用数据集对算法进行了聚类实验。实验结果表明,改进算法具有一定的参数鲁棒性,对于相连的不同密度的簇,能够达到理想的聚类效果。  相似文献   

12.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

13.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。  相似文献   

14.
针对大流量骨干网的在线网络异常检测是目前网络安全研究的热点之一,提出一种网络异常检测方法,有效在线处理大数据流,利用密度聚类算法把大数据流转换成微簇,通过微簇提高处理效率,定时调用孤立点检测算法发现攻击行为。方法具有不需线下训练、能发现任意行为模式、支持大数据流、可以平衡检测精度与系统资源要求、处理效率高等优点。实验表明,原型系统在20 s完成2000年LLS_DDOS_1.0数据集分析,检测率为82%,误报率为6%,效果与K-means相当。  相似文献   

15.
逄琳  刘方爱 《计算机应用》2016,36(6):1634-1638
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。  相似文献   

16.
模糊C-均值聚类算法是目前应用最广泛的聚类算法,但其仍然存在对孤立点敏感及对初始中心点依赖等问题.为此,提出了一种改进的基于样本加权的模糊聚类算法,该算法可以更加准确的获得初始中心点且去除噪声点.同时,针对Weka系统中聚类算法的薄弱性以及聚类问题在数据挖掘领域的广泛性,本文对此平台进行二次开发并对传统FCM算法与改进算法进行研究.研究发现,改进算法使得聚类结果稳定,且能准确获得聚类结果,提高了算法准确率.  相似文献   

17.
邵伦  周新志  赵成萍  张旭 《计算机应用》2018,38(10):2850-2855
K-means算法是被广泛使用的一种聚类算法,传统的K-means算法中初始聚类中心的选择具有随机性,易使算法陷入局部最优,聚类结果不稳定。针对此问题,引入多维网格空间的思想,首先将样本集映射到一个虚拟的多维网格空间结构中,然后从中搜索出包含样本数最多且距离较远的子网格作为初始聚类中心网格,最后计算出各初始聚类中心网格中所包含样本的均值点来作为初始聚类中心。此法选择出来的初始聚类中心与实际聚类中心拟合度高,进而可据此初始聚类中心稳定高效地得到最终的聚类结果。通过使用计算机模拟数据集和UCI机器学习数据集进行测试,结果表明改进算法的迭代次数和错误率比较稳定,且均小于传统K-means算法测试结果的平均值,能有效避免陷入局部最优,并且聚类结果稳定。  相似文献   

18.
针对K-Means算法所存在的问题,提出了一种改进的K-Means算法,该方法通过选取相互距离最远的数据点作为初始聚类中心,能够很好地排除随机选取初始聚类中心点的影响.通过实验验证,相对于传统K-Means算法,改进K-Means算法能够获得更好的聚类效果.  相似文献   

19.
聚类算法是数据挖掘里的一个重要研究问题.简单介绍CLARANS算法的基本思想,详尽描述了改进的CLARANS算法的基本思想和基本步骤,通过实验数据对其进行进一步分析.并对其应用领域做出简单概要.  相似文献   

20.
传统的K-means算法随机选取初始聚类中心,聚类结果不稳定,容易陷入局部最优解。针对聚类中心的敏感性,提出一种优化初始聚类中心的K-means算法。此算法利用数据集样本的分布特征计算样本点的密度并进行分类,在高密度区域中选择K个密度最大且相互距离超过某特定阈值的点作为初始聚类中心,并对低密度区域的噪声点单独处理。实验证明,优化后的算法能取得更好的聚类效果,且稳定性增强。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号