首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 968 毫秒
1.
K-means算法因其原理简单和聚类效果尚佳的优点在机器学习和数据挖掘领域得到广泛使用,但其仍存在一些缺点:K-means算法需指定分类类别数K;K-means算法对于初始聚类中心的选取策略是随机选择,这可能会影响到最终聚类结果的准确率及计算速度。以上缺点都限制了K-means算法的计算效率的进一步提升。论文针对以上问题,提出了一种基于Flink并行化的K-means优化算法,该算法在传统K-means算法的基础上引入Canopy算法来完成初始聚类,得到类别数K,然后采用最大距离算法来计算初始聚类中心,并利用Flink框架的并行计算能力,对多个数据集进行聚类实验。实验结果表明,论文算法可以减少聚类过程迭代次数,并且在聚类准确率方面也有一定的提高,在大规模数据集环境下同样具有良好的计算效率。  相似文献   

2.
介绍了K-means算法的思想,分析了在文档聚类中运用K-means算法的步骤。以开源的机器学习软件Weka为平台,详细论述在Weka上进行文档聚类的前端处理过程,利用搜狗语料库中的文档在Weka上进行了Kmeans算法的聚类测试。实验结果表明,K-means算法在Web文档聚类中表现出较好的效果。根据实验结果,分析了K-means算法存在的不足和聚类分析中特征选择的重要性。  相似文献   

3.
王宇 《计算机工程与设计》2004,25(11):1884-1885,1896
在分析K-means聚类算法和K-medians聚类算法的基础上,使用Tschebyshev距离(∞-范教)对数据对象集进行聚类分析,得到聚类中心恰为数据对象集的最大值与最小值的均值这一新颖结果,并进而提出了一个新的聚类算法,即K-maxmins聚类算法。给出了K-maxrnins聚类算法与传统K-means聚类算法和K-medians聚类算法的结果比较。  相似文献   

4.
针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。  相似文献   

5.
基于有向带权图的页面聚类算法研究   总被引:1,自引:0,他引:1  
聚类算法是数据挖掘中的一个重要的分析工具.Web使用挖掘中的聚类分析一般分为用户聚类和页面聚类.其中页面聚类是指导网站结构离线优化的重要方法.利用有向带权图表示用户的访问会话记录,对建立的有向带权图模型运用聚类算法实现页面聚类.选取真实数据对典型的聚类算法K-means算法、DBSCAN算法和COBWEB算法进行实验.实验结果表明,在选取的数据集范围内,COBWEB算法准确率要高于K-means算法和DBSCAN算法,时间性能与用户访问频率矩阵大小有密切关系.  相似文献   

6.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

7.
针对K-means算法中聚类结果易受初始聚类中心影响的缺点,提出一种改进初始聚类中心选择的算法.该算法不断寻找最大聚类,并利用距离最大的两个数据对象作为开始的聚类中心对该聚类进行分裂,如此反复,直到得到指定聚类中心个数.用KDD CUP99数据集对改进算法进行仿真实验,实验数据表明,用该算法获得的聚类中心进行聚类相对原始的K-means算法,能获得更好的聚类结果.  相似文献   

8.
为改进传统K-means聚类算法中存在因随机选择初始质心而导致聚类结果不稳定且准确度低的缺点,提出基于改进量子旋转门人工鱼群算法的K-means聚类(IQAFSA)算法,通过动态更新量子旋转门的旋转角提高下一代更新方向准确度及更新速度。变异策略从传统的非门改为H门,既增加种群的多样性,又使全局搜索能力增强;最终使用所改进算法选取K-means的初始质心再进行聚类。通过UCI数据的测试以及在医学相关数据上的实验表明,提出的算法具有有效性,准确度较高且收敛速度较快。  相似文献   

9.
为了克服经典K-means算法对初始聚类中心过分依赖的缺点,该文提出采用竞争神经网络和密度思想对经典k-means算法进行预处理,从而改变经典K-means算法对初始聚类中心的随机选择。实验结果表明,这两种方法是有效的。  相似文献   

10.
一种改进的K-means算法   总被引:24,自引:0,他引:24  
聚类分析在科研和商业应用中都有着非常重要的应用,K-means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K-means算法的局限性日益突出。基于取样的划分思想,提出了一种改进的K-means算法,在一定程度上避免了聚类结果陷入局部解的现象,减少了原始K-means算法因采用误差平方和准则函数而出现将大的聚类簇分割开的情况,仿真实验结果表明:改进后的K-means算法优于原始算法,并且稳定性更好。  相似文献   

11.
蚁群聚类组合方法的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
基于蚁群算法的聚类算法已经在当前的数据挖掘研究中得到应用。针对蚁群聚类算法早期出现的缺点,提出一种蚁群聚类组合方法使其得以改进。改进思路是引入K-means作为蚁群算法的预处理过程。通过K-means快速、粗略地确定聚类中心,利用K-means方法的结果作为初值,再进行蚁群算法聚类。有效地解决了蚁群算法早期收敛过慢等问题。  相似文献   

12.
文本聚类算法的设计与实现   总被引:1,自引:1,他引:0  
为了有效地提高丈本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类.实验结果表明,该算法的召回率和正确率更高.  相似文献   

13.
一种新的混合聚类分析算法*   总被引:2,自引:1,他引:1  
结合人工鱼群算法的全局寻优优点提出了一种基于人工鱼群算法的K-平均混合聚类分析算法。实验结果表明,该算法能克服K-平均聚类算法易陷入局部极小的不足,有较好的全局性,且聚类正确率明显高于K-平均算法,聚类效果更好。  相似文献   

14.
王娟 《微型机与应用》2011,30(20):71-73,76
传统K-means算法对初始聚类中心的选取和样本的输入顺序非常敏感,容易陷入局部最优。针对上述问题,提出了一种基于遗传算法的K-means聚类算法GKA,将K-means算法的局部寻优能力与遗传算法的全局寻优能力相结合,通过多次选择、交叉、变异的遗传操作,最终得到最优的聚类数和初始质心集,克服了传统K-means算法的局部性和对初始聚类中心的敏感性。  相似文献   

15.
传统K-均值算法对初始聚类中心敏感大,易陷入局部最优值.将遗传算法与K均值算法结合起来进行探讨并提出一种改进的基于K-均值聚类算法的遗传算法,改进后的算法是基于可变长度的聚类中心的实际数目来实现的.同时分别设计出新的交叉算子和变异算子,并且使用的聚类有效性指标DB-Index作为目标函数,该算法很好地解决了聚类中心优化问题,与之前的两种算法相比,改进后的算法改善了聚类的质量,提高了全局的收敛速度.  相似文献   

16.
聚类分析是一种无监督的模式识别方式,它是数据挖掘中的重要技术之一。给出了一种基于改进混合蛙跳算法的聚类分析方法,该方法结合了K—均值算法和改进混合蛙跳算法各自的优点,引入了K—均值操作,再用改进混合蛙跳算法进行优化,很大程度上提高了该算法的局部搜索能力和收敛速度。通过仿真对基于改进混合蛙跳的聚类方法与其他已有的聚类方法进行了比较,验证了所提出算法的优越性。  相似文献   

17.
一种结合人工蜂群和K-均值的混合聚类算法   总被引:1,自引:1,他引:1  
传统的K-均值聚类算法虽然收敛速度快,但由于过度依赖初始聚类中心,算法的鲁棒性较差。为此,提出了一种改进人工蜂群算法与K-均值相结合的混合聚类方法,将改进人工蜂群算法能调节全局寻优能力与局部寻优能力的优点与K-均值算法收敛速度快的优点相结合,来提高算法的鲁棒性。实验表明,该算法不仅克服了传统K-均值聚类算法稳定性差的缺点,而且聚类效果也有了明显改善。  相似文献   

18.
针对K-means算法的聚类结果极易受到聚类中心的影响而陷入局部最优解的问题,提出一种基于改进引力搜索的K-means聚类算法。首先引入自适应概念,对引力系数衰减因子进行控制,提高算法的全局探索能力和局部开发能力;然后,引入免疫克隆选择机制,以便算法能够有效跳出局部最优,并通过对12个基准测试函数的实验验证改进引力搜索算法的有效性和优越性;最后,通过结合改进的引力搜索算法和K-means算法,提出一种新的聚类算法A2F-GSA-Kmeans,并在6个测试数据集上的实验表明,该算法具有较好的聚类质量。  相似文献   

19.
在许多领域中,聚类是重要分析技术之一,如数据挖掘、模式识别和图像分析。针对K-means算法过度依赖初始聚类中心的选择而陷入局部最优的问题,提出了基于自适应步长的萤火虫划分聚类算法,简称ASFA。利用萤火虫算法的随机性和全局搜索性,来找到指定数量的初始簇中心,进一步利用K-means得到精确的簇划分。在萤火虫聚类优化算法中,采用自适应步长代替原有的固定步长,从而避免算法陷入局部最优,且能获得精度更高的解。为了提高算法性能,将改进的新算法用于不同规模大小的标准数据集中,实验结果表明,ASFA与K-means、GAK、PSOK对比显示更好的聚类性能和更好的稳定性和鲁棒性,与其他文献中算法相比,ASFA在寻优精度方面能取得更好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号