共查询到20条相似文献,搜索用时 31 毫秒
1.
在优化文本文件问题的研究中,为了提高文本聚类的准确率,得到更高质量的聚类结果,在深入研究K-means算法的基础上,提出了一种改进的K-means聚类算法,并将算法应用于文本聚类仿真系统中。该算法可以自动计算聚类结果中簇的个数,消除了孤立点对聚类结果的影响,为建立文本聚类系统提供了先决条件。在文本聚类仿真实验中,对数据集进行了多次测试,测试结果表明基于改进K-means算法的文本聚类系统具有更好的聚类特性,取得了良好的应用效果。 相似文献
2.
针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means 聚类改进算法,并利用MapReduce编程模型实现了改进算法的并行化。通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:(1)聚类的平均准确率在实验所采用的4种UCI标准数据集上,相比原始K-means聚类算法和基于粒子群优化算法改进的K-means聚类算法都有所提高;(2) 聚类的平均运行效率在实验所采用的5种大小递增的随机数据集上,当数据量较大时,显著优于原始K-means串行算法,稍好于粒子群优化算法改进的并行K-means聚类算法。可以得出结论,在大数据情景下,应用该算法的聚类效果较好。 相似文献
3.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。 相似文献
4.
在图像分类中,视觉词典的质量直接影响着图像分类的结果,随着用户的要求提高,K-means聚类算法所构建的视觉词典已无法满足用户对图像分类的需求,为了得到高效的视觉词汇码本,针对构建视觉词典的算法进行研究,通过K-means算法和层次聚类算法的结合来达到这一目的。混合聚类算法采用K-means算法对数据样本进行初步聚类,得到一个粗略的划分;引入信息熵的属性加权,利用信息熵度量某个属性的关键性,信息熵越大的属性对聚类结果的影响越小,计算加权后的类间欧式距离,将距离相近的两个类进行合并;在空间金字塔模型框架中,将改进的混合聚类方法应用到视觉词典的构建中。实验结果表明,结合信息熵的层次聚类算法能有效提高空间金字塔模型的分类准确率。 相似文献
5.
6.
7.
8.
9.
K-means算法因其原理简单和聚类效果尚佳的优点在机器学习和数据挖掘领域得到广泛使用,但其仍存在一些缺点:K-means算法需指定分类类别数K;K-means算法对于初始聚类中心的选取策略是随机选择,这可能会影响到最终聚类结果的准确率及计算速度。以上缺点都限制了K-means算法的计算效率的进一步提升。论文针对以上问题,提出了一种基于Flink并行化的K-means优化算法,该算法在传统K-means算法的基础上引入Canopy算法来完成初始聚类,得到类别数K,然后采用最大距离算法来计算初始聚类中心,并利用Flink框架的并行计算能力,对多个数据集进行聚类实验。实验结果表明,论文算法可以减少聚类过程迭代次数,并且在聚类准确率方面也有一定的提高,在大规模数据集环境下同样具有良好的计算效率。 相似文献
10.
针对原始K-means聚类算法受初始聚类中心影响过大以及容易陷入局部最优的不足,提出一种基于改进布谷鸟搜索(CS)的K-means聚类算法(ACS-K-means)。其中,自适应CS(ACS)算法在标准CS算法的基础上引入步长自适应调整,以提高搜索精度和收敛速度。在UCI标准数据集上,ACS-K-means算法可得到比K-means、基于遗传算法的K-means(GA-K-means)、基于布谷鸟搜索的K-means(CS-K-means)和基于粒子群优化的K-means(PSO-K-means)算法更优的聚类质量和更高的收敛速度。将ACS-K-means聚类算法应用到南宁市青秀区“城管通”系统的城管案件热图的开发中,在地图上对案件地理坐标进行聚类并显示,应用结果表明,聚类效果良好,算法收敛速度快。 相似文献
11.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。 相似文献
12.
针对大量瑞氏染色细胞图像, 通过YCbCr颜色空间进行K-means聚类, 观察各分量聚类中心差值变化规律, 提出了一种新的确定K-means聚类数的颜色校正算法。该算法首先是将瑞氏染色细胞图像中不同目标分别准确地聚集在相应类当中, 再与标准图像中的每类进行配比, 并利用直方图规定化进行直方图调整, 得到颜色校正结果。经大量实验证明, 尤其在细胞图像中目标颜色特征较接近的情况下, 该算法通过确定合适的聚类数可大大提高颜色校正结果的准确率。 相似文献
13.
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。 相似文献
14.
一种K-means聚类算法的改进与应用 总被引:1,自引:0,他引:1
K-means算法是基于距离作为相似性度量的聚类算法,传统的K-means算法存在难以确定中心值个数、受噪声及孤立点影响较大的缺点。对此,利用类间相异度与类内相异度改进初始值K,以尽量减少人工干预;同时计算数据库中每一点与剩余点的距离和距离均和,将两者的大小比较作为识别孤立点和噪声点的依据,从而删除孤立点,减少对数据聚类划分的影响。最后将改进后的Kmeans算法应用于入侵检测系统并进行仿真实验,结果表明,基于改进的K-means算法的入侵检测系统一定程度上降低了误报率及误检率,提高了检测的准确率。 相似文献
15.
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。 相似文献
16.
针对光电式阅卷机价格昂贵,使用成本高,设备利用率低的缺点,提出一种基于Hough变换的答题卡识别方法。运用数字图像处理的手段,对答题卡图像进行灰度拉伸、图像滤波、图像二值化等预处理;依据Hough变换的直线建立选项网;根据填涂区域的几何属性进行识别判断。测试结果表明,该算法对于答题卡的识别具有高效率、高准确率、使用方便、成本低廉的特点,具有一定的应用价值。 相似文献
17.
18.
19.
针对K-means算法的聚类结果极易受到聚类中心的影响而陷入局部最优解的问题,提出一种基于改进引力搜索的K-means聚类算法。首先引入自适应概念,对引力系数衰减因子进行控制,提高算法的全局探索能力和局部开发能力;然后,引入免疫克隆选择机制,以便算法能够有效跳出局部最优,并通过对12个基准测试函数的实验验证改进引力搜索算法的有效性和优越性;最后,通过结合改进的引力搜索算法和K-means算法,提出一种新的聚类算法A2F-GSA-Kmeans,并在6个测试数据集上的实验表明,该算法具有较好的聚类质量。 相似文献