首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 62 毫秒
1.
K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一.该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响.针对该缺点,通过引入属性权重提出了一种改进的K-means聚类算法,并在Hadoop平台加以实现,以更好体现改进算法的效率.通过实验进行了测试,表明...  相似文献   

2.
传统的K-means算法虽然具有很多优点,但聚类准则函数对簇密度不均的数据集分类效果较差.文中在加权标准差准则函数的基础之上,增加了收敛性判定,并在Hadoop平台上提出了一种基于MapReduce编程思想设计与优化的K-means并行算法.与传统的K-means算法相比,设计的并行算法在聚类结果的准确性、加速比、扩展性、收敛性等方面都有显著的提高,降低了因簇密度不均引起误分的概率,提高了算法的聚类精度,并且数据规模越大、节点越多,优化的效果就越明显.  相似文献   

3.
针对k-means算法与遗传聚类算法结合时,在其运行过程中算法易于早熟的现象,给出了一种改进的基于遗传进化的聚类算法,将k-means算法与遗传算法二者结合,并通过双种群混合方式构造初始种群,而两种群的不同来源于其各自个体构造方式的不同.适当设计遗传算子作用种群后,于进化群体中选择最优个体,以其对应各分量作为k-means算法的初始中心点,并由该个体执行k-means操作达到数据源的最终聚类之目的.仿真实验表明,该算法是一个有效的遗传聚类方法.  相似文献   

4.
张石磊  武装 《计算机科学》2012,(Z2):115-118
随着信息技术的飞速发展,需要处理的数据量急剧增长,聚类算法的研究面临着海量数据分析和处理的挑战。对K-means聚类算法的优化进行了深入的研究,提出了首先选定初始聚类中心的并行K-means聚类算法。对不同大小的数据集进行测试实验,证明该优化算法具有更好的时间性、正确性和稳定性,适合于海量数据的分析和处理。  相似文献   

5.
《软件》2016,(10):46-50
针对海量微博数据无法高速、精准发现热点话题的问题,基于Hadoop大数据处理技术,提出了一种面向微博热点话题发现的文本聚类算法。利用大数据处理平台Hadoop下开源机器学习软件库Mahout,将文本聚类和热点话题相结合,对基于余弦距离测度的K-means算法进行改进,通过对不同区间范围的余弦距离进行适当的增大或缩小,提高了微博热点话题聚类结果的簇内聚集度和簇间分离度。实验结果表明,采用修改余弦距离的改进的K-means算法,微博热点话题聚类结果的簇内距离减少了2.72%,簇间距离增大了4.12%,召回率和准确率也分别提高了7%和6%,有效的提高了微博热点话题发现的聚类质量。  相似文献   

6.
K-means算法是数据挖掘中非常经典的算法。通过数据之间内在关联性将同类数据组合在一起,这对于大量混乱的数据进行资源整合具有非常重要的意义。就K-means聚类算法在文本处理领域的应用展开研究,分析在文本聚类过程中数据的处理流程,涉及文本中特征项的选取、文本的预处理操作、文本的结构化表示和文本之间相似度计算等步骤。  相似文献   

7.
针对当前数据规模不断增大,单机的数据挖掘运行效率低下的问题,本文采用Hadoop 平台对聚类K-means 算法进行研究以解决此类问题。首先对Hadoop 平台的架构和搭建进行了详细描述;其次详细分析了K-means 算法;最后给出了算法实现,并对算法进行了实验分析。  相似文献   

8.
王娟 《微型机与应用》2011,30(20):71-73,76
传统K-means算法对初始聚类中心的选取和样本的输入顺序非常敏感,容易陷入局部最优。针对上述问题,提出了一种基于遗传算法的K-means聚类算法GKA,将K-means算法的局部寻优能力与遗传算法的全局寻优能力相结合,通过多次选择、交叉、变异的遗传操作,最终得到最优的聚类数和初始质心集,克服了传统K-means算法的局部性和对初始聚类中心的敏感性。  相似文献   

9.
文中针对传统并行K-means聚类算法时间复杂度比较高的问题,结合Hadoop平台以及MapReduce编程模型的优势,提出了利用Hadoop及MapReduce编程模型实现大数据量下的K-means聚类算法.其中,Map函数完成每条记录到各个质心距离的计算并标记其所属类别,Reduce函数完成质心的更新,同时计算每条数据到其所属中心点的距离,并累计求和.通过实验,验证了K-means算法部署在Hadoop集群上并行化运行,在处理大数据时,同传统的串行算法相比,确实能够降低时间复杂度,而且表现出很好的稳定性和扩展性.  相似文献   

10.
本文介绍了Hadoop平台下Map Reduce的并行编程框架,分析了传统Kmeans聚类算法的优缺点,提出基于Canopy的Canopy-Kmeans聚类算法。使用Canopy聚类先对数据进行"粗"聚类,以优化Kmeans聚类算法初始聚类中心的选取。选用Map Reduce并行编程方法。实验表明该方法相对于传统Kmeans聚类算法有着更高的计算效率。  相似文献   

11.
空间数据挖掘是数据挖掘的一个研究分支。空间聚类分析是空间数据挖掘的一个重要的研究领域。传统的K-均值方法用于聚类具有收敛速度快、算法实现简单等特点,但容易陷入局部最优,并对初始解敏感。遗传算法是一种全局搜索算法,但是收敛速度较慢。提出一种改进的遗传算法进行聚类,该算法通过全局搜索与局部搜索相结合,取得较好效果。实验表明:文中提出的算法在聚类分析中搜索到全局最优解(或近似全局最优解)的能力要优于经典的K-均值聚类算法,且局部收敛速度和全局收敛性能较好。  相似文献   

12.
K-means算法是聚类分析中的一种经典算法,但是K-means算法是一种局部搜索技术,受初始聚类中心的影响可能会过早收敛于最优解.而遗传算法具有良好的全局优化的能力,将遗传算法与K-means算法结合起来,能很好解决这一问题.在结合的过程中,又在最传统的遗传算法中改进染色体编码与适应度函数,从而优化k个中心点的选取,...  相似文献   

13.
改进遗传算法的K-均值聚类算法研究   总被引:2,自引:0,他引:2  
传统的k-均值算法对初始聚类中心的敏感很大,极易陷入局部最优值;利用遗传算法或免疫规划算法解决初始聚类中心是较好的方法,但后期容易出现收敛速度缓慢.为了克服上述缺点,文章将免疫原理的选择操作机制引入遗传算法中,使个体浓度和适应度同时对个体的选择施加影响,以此提出基于改进遗传算法的K-均值聚类算法,该方法利用K-均值算法的高效性和改进遗传算法的全局优化搜索能力,较好地解决了聚类中心优化问题.试验结果表明,本算法能够有效改善聚类质量,并且具有较好的收敛速度.  相似文献   

14.
一种改进的小生境遗传聚类算法   总被引:2,自引:2,他引:0  
传统的遗传算法具有早熟收敛和后期收敛速度慢的缺点,采用改进的小生境技术解决这一问题,同时根据具体问题改进了遗传算子,并将改进后的小生境遗传算法应用于聚类挖掘中。由于聚类挖掘算法中的K—means算法对初始值K的选取敏感,选取值的不同会导致聚类结果的不同,很容易陷入局部最优,使得聚类结果很差。因此,将改进的小生境遗传算法和K-means算法相结合,得出一种改进的小生境遗传聚类算法。验证表明优该算法对提高聚类分析质量是有效的。  相似文献   

15.
对于具有海量信息的个性化推荐问题。K—means聚类算法的传统实现方式已不能快速准确地满足要求。基于目前最为流行的开源云计算平台Hadoop及分布式计算框架MapReduce,实现K—means聚类算法的并行化。给出该算法的具体实现,实验表明能够较好地解决时间瓶颈问题。  相似文献   

16.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号