首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
潘大胜 《计算机仿真》2010,27(8):165-167,207
在优化文本文件问题的研究中,为了提高文本聚类的准确率,得到更高质量的聚类结果,在深入研究K-means算法的基础上,提出了一种改进的K-means聚类算法,并将算法应用于文本聚类仿真系统中。该算法可以自动计算聚类结果中簇的个数,消除了孤立点对聚类结果的影响,为建立文本聚类系统提供了先决条件。在文本聚类仿真实验中,对数据集进行了多次测试,测试结果表明基于改进K-means算法的文本聚类系统具有更好的聚类特性,取得了良好的应用效果。  相似文献   

2.
针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means 聚类改进算法,并利用MapReduce编程模型实现了改进算法的并行化。通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:(1)聚类的平均准确率在实验所采用的4种UCI标准数据集上,相比原始K-means聚类算法和基于粒子群优化算法改进的K-means聚类算法都有所提高;(2) 聚类的平均运行效率在实验所采用的5种大小递增的随机数据集上,当数据量较大时,显著优于原始K-means串行算法,稍好于粒子群优化算法改进的并行K-means聚类算法。可以得出结论,在大数据情景下,应用该算法的聚类效果较好。  相似文献   

3.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。  相似文献   

4.
在图像分类中,视觉词典的质量直接影响着图像分类的结果,随着用户的要求提高,K-means聚类算法所构建的视觉词典已无法满足用户对图像分类的需求,为了得到高效的视觉词汇码本,针对构建视觉词典的算法进行研究,通过K-means算法和层次聚类算法的结合来达到这一目的。混合聚类算法采用K-means算法对数据样本进行初步聚类,得到一个粗略的划分;引入信息熵的属性加权,利用信息熵度量某个属性的关键性,信息熵越大的属性对聚类结果的影响越小,计算加权后的类间欧式距离,将距离相近的两个类进行合并;在空间金字塔模型框架中,将改进的混合聚类方法应用到视觉词典的构建中。实验结果表明,结合信息熵的层次聚类算法能有效提高空间金字塔模型的分类准确率。  相似文献   

5.
《微型机与应用》2014,(14):78-81
针对私人微博内容进行聚类研究,结合私人微博的内容和结构特点提出了基于K-means的改进聚类算法。通过添加引用和评论内容丰富了文本内容,降低了短文本矩阵向量严重稀疏性带来的聚类算法准确性降低的影响;通过甄别"微话题"内容和改进相似度的计算,找到初始化类别并进行初步计算得到合适的类别数目和初始中心点,解决了K-means算法中聚类数目K需人工指定和初始中心点选取随机性的问题。实验结果表明,改进后的算法不仅可以自适应地得到K值,较普通的K-means算法在聚类的准确率上有所提高。  相似文献   

6.
分析了K-means聚类算法在图像检索中的缺点,提出了一种改进的K-means聚类算法的图像检索方法。它首先计算图像特征库里面的所有颜色直方图特征之间的欧氏距离;然后根据“两个对象距离越近,相似度越大”[1]这一原理,找到符合条件的特征向量作为K-means聚类的初始类心进行聚类;最后进行图像检索。实验结果表明,本算法具有较高的检索准确率。  相似文献   

7.
综合颜色和形状特征聚类的图像检索   总被引:1,自引:0,他引:1  
张永库  李云峰  孙劲光 《计算机应用》2014,34(12):3549-3553
为了提高图像检索的速度和准确率,通过分析各种聚类算法在图像检索中的缺点,提出了一种新的划分聚类的图像检索方法。首先对HSV模型非均匀量化,利用改进的颜色聚合向量方法提取图像的颜色特征;然后基于改进的Hu不变矩提取图像的全局形状特征;最后,综合颜色和形状特征对图像基于贡献度聚类并建立特征索引库。利用上述方法在Corel图像库中进行图像检索。实验结果表明,与改进的K-means算法的图像检索算法相比,提出算法的查准率和查全率均有较大提高。  相似文献   

8.
提出一种基于K-means算法和相关反馈信息的图像检索方法。首先运用环形分块策略对图像进行划分,运用分块加权方法进行图像相似性比较,突出了图像中心的主体地位。对图像样本数据运用K-means方法进行聚类,采用差分进化算法确定初始聚类中心,减少聚类结果对初始聚类中心的依赖性和聚类结果不稳定等问题。在图像检索过程中,根据检索结果进行相关信息反馈,必要时对样本数据重新进行聚类操作,以提高图像检索的准确率和查全性,满足用户需求。  相似文献   

9.
K-means算法因其原理简单和聚类效果尚佳的优点在机器学习和数据挖掘领域得到广泛使用,但其仍存在一些缺点:K-means算法需指定分类类别数K;K-means算法对于初始聚类中心的选取策略是随机选择,这可能会影响到最终聚类结果的准确率及计算速度。以上缺点都限制了K-means算法的计算效率的进一步提升。论文针对以上问题,提出了一种基于Flink并行化的K-means优化算法,该算法在传统K-means算法的基础上引入Canopy算法来完成初始聚类,得到类别数K,然后采用最大距离算法来计算初始聚类中心,并利用Flink框架的并行计算能力,对多个数据集进行聚类实验。实验结果表明,论文算法可以减少聚类过程迭代次数,并且在聚类准确率方面也有一定的提高,在大规模数据集环境下同样具有良好的计算效率。  相似文献   

10.
针对原始K-means聚类算法受初始聚类中心影响过大以及容易陷入局部最优的不足,提出一种基于改进布谷鸟搜索(CS)的K-means聚类算法(ACS-K-means)。其中,自适应CS(ACS)算法在标准CS算法的基础上引入步长自适应调整,以提高搜索精度和收敛速度。在UCI标准数据集上,ACS-K-means算法可得到比K-means、基于遗传算法的K-means(GA-K-means)、基于布谷鸟搜索的K-means(CS-K-means)和基于粒子群优化的K-means(PSO-K-means)算法更优的聚类质量和更高的收敛速度。将ACS-K-means聚类算法应用到南宁市青秀区“城管通”系统的城管案件热图的开发中,在地图上对案件地理坐标进行聚类并显示,应用结果表明,聚类效果良好,算法收敛速度快。  相似文献   

11.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。  相似文献   

12.
针对大量瑞氏染色细胞图像, 通过YCbCr颜色空间进行K-means聚类, 观察各分量聚类中心差值变化规律, 提出了一种新的确定K-means聚类数的颜色校正算法。该算法首先是将瑞氏染色细胞图像中不同目标分别准确地聚集在相应类当中, 再与标准图像中的每类进行配比, 并利用直方图规定化进行直方图调整, 得到颜色校正结果。经大量实验证明, 尤其在细胞图像中目标颜色特征较接近的情况下, 该算法通过确定合适的聚类数可大大提高颜色校正结果的准确率。  相似文献   

13.
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。  相似文献   

14.
一种K-means聚类算法的改进与应用   总被引:1,自引:0,他引:1  
K-means算法是基于距离作为相似性度量的聚类算法,传统的K-means算法存在难以确定中心值个数、受噪声及孤立点影响较大的缺点。对此,利用类间相异度与类内相异度改进初始值K,以尽量减少人工干预;同时计算数据库中每一点与剩余点的距离和距离均和,将两者的大小比较作为识别孤立点和噪声点的依据,从而删除孤立点,减少对数据聚类划分的影响。最后将改进后的Kmeans算法应用于入侵检测系统并进行仿真实验,结果表明,基于改进的K-means算法的入侵检测系统一定程度上降低了误报率及误检率,提高了检测的准确率。  相似文献   

15.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

16.
针对光电式阅卷机价格昂贵,使用成本高,设备利用率低的缺点,提出一种基于Hough变换的答题卡识别方法。运用数字图像处理的手段,对答题卡图像进行灰度拉伸、图像滤波、图像二值化等预处理;依据Hough变换的直线建立选项网;根据填涂区域的几何属性进行识别判断。测试结果表明,该算法对于答题卡的识别具有高效率、高准确率、使用方便、成本低廉的特点,具有一定的应用价值。  相似文献   

17.
针对网络流量分类识别系统尤其是实时识别系统对实现复杂度和分类准确率的要求,提出一种复杂度和准确率的折中方案。通过基于密度的思想对K-means算法随机选取初始聚类中心这一关键缺陷进行改进,以及引入聚类有效性判别准则函数确定最终聚类个数实现对算法的全面优化,进而提出基于改进K-means算法的网络流量分类方法,在兼顾K-means算法简单易实现、分类快速特点的同时,提高了分类的准确率。在公开的权威网络流量数据集上的实验表明,与普通K-means方法相比,该方法在网络流量分类方面具有更高的分类准确率和更好的稳定性。  相似文献   

18.
针对K-means聚类算法依赖于初始值并易陷入局部最优值的问题,提出了一种基于改进花朵授粉的K-means聚类算法。该算法首先通过混沌映射的序列作为花朵种群的初值位置,保证花朵种群在搜索空间的多样性、确定性;然后在花朵授粉的后期搜索阶段引入禁忌搜索算法以避免陷入局部最优解;最后将改进后的FPA算法用于优化K-means算法的初值。在五个聚类数据集上的实验结果表明,改进后算法的平均聚类准确率相比于花朵授粉聚类算法提高了12.2%,证明了该算法对于低维数据集具有更好的聚类效果。  相似文献   

19.
针对K-means算法的聚类结果极易受到聚类中心的影响而陷入局部最优解的问题,提出一种基于改进引力搜索的K-means聚类算法。首先引入自适应概念,对引力系数衰减因子进行控制,提高算法的全局探索能力和局部开发能力;然后,引入免疫克隆选择机制,以便算法能够有效跳出局部最优,并通过对12个基准测试函数的实验验证改进引力搜索算法的有效性和优越性;最后,通过结合改进的引力搜索算法和K-means算法,提出一种新的聚类算法A2F-GSA-Kmeans,并在6个测试数据集上的实验表明,该算法具有较好的聚类质量。  相似文献   

20.
入侵检测系统是当前网络与信息安全防护体系的重要组成部分,该文通过对数据挖掘技术在入侵检测系统中的应用进行归纳,提出了一种基于聚类与序列异常技术相结合的入侵检测算法。首先对入侵检测所用到的数据流进行标准化预处理;其次对初始化后的数据用改进的K-means算法进行聚类;最后应用序列异常技术对聚类结果的每个簇进行标记。研究表明,这种将聚类与序列异常技术相结合的算法可以有效地提高系统性能和检测的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号