首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means 聚类改进算法,并利用MapReduce编程模型实现了改进算法的并行化。通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:(1)聚类的平均准确率在实验所采用的4种UCI标准数据集上,相比原始K-means聚类算法和基于粒子群优化算法改进的K-means聚类算法都有所提高;(2) 聚类的平均运行效率在实验所采用的5种大小递增的随机数据集上,当数据量较大时,显著优于原始K-means串行算法,稍好于粒子群优化算法改进的并行K-means聚类算法。可以得出结论,在大数据情景下,应用该算法的聚类效果较好。  相似文献   

2.
三维激光扫描点云为文物模型重建提供了新的数据支持,但扫描所得海量点云包含大量冗余数据,给建模带来很大不便。针对扫描点云过密、冗余数据较多的问题,提出了一种基于自适应分层的文物点云数据压缩算法,算法的基本思想是:首先通过基于倒角距离变换的自适应分层方法对原始点云进行自适应分层;然后使用弦高差值作为特征点的判别依据来删除冗余数据,采用改进的弦高差法对每层点云进行压缩,保留对模型特征贡献较大的特征点。实验结果表明通过形状误差控制分层厚度,能在平缓部位减少层数提高效率的同时不至于复杂部位因分层过厚而损失重要特征,改进的弦高差法在保留大曲率特征的同时不至于平缓部位出现孔洞,从而保证了模型重建的精度。  相似文献   

3.
贾磊  丁冠华 《福建电脑》2006,(11):47-47,56
从数据挖掘的基本概念入手,逐步深入分析本质,并且对k-means进行探讨,对其中的聚类中心的方法进行了改进。  相似文献   

4.
针对人工蜂群算法在求解函数优化问题中存在收敛精度不高、收敛速度较慢的问题,提出了一种改进的增强寻优能力的自适应人工蜂群算法。该算法利用逻辑自映射函数产生混沌序列对雇佣蜂搜索行为进行混沌优化,并引入萤火虫算法中的自适应步长策略动态调整观察蜂的搜索行为,从而提升了算法的局部搜索能力。基于标准测试函数的仿真结果表明,改进后的人工蜂群算法在寻优精度和收敛速度上均有明显提高。  相似文献   

5.
否定选择算法(NSA)是免疫检测器生成的重要算法,传统否定选择算法在亲和力计算过程中未考虑不同种类抗原关键特征与冗余特征之间的差异性,存在算法检测性能较低的问题。对此,提出了一种基于抗原软子空间聚类的否定选择算法(ASSC-NSA)。该算法首先利用抗原软子空间聚类计算出不同种类抗原的各个关键特征及其权值,随后通过这些关键特征引导检测器生成以有效地减少冗余特征的影响,从而提高算法检测性能。实验结果表明,在BCW与KDDCup数据集上,相对于经典的否定选择算法,ASSC-NSA能在误报率无明显变化的情况下显著地提高检测率。  相似文献   

6.
K-means算法以其简单性和快速性在文本聚类中得到广泛应用,但是传统的K-means算法对初值的依赖性很强,需要事先给出要生成的簇的数目k,而这个参数k的确定一般是根据用户的经验知识给出的;另外,其初始聚类中心是随机选取的,这种随机性往往导致聚类结果的不德定.可以说,不同的k值和不同的初始聚类中心对聚类质量和时间效率...  相似文献   

7.
为了克服经典K-means算法对初始聚类中心过分依赖的缺点,该文提出采用竞争神经网络和密度思想对经典k-means算法进行预处理,从而改变经典K-means算法对初始聚类中心的随机选择。实验结果表明,这两种方法是有效的。  相似文献   

8.
针对布谷鸟搜索(CS)算法后期收敛速度慢,传统K-均值算法对初始簇中心选择比较敏感,提出了一种自适应调整的布谷鸟搜索及优化初始K-均值聚类算法(CSSA-OIKM)。首先,由“集群度”与距离均衡优化选择初始簇中心。其次,融合粒子群算法思想,遵循自适应优化学习策略以均衡CS算法全局与局部精细搜索能力。最后,在改进CS算法的基础上引入自适应度调节步长因子与动态变化发现概率,增强算法收敛性能。通过对经典数据集的仿真实验分析,相比K-均值算法、PSO-K-均值算法及CS-K-均值算法来说,提出的CSSA-OIKM算法能有效提高聚类精确性,且算法稳定性好。  相似文献   

9.
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新的在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度的减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,本文算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。  相似文献   

10.
基于动态权重的Adaboost算法研究 *   总被引:1,自引:0,他引:1  
针对Adaboost算法只能静态分配基分类器权重,不能自适应地对每个测试样本动态调整权重的问题,提出了一种基于动态权重的Adaboost算法。算法通过对训练样本集合进行聚类,并分析每个基分类器和每个类簇的适应性,进而为每个基分类器在不同类簇上设置不同权重,最终根据测试样本与类簇之间的相似性来计算基分类器在测试样本上的权重。在UCI数据集上的实验结果表明本文提出算法有效利用了测试样本之间的差异性,得到了比Adaboost算法更好的效果。  相似文献   

11.
为了解决K-means算法在聚类数量增多的情况下,因选择了不合适的中心初值而影响到聚类效果这一问题,提出了一种局部迭代的快速K-means聚类算法(PIFKM+?)。该算法在K-means聚类的基础上,不断寻找能够被分割的聚类簇和能够被删除的聚类簇,并对受影响的局部数据进行重新聚类处理,降低了整个聚类更新的时间复杂度,提高了聚类的效果。PIFKM+?算法在面对聚类数量众多的情况下,具有能够快速更新聚类、对聚类中心初值不敏感、能够提高聚类精确度等优势。通过与K-means和K-means++两种算法的比较,在仿真数据集和真实数据集的综合实验下,验证了该算法的精确性、高效率性和可扩展性,同时实验结果的统计分析表明该算法在提高了聚类精确度的同时并没有损失太多的时间效率。  相似文献   

12.
用K-means算法量化彩色图象能够取得很好的视觉效果,但由于初始聚类中心选取的任意性,导致迭代次数过多,运行时间过长.本文提出的色彩量化算法在吸取K-means算法的迭代思想的基础上,借鉴统计学原理,选取出现频率最高且在色彩空间相互之间距离大于某一阈值的一组颜色作为初始聚类中心.这样既保留了输入图象的主颜色,又尽可能多地表达更加丰富的颜色.实验表明在有效保证量化后图象的质量的同时,该算法能使运行效率得到明显地改进.  相似文献   

13.
一个用于空间聚类分析的遗传K-均值算法   总被引:13,自引:0,他引:13  
空间数据挖掘是数据挖掘的一个新的分支,空间聚类分析是空间数据挖掘中的一个重要研究课题。本文在分析遗传算法及K-均值算法的优越性和不足的基础上,设计了一种遗传K-均值空间聚类分析算法,该算法兼顾了局部收敛和全局收敛性能。实验表明,其结果优于传统K-均值聚类方法及单纯的遗传算法聚类。  相似文献   

14.
首先论述高校智能化宿舍管理系统的重要性,其次对K-means算法进行研究,并将该算法应用在高校宿舍智能分配上。最后通过问卷调查的方式收集学生个体的数据并进行预处理和归一化,利用K-means算法对学生个体数据进行聚类,讨论算法在数据集维度、情绪稳定、ID号三维空间的有效性以及相关性,并将结果用于高校宿舍系统分配的参考依据。  相似文献   

15.
根据话题检测任务的定义和特点,本文分析了传统的增量聚类算法和K-means算法的优缺点,提出了基于话题检测的自适应增量K-means算法,设计了话题检测实验,实验结果证明了该算法提高了话题检测性能,具有良好的应用前景。  相似文献   

16.
聚类分析的应用很广泛,传统的K-means算法要求事先给定k值,限制了很多实际的应用,由于聚类的质量主要考察类内的紧凑性和类间的距离,提出了均衡化的评价函数,使用最近邻搜索算法减少算法的计算量,不仅自动生成聚类的数目,同时均衡了类内差异和类间差异对于聚类结果的影响,实验结果证明改进的K-means算法的有效性。  相似文献   

17.
粗糙集理论是一种处理边界对象不确定的有效方法。将粗糙集与K均值结合的粗糙K均值聚类算法,具有简单高效且可处理聚类边界元素的特点,但同时存在缺陷。针对粗糙K均值聚类算法对初始点敏感,经验权重设置忽略数据差异性,阈值设置不合理导致聚类结果波动性大的缺陷,本文提出结合蚁群算法的改进粗糙K均值聚类算法,改进的算法中使用蚁群算法中随机概率选择策略和信息素更新的正负反馈机制,以及采用动态调整算法阈值和相关权重的方法,对粗糙K均值聚类算法进行优化。最后采用UCI的Iris、Balance-scale和Wine数据集分别对算法进行实验。实验结果表明,改进后的粗糙K均值聚类算法得到的聚类结果准确率更高。  相似文献   

18.
聚类是数据挖掘中的一种重要数据分析方法,K-means是一种基于划分的聚类算法。针对K-means算法中每次调整簇中心后确定新的簇中心需要大量的距离计算,提出一种利用簇中心的变化信息来确定新簇中心的方法,通过从动态簇中心集中选取候选集的方法减少了过滤算法的计算复杂度。理论分析表明,此算法在每一个迭代阶段能有效的减少距离计算数和计算时间。当数据集越大,维度越高时,算法的优越性越显著。  相似文献   

19.
为克服K均值聚类算法大幅图像分割时运算代价太大、耗时长等问题,论文在K均值聚类算法的基础上,结合块矩阵、查找表技术提出了一种快速彩色图像分割方法.对大量彩色图像的分割实验表明,新算法比传统的K均值聚类算法快了一个数量级,并且该算法产生了较好的分割结果.  相似文献   

20.
基于不确定数据进行数据挖掘和知识发现的研究由于更加符合客观实际而逐渐成为近年来研究的热点.而在K-means算法聚类的过程中,样本空间各维度对聚类效果贡献的价值不同也成为现实应用中不可回避的问题.为了得到更加客观、真实的聚类结果,在经典K-means算法的基础上引入了属性的权值并重新构造了针对不确定数据集的聚类算法,并通过实验证明了该算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号