首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
颜宏文  周雅梅  潘楚 《计算机应用》2015,35(5):1302-1305
针对传统K-medoids聚类算法对初始值敏感、中心点随机选择以及聚类精度不够高等缺点,在粒计算有效初始化的基础上,提出中心点宽度优先搜索策略. 首先,利用粒计算初始化获取K个有效粒子,遴选该K个粒子所对应的K个中心点作为K个初始中心点;然后,根据对象间的相似性分别对K个粒子中的对象建立以中心点为根节点的相似对象二叉树,通过宽度优先搜索遍历二叉树迭代出最优中心点, 同时采用簇间距离和簇内距离优化准则函数. 实验结果表明,所提算法在UCI中Iris和Wine标准数据集中测试,在有效缩短迭代次数的同时保证了算法聚类准确率.  相似文献   

2.
最大距离法选取初始簇中心的K-means文本聚类算法的研究   总被引:1,自引:0,他引:1  
由于初始簇中心的随机选择, K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题, 提出了最大距离法选取初始簇中心的K-means文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类, 构造了一种将文本相似度转换为文本距离的方法, 同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中, 对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析, 其结果表明, 与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比, 新提出的文本聚类算法在降低了聚类总耗时的同时, F度量值也有了明显提高。  相似文献   

3.
针对K-means在聚类过程中存在的随机性强、准确率不稳定等问题,提出了一种改进聚类算法,首先选取k个首尾相连且距离乘积最大的数据对象作为初始聚类中心,在簇中心迭代过程中,选取簇内距离和最小的样本作为簇中心,再将其他样本划分至相应簇中,反复迭代,直至收敛。在UCI数据集上的仿真实验结果表明:新算法与K-means算法和其他两种改进算法相比,不仅能够降低运算耗时,在准确率、Jaccard系数、F值等多项聚类指标上也有较大的提升,在实际应用中,使用新算法对现代学徒制的职业能力进行了聚类分析,解决了课程间的序化问题。  相似文献   

4.
协同过滤算法在个性化推荐系统中应用广泛,为保证其在用户规模扩大的同时可以保持推荐的高效性和准确性,设计了一种基于PCA降维和二分K-means聚类的协同过滤推荐算法PK-CF。该算法为解决用户-项目评分矩阵极度稀疏造成的相似度计算误差的问题,采用主成分分析法对用户-项目评分矩阵进行降维,去除含信息量少的维度,只保留最能代表用户特征的维度;为解决协同过滤算法在系统规模庞大情况下的相似度计算时耗问题,通过在降维后的低维向量空间上进行二分K-means聚类来减小目标用户最近邻的搜索范围。在MovieLens数据集上对传统协同过滤算法、基于K-means聚类的协同过滤算法及PK-CF算法进行性能测试的结果表明:PK-CF算法不仅能有效地提高推荐结果的准确率与召回率,而且具有较高的时间效率。  相似文献   

5.
二分K均值聚类算法在二分聚类过程中的初始质心选取速度方面存在不足。为此,提出以极大距离点作为二分聚类初始质心的思想,提升算法的运行速度。研究如何在群集系统中进行快速聚类,根据二分K均值聚类算法的特性,采用数据并行的思想和均匀划分的策略,对算法进行并行化处理。实验结果表明,改进后的算法能获得比较理想的加速比和较高的使用效率。  相似文献   

6.
基于改进K均值聚类的异常检测算法   总被引:1,自引:0,他引:1  
左进  陈泽茂 《计算机科学》2016,43(8):258-261
通过改进传统K-means算法的初始聚类中心随机选取过程,提出了一种基于改进K均值聚类的异常检测算法。在选择初始聚类中心时,首先计算所有数据点的紧密性,排除离群点区域,在数据紧密的地方均匀选择K个初始中心,避免了随机性选择容易导致局部最优的缺陷。通过优化选取过程,使得算法在迭代前更加接近真实的聚类类簇中心,减少了迭代次数,提高了聚类质量和异常检测率。实验表明,改进算法在聚类性能和异常检测方面都明显优于原算法。  相似文献   

7.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。  相似文献   

8.
传统的划分聚类算法必须指定簇的数量且聚类结果受初始条件的影响较大.针对此缺点,提出了一种基于PSO和K-means的混合动态聚类算法--DKPSO,运行过程中能够自动确定聚类簇的最佳数量.此算法在初始时将聚类数据划分为较多数量的簇以减少初始条件的影响,然后使用离散PSO算法不断优化簇的数量并使用K-means算法进一步优化每个粒子代表的聚类中心.为了提高收敛速度,对算法进行了的改进,使每个粒子的惯性权重随迭代次数非线性自适应地调整.最后通过实验对算法的有效性进行了验证,并给出实验结果.  相似文献   

9.
K-means算法因其原理简单和聚类效果尚佳的优点在机器学习和数据挖掘领域得到广泛使用,但其仍存在一些缺点:K-means算法需指定分类类别数K;K-means算法对于初始聚类中心的选取策略是随机选择,这可能会影响到最终聚类结果的准确率及计算速度。以上缺点都限制了K-means算法的计算效率的进一步提升。论文针对以上问题,提出了一种基于Flink并行化的K-means优化算法,该算法在传统K-means算法的基础上引入Canopy算法来完成初始聚类,得到类别数K,然后采用最大距离算法来计算初始聚类中心,并利用Flink框架的并行计算能力,对多个数据集进行聚类实验。实验结果表明,论文算法可以减少聚类过程迭代次数,并且在聚类准确率方面也有一定的提高,在大规模数据集环境下同样具有良好的计算效率。  相似文献   

10.
针对传统K-means算法对初始聚类中心敏感的问题,提出了基于数据样本分布情况的动态选取初始聚类中心的改进K-means算法。该算法根据数据点的距离构造最小生成树,并对最小生成树进行剪枝得到K个初始数据集合,得到初始的聚类中心。由此得到的初始聚类中心非常地接近迭代聚类算法收敛的聚类中心。理论分析与实验表明,改进的K-means算法能改善算法的聚类性能,减少聚类的迭代次数,提高效率,并能得到稳定的聚类结果,取得较高的分类准确率。  相似文献   

11.
针对二分K-均值算法由于随机选取初始中心及人为定义聚类数而造成的聚类结果不稳定问题,提出了基于密度和中心指标的Canopy二分K-均值算法SDCBisecting K-Means。首先计算样本中数据密度及其邻域半径;然后选出密度最小的数据并结合Canopy算法的思想进行聚类,将得到的簇的个数及其中心作为二分K-均值算法的输入参数;最后在二分K-均值算法的基础上引入指数函数和中心指标对原始样本进行聚类。利用UCI数据集和自建数据集进行模拟实验对比,结果表明SDCBisecting K-Means不仅使得聚类结果更精确,同时算法的运行速度更快、稳定性更好。  相似文献   

12.
针对目前协同过滤推荐算法的推荐质量和推荐效率低的问题,提出了一种基于改进蜂群K-means聚类模型的协同过滤推荐算法。首先,根据用户属性信息,采用改进蜂群K-means算法对用户进行聚类,建立用户聚类模型;然后,计算目标用户与用户聚类模型中各聚类中心的距离,其中距离最近的类为目标用户的检索空间;最后,从检索空间中依据用户-项目评分矩阵通过相似度计算搜索目标用户的最近邻居,由最近邻居的信息产生推荐列表。实验结果表明,该算法降低了平均绝对误差值,缩短了运行时间,提高了推荐质量和推荐效率。  相似文献   

13.
14.
基于初始中心优化的遗传K-means聚类新算法   总被引:2,自引:2,他引:0  
一个好的K-means聚类算法至少要满足两个要求:(1)能反映聚类的有效性,即所分类别数要与实际问题相符;(2)具有处理噪声数据的能力。传统的K-means算法是一种局部搜索算法,存在着对初始化敏感和容易陷入局部极值的缺点。针对此缺点,提出了一种优化初始中心的K-means算法,该算法选择相距最远的处于高密度区域的k个数据对象作为初始聚类中心。实验表明该算法不仅具有对初始数据的弱依赖性,而且具有收敛快,聚类质量高的特点。为体现聚类的有效性,获得更高精度的聚类结果,提出了将优化的K-means算法(PKM)和遗传算法相结合的混合算法(PGKM),该算法在提高紧凑度(类内距)和分离度(类间距)的同时自动搜索最佳聚类数k,对k个初始中心优化后再聚类,不断地循环迭代,得到满足终止条件的最优聚类。实验证明该算法具有更好的聚类质量和综合性能。  相似文献   

15.
针对传统K均值聚类方法采用聚类前随机选择聚类个数K而导致的聚类结果不理想的问题,结合空间中的层次结构,提出一种改进的层次K均值聚类算法。该方法通过初步聚类,判断是否达到理想结果,从而决定是否继续进行更细层次的聚类,如此迭代执行,从而生成一棵层次型K均值聚类树,在该树形结构上可以自动地选择聚类的个数。标准数据集上的实验结果表明,与传统的K均值聚类方法相比,提出的改进的层次聚类方法的确能够取得较优秀的聚类效果。  相似文献   

16.
为了解决用户在室内定位中,依靠WiFi指纹定位存在精度不高、误差偏大的问题,提出一种基于改进二分K-means聚类算法的室内定位方法。通过层次聚类的思想对二分K-means聚类算法(BKM)进行改进,解决了BKM聚类算法需要提前确定聚类中心、导致指纹定位中聚类结果受初始聚类个数影响的缺陷,并结合变色龙算法(Chameleon),将部分划分过细的簇合并,优化定位指纹库的可靠性。仿真实验结果表明所提出的方法有效降低了计算复杂度,提高了定位精度。此外,该方法与目前常用的BKM聚类算法相比,具有更好的聚类效果和定位精度。  相似文献   

17.
针对高维数据在聚类过程中存在迭代次数多、运算耗时长等问题,提出一种改进的聚类算法,首先采用谱聚类对样本降维,再选取k个首尾相连且距离乘积最大的数据对象作为初始聚类中心,在簇中心更新过程中,选取与簇均值距离最近的数据对象作为簇中心,并将其他数据对象按最小距离划分至相应簇中,反复迭代,直至收敛。实验结果表明,新算法的Rand指数、Jaccard系数和Adjusted Rand Index等聚类指标全部优于K-means算法及其他3种改进聚类算法,在运行效率方面,新算法的聚类耗时更短、迭代次数更少。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号