首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对传统K均值聚类方法采用聚类前随机选择聚类个数K而导致的聚类结果不理想的问题,结合空间中的层次结构,提出一种改进的层次K均值聚类算法。该方法通过初步聚类,判断是否达到理想结果,从而决定是否继续进行更细层次的聚类,如此迭代执行,从而生成一棵层次型K均值聚类树,在该树形结构上可以自动地选择聚类的个数。标准数据集上的实验结果表明,与传统的K均值聚类方法相比,提出的改进的层次聚类方法的确能够取得较优秀的聚类效果。  相似文献   

2.
黄会雄 《计算机应用与软件》2009,26(11):246-248,285
提出一种改进的基于遥感图像的颜色和纹理特征进行聚类的K均值算法。该算法通过统计图像色度直方图的峰值,来获得三组聚类个数和初始聚类中心,并结合色度和基于灰度共生矩阵的纹理特征形成图像聚类特征,然后进行改进的K均值聚类,最后选择silhouette均值最大的一组作为最佳聚类结果。该方法的随机性和聚类误差比传统K均值算法小,实验结果证实了该方法的可行性和有效性。  相似文献   

3.
郑芸芸  王萍  游强华 《福建电脑》2013,(12):103-104,111
由于k-均值经典算法必须在聚类前随机地选择聚类的个数k,则后所得到的聚类结果会受到初始选择的聚类个数的影响。针对这个问题,根据寻找最优初值及免受孤立点影响的思想,提出了一种改进的k-均值聚类算法。实验证明改进的k-均值聚类算法在一定程度上解决了该算法对初始值的依赖,并部分减少了算法受噪声数据影响的可能。  相似文献   

4.
K均值算法是最通用的划分聚类算法,然而它有高度依赖初始值和收敛于局部最小的缺点,K调和均值算法采用数据点与所有聚类中心的距离的调和平均替代了数据点与聚类中心的最小距离,解决了K均值算法对初值敏感的问题。这样虽然解决初始值敏感问题,局部最小收敛问题仍然存在。为了获得全局最优解,提出一种新的算法:基于模拟退火算法的K调和均值聚类。该算法将一种优秀的随机搜索算法——模拟退火算法引入K调和均值聚类,来解决局部最小收敛的问题,并将改进后的算法用于IRIS数据集的聚类分析,聚类结果与K均值算法结果对比,证明了改进算法的优越性。  相似文献   

5.
二分K均值聚类算法在二分聚类过程中的初始质心选取速度方面存在不足。为此,提出以极大距离点作为二分聚类初始质心的思想,提升算法的运行速度。研究如何在群集系统中进行快速聚类,根据二分K均值聚类算法的特性,采用数据并行的思想和均匀划分的策略,对算法进行并行化处理。实验结果表明,改进后的算法能获得比较理想的加速比和较高的使用效率。  相似文献   

6.
K均值算法简单快速,但其结果容易受初始聚类中心影响,并且容易陷入局部极值。该文结合粒子群优化算法和免疫系统中的免疫调节机制与免疫记忆功能对K均值算法进行改进,提出一种基于免疫粒子群优化的聚类算法。实验结果证明,该算法解决了K均值算法存在的对初值敏感的缺点,聚类结果稳定,而且比基于粒子群优化的聚类算法具有更好的聚类效果。  相似文献   

7.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

8.
提出了一种改进的K均值聚类图像分割方法。针对彩色图像的像素特征,利用Ohta等人的研究成果,选取能有效表示彩色像素特征的彩色特征集中的第一个分量作为图像像素的一维特征向量,用来替代经典K均值聚类图像分割中的灰度.大大降低了运算量。基于粗糙集理论的算法,求出初始聚类个数与均值。选用对特征空间结构没有特殊要求的特征距离代替欧氏距离,应用改进的K均值聚类算法对样本数据进行聚类,从而实现对彩色图像的快速自动分割。实验表明,该图像分割算法可有效提高图像分类的精度和准确度,并且运算代价小.收敛速度快。  相似文献   

9.
基于熵聚类的RBF神经网络学习算法   总被引:2,自引:2,他引:0  
RBF神经网络中心向量的确定是整个网络学习的关键,最常用确定中心向量的方法是K均值聚类算法,对聚类中心的初值选择非常敏感,选择的不好,容易减低网络的训练性能.为克服以上问题,提出了一种熵聚类的方法来自动确定RBF神经网络隐结点的中心个数及其初始值,实现K均值聚类算法的初始化,再用改进的K均值聚类算法调整RBF神经网络的中心和训练宽度.并将上述算法用于函数逼近问题.实验结果表明:改进的算法与常规的K均值聚类算法相比,提高了训练速度和逼近精度.  相似文献   

10.
聚类分析是数据挖掘中最重要的技术之一,它在社会经济的各个领域都具有重要作用,并被广泛应用。K均值算法是最经典、应用最广泛的聚类方法之一,但其缺点是过度依赖初始条件和聚类数目难以确定,这制约了其应用范围。引入簇的内聚度和耦合度的定义与度量方法,基于“高内聚低耦合”的原理,在二分K均值聚类过程中对得到的簇进行不断的分裂和合并,并判断聚类结果是否满足要求以确定聚类的次数和簇的个数,从而实现对二分K均值聚类过程的改进。在Iris数据集上的实验测试与分析表明该算法不仅更加稳定,而且其聚类结果的正确率也较高。  相似文献   

11.
确定数据集的最佳聚类数是聚类研究中的一个重要难题。为了更有效地确定数据集的最佳聚类数,该文提出了通过改进K-means算法并结合一个不依赖于具体算法的有效性指标Q(c)对数据集的最佳聚类数进行确定的方法。理论分析和实验结果证明了该方法具有良好的性能和有效性。  相似文献   

12.
目前,大多数聚类方法是二支聚类,即对象要么属于一个类,要么不属于一个类,聚类的结果必须具有清晰的边界。然而,将某些不确定的对象强制分配到某个类中将降低聚类结果的结构和精度。三支聚类是一种重叠聚类,它采用核心域和边界域来表示每个类别,较好地处理了具有不确定性对象的聚类问题。提出了一种使用样本邻域将二支聚类转化为三支聚类的方法。该方法利用二支聚类的结果和每个类中元素的邻域是否完全包含在该类中来对集合进行收缩,同时利用不在该类中的元素的邻域是否与该类有交集来进行扩张。收缩的区域称为核心域,扩张域和核心域的差集称为边界域。在UCI数据集上的实验结果显示,该方法在提高聚类结果的结构和F1值方面有较好的效果。  相似文献   

13.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

14.
针对传统的K-均值算法聚类时所面临的维数灾难、初始聚类中心点难以确定的缺点,提出一种改进的K-均值算法,其核心思想是通过降维、基于密度及散布的初始中心点搜索等方法改进K-均值算法。实验结果证明改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K-均值算法。  相似文献   

15.
文本聚类算法的设计与实现   总被引:1,自引:1,他引:0  
为了有效地提高丈本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类.实验结果表明,该算法的召回率和正确率更高.  相似文献   

16.
Topic model can project documents into a topic space which facilitates effective document clustering. Selecting a good topic model and improving clustering performance are two highly correlated problems for topic based document clustering. In this paper, we propose a three-phase approach to topic based document clustering. In the first phase, we determine the best topic model and present a formal concept about significance degree of topics and some topic selection criteria, through which we can find the best number of the most suitable topics from the original topic model discovered by LDA. Then, we choose the initial clustering centers by using the k-means++ algorithm. In the third phase, we take the obtained initial clustering centers and use the k-means algorithm for document clustering. Three clustering solutions based on the three phase approach are used for document clustering. The related experiments of the three solutions are made for comparing and illustrating the effectiveness and efficiency of our approach.  相似文献   

17.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。  相似文献   

18.
一种基于粗糙集理论的谱聚类算法   总被引:1,自引:1,他引:0  
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显.现有谱聚类算法的聚类结果多为精确集,而真实数据集中重叠现象广泛存在.基于粗糙集理论提出了一种新的谱聚类算法,其主要思想是对谱聚类算法进行粗糙集扩展,使得聚类结果成为具有下近似和上近似定义的、类与类之间存在重叠区域的结构.实验表明,该算法与现有的谱聚类算法相比,稳定性和准确率都有一定的提高.  相似文献   

19.
张刚  周昭涛  王斌 《计算机工程》2006,32(12):80-81,84
介绍了一种基于主题的分布式信息检索方法,并对算法的有效性进行了深入的分析。该文通过文本聚类方法,把文档按照主题的方式来划分,经过实验发现查询答案明显地汇聚在少数的文档集合中。由此表明,基于主题的分布式信息检索方法比传统分布式信息检索方法在检索效果上有了显著的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号