共查询到20条相似文献,搜索用时 15 毫秒
1.
一种基于粗糙集的K-Means聚类算法 总被引:5,自引:0,他引:5
冯征 《计算机工程与应用》2006,42(20):141-142,146
在传统的硬聚类过程中,得到的簇中数据对象是确定的,然而在现实世界,边界数据是不能被准确划分到任何一个簇的。粗糙集是处理这种边界不确定性的工具,基于此提出了一种基于粗糙集的K-Means聚类算法,这种算法生成的簇包括上近似集和下近似集,可以处理边界对象。试验证明,这种算法是有效的。 相似文献
2.
一种更有效的K-means聚类算法 总被引:1,自引:0,他引:1
一个好的聚类算法不仅要考虑“同类内尽可能的相似,不同类间尽可能的相异”,而且也要考虑算法的时间复杂度。针对K-means算法依赖于初始聚类中心而影响聚类结果,提出了一种基于样本分布选取初始聚类中心的方法;针对K-means算法中每次调整聚类中心后指定聚类所需要的大量的距离计算,提出了三角不等式原理避免冗余计算的方法。将两种方法结合进行实验,结果表明新的方法更加有效,不仅较原算法有良好的聚类划分,而且加快了原算法的运行速度。 相似文献
3.
Neural Processing Letters - Recently, more and more multi-source data are widely used in many real world applications. This kind of data is high dimensional and comes from different resources,... 相似文献
4.
Luo Ping Xiong Hui Zhan Guoxing Wu Junjie Shi Zhongzhi 《Knowledge and Data Engineering, IEEE Transactions on》2009,21(9):1249-1262
This paper studies the generalization and normalization issues of information-theoretic distance measures for clustering validation. Along this line, we first introduce a uniform representation of distance measures, defined as quasi-distance, which is induced based on a general form of conditional entropy. The quasi-distance possesses three properties: symmetry, the triangle law, and the minimum reachable. These properties ensure that the quasi-distance naturally lends itself as the external measure for clustering validation. In addition, we observe that the ranges of the distance measures are different when they apply for clustering validation on different data sets. Therefore, when comparing the performances of clustering algorithms on different data sets, distance normalization is required to equalize ranges of the distance measures. A critical challenge for distance normalization is to obtain the ranges of a distance measure when a data set is provided. To that end, we theoretically analyze the computation of the maximum value of a distance measure for a data set. Finally, we compare the performances of the partition clustering algorithm K-means on various real-world data sets. The experiments show that the normalized distance measures have better performance than the original distance measures when comparing clusterings of different data sets. Also, the normalized Shannon distance has the best performance among four distance measures under study. 相似文献
5.
K-均值(K-Means)算法是聚类分析中一种基于划分的算法,同时也是无监督学习算法。其具有思想简单、效果好和容易实现的优点,广泛应用于机器学习等领域。但是K-Means算法也有一定的局限性,比如:算法中聚类数目K值难以确定,初始聚类中心如何选取,离群点的检测与去除,距离和相似性度量等。从多个方面对K-Means算法的改进措施进行概括,并和传统K-Means算法进行比较,分析了改进算法的优缺点,指出了其中存在的问题。对K-Means算法的发展方向和趋势进行了展望。 相似文献
6.
李玉鑑 《计算机研究与发展》2007,44(Z2):100-104
为了提高传统K-均值聚类的稳定性和可靠性,提出了一种自适应的K-均值聚类算法,其基本思想是通过分析样本集的最小树并切割其中所有超过一定阈值的较长边,根据样本集的结构特征事先自动地计算出合理的聚类个数和合理的初始聚类中心.理论分析和计算实验表明,该算法不仅能够保证聚类结果的惟一性,而且在样本集的各个聚类具有大致凸的形状时,如果类间距离明显大于类内距离,不需要人工选择参数就能直接获得较好的聚类结果.对于同样的数据集而言,即使选择了正确的聚类个数,传统的K-均值算法也可能给出不合理的聚类结果,因此自适应的K-均值聚类算法具有更好的性能. 相似文献
7.
Experience with a Hybrid Processor: K-Means Clustering 总被引:2,自引:0,他引:2
Maya Gokhale Jan Frigo Kevin Mccabe James Theiler Christophe Wolinski Dominique Lavenier 《The Journal of supercomputing》2003,26(2):131-148
We discuss hardware/software co-processing on a hybrid processor for a compute- and data-intensive multispectral imaging algorithm, k-means clustering. The experiments are performed on two models of the Altera Excalibur board, the first using the soft IP core 32-bit NIOS 1.1 RISC processor, and the second with the hard IP core ARM processor. In our experiments, we compare performance of the sequential k-means algorithm with three different accelerated versions. We consider granularity and synchronization issues when mapping an algorithm to a hybrid processor. Our results show that speedup of 11.8X is achieved by migrating computation to the Excalibur ARM hardware/software as compared to software only on a Gigahertz Pentium III. Speedup on the Excalibur NIOS is limited by the communication cost of transferring data from external memory through the processor to the customized circuits. This limitation is overcome on the Excalibur ARM, in which dual-port memories, accessible to both the processor and configurable logic, have the biggest performance impact of all the techniques studied. 相似文献
8.
针对典型K-Means算法随机选取初始中心点导致的算法迭代次数过多的问题,采取数据分段方法,将数据点根据距离分成k段,在每段内选取一个中心作为初始中心点,进行迭代运算;为寻找最优的聚类数目k,定义了新的聚类有效性函数-聚类指数,包含聚类紧密度和聚类显著度两个指标,通过最优化聚类指数,在[1, n ]内寻找最优的k值。在IRIS数据集进行的仿真实验结果表明,算法的迭代次数明显减少,寻找的最优k值接近数据集的真实情况,算法有效性得到了验证。 相似文献
9.
Without formalizing the team creativity (TC) concept with reliable and valid measurement, it is difficult to conduct rigorous research to help teams generate creative ideas and problem solving at a high level, of good quality and great value. The one‐sidedness and lack of depth of existing research on team creativity leads to the limited reliability and validity of team creativity measurements. In order to solve these problems, we introduce the complex system theory and develop the TC Scale with nine items for team creativity from three dimensions: team creative thinking, team creative action and team creative outcome. The data is collected from three distinct positions of respondents (managers, team leaders and senior staff) in 183 creative teams. The results of reliability measures, exploratory factor analysis and confirmatory factor analysis strongly support our scale. Further, we test the correlation between team trust and team creativity to establish its predictive validity and make a further verification on the scale structure through second‐order confirmatory factor analysis. Finally, we discuss the implications for research and practice. 相似文献
10.
基于K-means的文本聚类算法① 总被引:4,自引:0,他引:4
针对K—means算法容易收敛到局部最优以及对初值的依赖性,基于多次采样一次预聚类搜索初始聚类中心的思想,提出了一种改进的K—means文本聚类方法。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性。 相似文献
11.
一种进行K-Means聚类的有效方法 总被引:1,自引:0,他引:1
现有的K-Means聚类算法均直接作用于多维数据集上,因此,当数据集基数和聚类属性个数较大时,这些聚类算法的效率极其低下。为此,文中提出一种基于正规格结构的有效聚类方法(KMCRG)。KMCRG算法以单元格为处理对象来有效完成K-Means聚类工作。特别,该算法使用格加权迭代的策略来有效返回最终的K个类。实验结果表明,KMCRG算法在不损失聚类精度的基础上能够快速返回聚类结果。 相似文献
12.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。 相似文献
13.
传统的K-means算法虽然具有很多优点,但聚类准则函数对簇密度不均的数据集分类效果较差.文中在加权标准差准则函数的基础之上,增加了收敛性判定,并在Hadoop平台上提出了一种基于MapReduce编程思想设计与优化的K-means并行算法.与传统的K-means算法相比,设计的并行算法在聚类结果的准确性、加速比、扩展性、收敛性等方面都有显著的提高,降低了因簇密度不均引起误分的概率,提高了算法的聚类精度,并且数据规模越大、节点越多,优化的效果就越明显. 相似文献
14.
基于遗传算法的K均值聚类分析 总被引:11,自引:0,他引:11
1 前言聚类分析就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同的簇中的对象差别较大。聚类分析目前应用广泛,已经成为数据挖掘主要的研究领域。通过聚类,人们能够识别密集的和稀疏的区域,从而发现数据的整体分布模式,还能找到数据间的有趣的相互关系。关于聚类分析目前已经有K均值,CURE等很多算法, 相似文献
15.
运用结合PSO(粒子群优化)算法的模糊均值聚类法进行客户聚类分析是CRM中一个新的研究方向。本文提出将M个客户记录指定字段中出现频率最大的N个字段值作为客户的特征属性,由M个客户的特征属性构成客户模糊聚类的模式样品集,并在均值聚类算法中结合PSO算法,对总的类内离散度和进行优化,使其达到最小值,从而获取最佳客户聚类。实验表明,采用本算法能够得到满意的客户聚类结果。 相似文献
16.
一种改进的半监督K-Means聚类算法 总被引:1,自引:0,他引:1
半监督聚类利用部分标签的数据辅助未标签的数据进行学习,从而提高聚类的性能。针对基于K-means的聚类算法发现非球状簇能力差的问题,本文提出新的处理思想,即把已标签数据对未标签数据的引力影响加入到类别分配决策中,给出了类与点的引力影响度定义,设计了带引力参数的半监督K-means聚类算法。实验表明,该算法在处理非球状簇分布的聚类时比现有的半监督K-means方法效果更好。 相似文献
17.
针对传统的K-均值算法对初始聚类中心的选取和孤立点敏感的问题,本文提出了一种基于点密度的初始聚类中心选取方法。利用该方法选出初始聚类中心,再应用K-均值算法进行聚类,同时对孤立点进行特殊处理。实验表明,该方法能够产生高质量的聚类结果。 相似文献
18.
为了改善K均值聚类算法对初始聚类中心敏感和易于陷入局部最优的不足,提出人工蜂群算法和K均值聚类算法相结合的想法,即基于人工蜂群优化的K均值聚类算法。通过全局寻优能力强的人工蜂群算法初始化K均值的聚类中心并优化聚类中心的位置,从而帮助K均值跳出局部极值,优化聚类效果。将混合聚类算法用Iris、Red Wine和New Red Wine数据集做聚类测试,结果表明该算法既克服了原始K均值聚类算法容易受初始聚类中心影响和不稳定的缺点,又具有良好的性能和聚类效果。 相似文献
19.
初始中心优化的K—Means聚类算法 总被引:22,自引:1,他引:22
1.引言聚类分析(clustering)是人工智能研究的重要领域。聚类方法被广泛研究并应用于机器学习、统计分析、模式识别以及数据库数据挖掘与知识发现等不同的领域。各种聚类方法中,基于目标函数的K-Means聚类方法应用极为广泛,根据聚类结果的表达方式又可分为硬K-Means(HCM)算法、模糊K-Means算法(FCM)和概率K-Means算法(PCM)。各种K-Means算法都以确定的目标函数来测度聚类的效果,最佳的聚类效果对应于目标函数的极值点。由于目标函数局部极小值点的存在以及算法的贪心性,导致聚类结果对初始中心敏感,往往达不到全局最优。 相似文献