首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
依据信息论的思想,对基于层次的K-均值聚类算法(HKMA)过程进行了分析,该算法首先采用层次方法对文档进行初始聚类,得到的聚类总数作为k均值算法中的k值,在此基础上,通过k均值聚类对聚类结果进行修正。实验结果表明,HKMA执行时间整体上优于k-means算法,而且随着数据量的增大执行时间的增长幅度也较小。  相似文献   

2.
针对软子空间聚类过程中簇间距离(簇间的分离程度)对聚类的影响程度不确定的问题,提出了一种基于簇内紧密度和簇间距离自适应软子空间聚类算法。算法以经典的k均值聚类算法框架为基础,在最小化各个子空间簇类的簇内紧密度的同时最大化各个子空间簇类的簇间距离。并且通过推导得到新的子空间聚类中心和特征加权的计算方式,克服了软子空间聚类对输入参数敏感的缺点,实现了算法的自适应学习,并且取得了较好的聚类效果。  相似文献   

3.
针对密度峰值聚类(CFSFDP)算法处理多密度峰值数据集时,人工选择聚类中心易造成簇的误划分问题,提出一种结合遗传k均值改进的密度峰值聚类算法。在CFSFDP求得的可能簇中心中,利用基于可变染色体长度编码的遗传k均值的全局搜索能力自动搜索出最优聚类中心,同时自适应确定遗传k均值的交叉概率,避免早熟问题的出现。在UCI数据集上的实验结果表明,改进算法具有较好的聚类质量和较少的迭代次数,验证了所提算法的可行性和有效性。  相似文献   

4.
针对高分辨率天文图像中的星点聚类研究中存在的 2 个问题:①天文图像的分辨率 较高,且图像处理速度较慢;②选取何种聚类算法对天文图像中的星点进行聚类分析效果较好。 在研究中,问题 1 采用图像分块的方法提高图像的处理速度;问题 2 提出了一种改进的 K 均值聚 类算法,以解决传统的 K 均值聚类算法的聚类结果易受到 k 值和初始聚类中心随机选择影响的问 题。该算法首先在用 K 均值聚类算法对数据初步聚类的基础上确定合适的 k 值,其次用层次聚类 对数据聚类确定初始聚类中心,最后在此基础上再采用 K 均值聚类算法进行聚类。通过 MATLAB 仿真实验的结果表明,该算法的聚类结果与效率优于其他聚类算法。  相似文献   

5.
人工鱼群聚类分析算法*   总被引:4,自引:2,他引:2  
针对人工鱼的特点,提出了一种新的聚类分析算法——人工鱼群聚类分析算法。该算法是一种基于网格和密度的聚类分析算法,它能够自动获得簇类数K,能对任意形状的数据库进行聚类,具有较好的并行性,通过网格大小的控制可获得不同层次的聚类结果。它克服了K均值算法要指定簇数K的困难和对球状数据库效果好的缺憾。  相似文献   

6.
文章提出了一种基于k均值聚类的视频关键帧提取算法。该算法在视频的镜头分割算法之上,通过层次聚类对视频内容进行初步划分,之后结合k均值聚类算法对初步提取的关键帧进行直方图特征对比去掉冗余帧,最终确定视频的关键帧序列。经过大量的实验数据证明,该算法能够提取出冗余度较低、代表性较强的关键帧,一定程度上为视频关键帧提取提供了有效的方法。  相似文献   

7.
在传统的K-means算法中,聚类结果很大程度依赖于随机选择的初始聚类中心点以及人工指定的k值.为了提高聚类精度,本文提出了利用最小距离与平均聚集度来对初始聚类中心点进行选取,将层次聚类CURE算法得到的聚簇数作为k值,从而使聚类精度得到提高.最后,将改进后的K-means算法应用到微博话题发现中,通过对实验结果分析,证明该算法提高了聚类结果精度.  相似文献   

8.
一种基于SOM和PAM的聚类算法   总被引:4,自引:0,他引:4  
张钊  王锁柱  张雨 《计算机应用》2007,27(6):1400-1402
提出了一种基于自组织映射(SOM)算法和围绕中心点的划分(PAM)算法相结合的SOM-PAM聚类算法。该算法首先利用SOM算法对数据集进行“粗聚类”并得到簇数k;然后,根据簇数k再利用PAM算法对“粗聚类”结果进行聚类并得到最终聚类结果。通过实验表明,SOM-PAM算法具有比SOM算法更高的聚类效率和更好的聚类质量。  相似文献   

9.
基于图的K-均值聚类法中初始聚类中心选择   总被引:6,自引:1,他引:5  
聚类分析在信息检索和数据挖掘等领域都有很广泛的应用,K均值聚类算法是一个比较简洁和快速的聚类算法,但是它存在着初始类簇中心须事先设定,而初始类簇中心的选择严重影响聚类的结果;为了改善K均值聚类算法的聚类效果,针对以往K均值聚类算法中采用随机指定初始类簇中心的方法.提出了一种基于图论的连通分支来进行初始类簇中心的选取算法,并用随机样本发生器生成的模拟数据进行测试,通过与常规的随机选取方法的比较,该算法具有更好的性能和健壮性.  相似文献   

10.
提出一种新的基于图论的聚类算法NeiMu。该算法首先分析数据中的对象,寻找每个对象的k近邻,根据k近邻关系构造k近邻有向图,然后通过k近邻有向图中的k-互邻居关系构造k-聚类图,发现数据中的自然聚类。算法的特点是根据数据之间的互为k近邻关系确定数据中的自然簇,而不必引入其他方法来划分小簇,从而能够保证对象不会被错误聚类,仅会与其他小簇一起融合到一个大簇中。这一优点可以有效保证NeiMu算法的聚类质量。而且,NeiMu算法给出的这种类似自底向上的层次聚类结果还有利于用户根据渐变的结果确定最佳的k值。实验结果表明,该算法对密度变化大的数据、大小相差大的数据、任意分布形状的数据均具有很好的聚类质量,对孤立点也很健壮。  相似文献   

11.
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。  相似文献   

12.
为了更好地实现聚类,在汲取传统的划分算法、层次算法特性的基础上,提出了一种新的基于划分和层次的混合聚类算法(MPH),该算法将聚类的过程分为分裂和合并两个阶段,在分裂阶段反复采用k-means算法,将数据集划分为多个同质的子簇,在合并阶段采用凝聚的层次聚类算法。实验表明,该算法能够发现任意形状、任意大小的聚类,并且对噪声点不敏感。  相似文献   

13.
The one-dimensional clustering aims to group real-values of an input array into identified number of clusters. Some of the current algorithms, such as the k-means, need the number of clusters in advance, and use a goal function based on minimizing the sum of squared Euclidean distances to the mean of each group. This paper shows why this goal function is not efficient, even for one-dimensional case, then proposes an O (n × log n) efficient algorithm for the one-dimensional clustering purposes. The proposed algorithm can automatically detect the number of clusters. The performance of the proposed algorithm is approved across several experiments. In addition, results of experiments show why the goal function used in some current algorithms like the k-means is not suitable for the one-dimensional clustering.  相似文献   

14.
改进的基于遗传算法的粗糙聚类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
传统的聚类算法都是使用硬计算来对数据对象进行划分,然而现实中不同类之间对象通常没有明确的界限。粗糙集理论提供了一种处理边界对象不确定的方法。因此将粗糙理论与k-均值方法相结合。同时,传统的k-均值聚类方法必须事先给定聚类数k,但实际情况下k很难确定;另外虽然传统k-均值算法局部搜索能力强,但容易陷入局部最优。遗传算法能得到全局最优解,但收敛过快。鉴于此,提出了一种改进的基于遗传算法的的粗糙聚类方法。该算法能动态地生成k-均值聚类数,采用最大最小原则生成初始聚类中心,同时结合粗糙集理论的上近似和下近似处理边界对象。最后,用UCI的Iris数据集分别对算法进行实际验证。实验结果表明,该算法具有较高的正确率,综合性能更加稳定。  相似文献   

15.
周鹿扬  程文杰  徐建鹏  徐祥 《计算机科学》2016,43(Z6):454-456, 484
针对k-means算法采用单一的聚类中心描述一个类簇,一般不能有效适用于任意形状簇的缺陷,在研究k-means算法以及初始聚类中心优化算法的基础上,考虑将数据集中较大或延伸状的簇分割成若干球状簇,而后合并这些小簇。该算法首先选取一组分布于高密度区域的聚类中心,将聚类中心周围的对象划分到离其最近的聚类中心形成子簇,再根据子簇之间的连通性完成子簇合并。实验证明,该算法能有效适应任意形状簇,并保持了k-means算法简单的优点。  相似文献   

16.
基于最大最小距离法的多中心聚类算法   总被引:19,自引:0,他引:19  
周涓  熊忠阳  张玉芳  任芳 《计算机应用》2006,26(6):1425-1427
针对k-means算法的缺陷,提出了一种新的多中心聚类算法。运用两阶段最大最小距离法搜索出最佳初始聚类中心,将原始数据集分割成小类后用合并算法形成最终类,即用多个聚类中心联合代表一个延伸状或者较大形状的簇。仿真实验表明:该算法能够智能地确定初始聚类种子个数,对不规则状数据集进行有效聚类, 聚类性能显著优于k-means算法。  相似文献   

17.
针对电力公司海量数据分类问题,提出一种改进的k-means数据分类方法。在k-means算法的基础上,应用PCA对k-means算法进行降维处理,用canopy算法优化最佳簇集数、初始聚类中心。然后,应用改进的k-means算法对居民用户用电进行聚类;最后以该聚类结果为基础,建立LSTM预测模型。通过LSTM预测模型对某小区90户居民用电数据进行仿真实验,并对比分析了传统聚类、改进聚类和不适用聚类下LSTM三种模型的预测结果。结果表明,未使用任何聚类算法构建的LSTM模型在进行电力负荷预测时,预测结果的精度最低;应用改进的k-means算法构建的LSTM模型预测结果精度最佳。  相似文献   

18.
This paper presents a new k-means type algorithm for clustering high-dimensional objects in sub-spaces. In high-dimensional data, clusters of objects often exist in subspaces rather than in the entire space. For example, in text clustering, clusters of documents of different topics are categorized by different subsets of terms or keywords. The keywords for one cluster may not occur in the documents of other clusters. This is a data sparsity problem faced in clustering high-dimensional data. In the new algorithm, we extend the k-means clustering process to calculate a weight for each dimension in each cluster and use the weight values to identify the subsets of important dimensions that categorize different clusters. This is achieved by including the weight entropy in the objective function that is minimized in the k-means clustering process. An additional step is added to the k-means clustering process to automatically compute the weights of all dimensions in each cluster. The experiments on both synthetic and real data have shown that the new algorithm can generate better clustering results than other subspace clustering algorithms. The new algorithm is also scalable to large data sets.  相似文献   

19.
Appropriate organizational resources allocation becomes a major challenge for companies to address the rapid demands for resources from different operational aspects while resource utilization is keeping low. Differentiate exiting customers with common features into smaller groups can serve as a piece of useful reference for decision-making. So far, k-means algorithm is the most commonly used clustering technique for conducting customer grouping. However, k-means limits the grouping consideration to a fixed number of dimensions among each group and the grouping results are significantly influenced by the initial clusters means. In this research, a robust genetic algorithm (GA) based k-means clustering algorithm is proposed in attempt to classify existing customers of the enterprise into groups with consideration of relevant attributes for the sake of obtaining desirable grouping results in an efficient manner. Different from k-means, the proposed GA-based k-means algorithm is able to select which and how many dimensions are better to be considered for each customer group when developing approximate optimal solutions. A case study is conducted on a window curtain manufacturer with the application of software Generator associated with MS Excel.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号