首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于聚类算法可以对多个属性聚类的特点,提出一种基于快速求解高斯混合模型的聚类算法,用于研究网络流量的分类,使其达到更佳的聚类效果。通过与其他算法比较,讨论了该种方法在流量聚类中的适用性。仿真结果表明,该方法聚类精度高,经过初始聚类中心后的EM算法用于求解GMM有较高的估算准确性,有效地提高了EM算法的收敛速度。  相似文献   

2.
基于EM算法的文本聚类优化研究   总被引:1,自引:0,他引:1  
针对现有的文本聚类算法难以取得满意结果的问题,以EM算法为基础,提出能分别描述相似、不相似聚类对的相似性分布以及重要、不重要文档的重要性分布的文本聚类优化模型(text clustering optimization model, TCOM).基于该模型,设计一种通过合并不同的文本聚类结果以获取最优性能的方法.实验结果表明,利用该方法同时改善了聚类精度和召回率,其性能优于单独使用现有的硬、软聚类算法.  相似文献   

3.
负载自适应数据库系统中,负载特征化部件要实时对各种数据库的访问负载分类,根据分类的情况预测负载对数据库资源需求。是对常规聚类算法的一个改进,提出基于特征向量的聚类算法和基于特征向量的增量聚类算法。使用该算法后负载分类速度和准确性有明显提高。  相似文献   

4.
K-均值聚类是一种被广泛应用的方法。本文提出了基于K-均值聚类的改进算法,并应用于图像分割。针对K-均值聚类算法对离群点的反应过强的缺点,通过替换中心点,比较代价函数,来达到改进划分结果的目的。实验结果表明,该方法能有效改善聚类中心,提高分类精度和准确性。  相似文献   

5.
K-均值聚类是一种被广泛应用的方法。本文提出了基于K-均值聚类的改进算法,并应用于图像分割。针对K-均值聚类算法对离群点的反应过强的缺点,通过替换中心点,比较代价函数,来达到改进划分结果的目的。实验结果表明,该方法能有效改善聚类中心,提高分类精度和准确性。  相似文献   

6.
高斯混合模型是一种含隐变量的概率图模型,其参数通常由EM算法迭代训练得到.本文在简单推导高斯混合模型的EM算法后,将使用高斯混合模型对鸢尾花(iris)数据集进行分类判别.同时,针对EM算法受初始值影响大的问题,使用了K均值聚类算法作为其初始值的估计方法.在得到K均值聚类算法和EM算法的分类判别结果后,对比两种算法的判...  相似文献   

7.
王宏杰  师彦文 《计算机科学》2017,44(Z11):457-459, 502
为了提高传统K-Means聚类算法的聚类准确性,提出一种结合初始中心优化和特征加权的改进K-Means聚类算法。首先,根据样本特征对聚类的贡献程度获得初始特征权重,构建一种加权距离度量。其次,利用提出的初始聚类中心选择方法获得k个初始聚类中心,并结合初始特征权重进行初步聚类。然后,根据聚类精度来调整特征权重并再次执行聚类过程。重复执行上述过程直到聚类精度不再变化,获得最终的聚类结果。在UCI数据库上的实验结果表明,与现有相关K-Means聚类算法相比,该算法具有较高的聚类准确性。  相似文献   

8.
初始聚类中心优化选取的核C-均值聚类算法   总被引:4,自引:1,他引:3  
在通常的核C-均值聚类算法中,聚类结果对初始聚类中心敏感,随机选取初始聚类中心时,会使得迭代次数较多、分类结果不稳定.针对该问题提出一种优化选取仞始聚类中心的算法.该方法采用一种改进的最大最小距离算法对原始空间中的数据进行粗分类,将粗分类结果中每类类心作为初始聚类中心,再运用核C-均值聚类算法进行分类.仿真实验结果表明方法能有效减少迭代次数,使分类结果更加稳定,分类识别率也有一定程度的提高.  相似文献   

9.
传统的K-means算法选取初始聚类中心时的不确定性会导致聚类结果不稳定。论文提出了基于相异度的邻域及其结构系数的概念,从最小的结构系数开始,按照其递增顺序寻找初始聚类中心;随后采用依次缩小邻域的技巧逐步探索,直到找到K个初始聚类中心。该方法同时得到li(i=0,1,2,…,q)个初始聚类中心及其对应的数据分类结果。实验证明,对比于以往的算法,新算法具有更高的分类准确率以及更少的迭代次数。  相似文献   

10.
针对聚类算法中特征数据对聚类中心贡献的差异性及算法对初始聚类中心的敏感性等问题,提出一种基于知识量加权的直觉模糊均值聚类方法。首先将原始数据集直觉模糊化并改进最新的直觉模糊知识测度计算知识量,据此实现数据集特征加权,再利用核空间密度与核距离初始化聚类中心,以提高高维特征数据集的计算精度与聚类效率,最后基于类间样本距离与最小知识量原理建立聚类优化模型,得到最优迭代算法。基于UCI人工数据集的实验结果表明,所提方法较大程度地提高了聚类的准确性与迭代效率,分类正确率及执行效率分别平均提高了10.63%和31.75%,且具有良好的普适性和稳定性。该方法首次将知识测度新理论引入模糊聚类并取得优良效果,为该理论在其他相关领域的潜在应用开创了新例。  相似文献   

11.
混合聚类彩色图像分割方法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
提出了一种基于K-均值算法和EM算法混合聚类的彩色图像分割方法。首先将待分割的RGB彩色图像转化成YUV空间模型,然后将该图像分割成n小块,对每个块的颜色分量用改进的K-均值聚类算法进行聚类分析,最后用EM聚类算法对每个块进行聚类,分割源图像。对K-均值算法和EM算法的初始聚类中心引进了改进算法,加快了算法的收敛速度。并与相似的分割方法进行了比较实验,给出了详细的实验结果与分析。实验表明该方法分割速度快,效果好,具有较高的实用价值。  相似文献   

12.
Clustering is a useful tool for finding structure in a data set. The mixture likelihood approach to clustering is a popular clustering method, in which the EM algorithm is the most used method. However, the EM algorithm for Gaussian mixture models is quite sensitive to initial values and the number of its components needs to be given a priori. To resolve these drawbacks of the EM, we develop a robust EM clustering algorithm for Gaussian mixture models, first creating a new way to solve these initialization problems. We then construct a schema to automatically obtain an optimal number of clusters. Therefore, the proposed robust EM algorithm is robust to initialization and also different cluster volumes with automatically obtaining an optimal number of clusters. Some experimental examples are used to compare our robust EM algorithm with existing clustering methods. The results demonstrate the superiority and usefulness of our proposed method.  相似文献   

13.
Partitional clustering of categorical data is normally performed by using K-modes clustering algorithm, which works well for large datasets. Even though the design and implementation of K-modes algorithm is simple and efficient, it has the pitfall of randomly choosing the initial cluster centers for invoking every new execution that may lead to non-repeatable clustering results. This paper addresses the randomized center initialization problem of K-modes algorithm by proposing a cluster center initialization algorithm. The proposed algorithm performs multiple clustering of the data based on attribute values in different attributes and yields deterministic modes that are to be used as initial cluster centers. In the paper, we propose a new method for selecting the most relevant attributes, namely Prominent attributes, compare it with another existing method to find Significant attributes for unsupervised learning, and perform multiple clustering of data to find initial cluster centers. The proposed algorithm ensures fixed initial cluster centers and thus repeatable clustering results. The worst-case time complexity of the proposed algorithm is log-linear to the number of data objects. We evaluate the proposed algorithm on several categorical datasets and compared it against random initialization and two other initialization methods, and show that the proposed method performs better in terms of accuracy and time complexity. The initial cluster centers computed by the proposed approach are close to the actual cluster centers of the different data we tested, which leads to faster convergence of K-modes clustering algorithm in conjunction to better clustering results.  相似文献   

14.
K-means算法是经典的基于划分的聚类算法。针对K-means算法的类簇数目难以确定、对初始聚类中心敏感的缺陷,提出了改进的K-means算法,重新定义了计算样本对象密度的方法,并且运用残差分析的方法从决策图中自动获取初始聚类中心和类簇数目。实验结果表明该算法可获得更好的聚类效果。  相似文献   

15.
Finite mixture models are being increasingly used to provide model-based cluster analysis. To tackle the problem of block clustering which aims to organize the data into homogeneous blocks, recently we have proposed a block mixture model; we have considered this model under the classification maximum likelihood approach and we have developed a new algorithm for simultaneous partitioning based on the classification EM algorithm. From the estimation point of view, classification maximum likelihood approach yields inconsistent estimates of the parameters and in this paper we consider the block clustering problem under the maximum likelihood approach; unfortunately, the application of the classical EM algorithm for the block mixture model is not direct: difficulties arise due to the dependence structure in the model and approximations are required. Considering the block clustering problem under a fuzzy approach, we propose a fuzzy block clustering algorithm to approximate the EM algorithm. To illustrate our approach, we study the case of binary data by using a Bernoulli block mixture.  相似文献   

16.
传统的K-means算法敏感于初始中心点的选取,并且无法事先确定准确的聚类数目[k],不利于聚类结果的稳定性。针对传统K-means算法的以上不足,提出了基于全局中心的高密度不唯一的新方法--NDK-means,该方法通过标准差确定有效密度半径,并从高密度区域中选取具有代表性的样本点作为初始聚类中心。此外算法针对最高密度点不唯一的情况进行特别分析,选取距离全局中心最远的点集作为最优的初始中心点集合。在NDK-means算法基础上结合有效性指标BWP对聚类结果进行分析,从而解决了最佳有效聚类数目无法事先确定的不足。理论研究与实验结果表明所提方法的聚类结果具有更好的稳定性和可行性。  相似文献   

17.
An EM algorithm for the block mixture model   总被引:1,自引:0,他引:1  
Although many clustering procedures aim to construct an optimal partition of objects or, sometimes, of variables, there are other methods, called block clustering methods, which consider simultaneously the two sets and organize the data into homogeneous blocks. Recently, we have proposed a new mixture model called block mixture model which takes into account this situation. This model allows one to embed simultaneous clustering of objects and variables in a mixture approach. We have studied this probabilistic model under the classification likelihood approach and developed a new algorithm for simultaneous partitioning based on the classification EM algorithm. In this paper, we consider the block clustering problem under the maximum likelihood approach and the goal of our contribution is to estimate the parameters of this model. Unfortunately, the application of the EM algorithm for the block mixture model cannot be made directly; difficulties arise due to the dependence structure in the model and approximations are required. Using a variational approximation, we propose a generalized EM algorithm to estimate the parameters of the block mixture model and, to illustrate our approach, we study the case of binary data by using a Bernoulli block mixture.  相似文献   

18.
提出一种新的聚类算法AIK-Means,利用CUDA技术加速算法执行效率,并优化内存方法,可在有限时间内进行多次聚类;将Chameleon层次聚类算法用于解决K-Means算法的初始聚类中心敏感问题;在多次聚类结果中用FP-Tree进行关联分析,提高聚类有效性。将算法应用到某集团心理学MMPI数据测试,实验结果表明AIK-Means算法在执行效率和聚类有效性上具有良好的效果。  相似文献   

19.
李引  毛力  须文波 《计算机工程与应用》2012,48(35):151-155,173
针对模糊C-均值(FCM)聚类算法对初始聚类中心选择敏感,易陷入局部最优的问题,提出一种量子粒子群优化改进的模糊C均值聚类算法。该算法引入的基于新距离标准的量子粒子群(AQPSO)算法不仅可以降低初始点敏感度,较快地收敛到最优解,而且能够提高全局搜索能力。仿真实验证明,该融合算法在摆脱局部最优区域,保证收敛速度同时使得聚类效果较好。  相似文献   

20.
陈聿  田博今  彭云竹  廖勇 《计算机应用》2005,40(11):3217-3223
为进一步提升电力系统客户的用户体验,针对现有聚类算法寻优能力差、紧凑性不足以及较难求解聚类数目最优值的问题,提出一种联合手肘法与期望最大化(EM)的高斯混合聚类算法,挖掘大量客户数据中的潜在信息。该算法通过EM算法迭代出良好的聚类结果,而针对传统的高斯混合聚类算法需要提前获取用户分群数量的缺点,利用手肘法合理找出客户的分群数量。案例分析表明,所提算法与层次聚类算法和K-Means算法相比,FM、AR指标的增幅均超过10%,紧凑度(CI)和分离度(DS)的降幅分别低于15%和25%,可见性能有较大提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号