首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
高斯混合模型聚类中EM算法及初始化的研究   总被引:6,自引:0,他引:6  
岳佳  王士同 《微计算机信息》2006,22(33):244-246
EM算法是参数估计的重要方法,其算法核心是根据已有的数据来迭代计算似然函数,使之收敛于某个最优值。EM算法收敛的优劣很大程度上取决于其初始参数。运用EM算法来实现高斯混合模型聚类,如何初始化EM参数便成为一个关键的问题。在比较其他的初始化方法的基础上,引入“binning”法来初始化EM。实验结果表明,应用binning法来初始化EM的高斯混合模型聚类优于其它传统的初始化方法。  相似文献   

2.
一种基于贪心EM算法学习GMM的聚类算法   总被引:2,自引:0,他引:2  
传统的聚类算法如k-means算法需要一些先验知识来确定初始参数,初始参数的选择通常会对聚类结果生产很大的影响.提出一种新的基于模型的聚类算法,通过优化给定的数据和数学模型之间的适应性发现数据对模型的最好匹配.由于高斯混合模型可以看作是一种"软分配聚类"方法,该算法结合一种贪心的EM算法来学习高斯混合模型(GMM),由贪心EM算法实现高斯混合模型结构和参数的自动学习,而不需要先验知识.这种聚类算法可以克服k-means等算法的缺点,实验结果表明该算法具有更好的聚类效果.  相似文献   

3.
传播结果的同源分析旨在识别出哪些历史传播结果是由同一组传播源头产生的。使用伯努利混合模型对传播结果的同源分析问题进行建模求解,同一组源头产生的传播结果对应一个伯努利分量,而伯努利分量的参数反映源头的影响在各点的传播到达概率;基于该模型和观测数据构建对数似然函数,并使用EM算法求解其中的伯努利参数,确定同源分析的结果。大量实验结果证明,对比于传统聚类算法,提出算法同源聚类的准确度更高,能够更高效准确地对传播结果数据进行同源分析。  相似文献   

4.
双重高斯混合模型的EM算法的聚类问题研究   总被引:2,自引:0,他引:2  
岳佳  王士同 《计算机仿真》2007,24(11):110-113
EM算法是参数估计的重要方法,其算法核心是根据已有的数据来迭代计算似然函数,使之收敛于某个最优值.半监督聚类是利用少部分标签的数据辅助大量未标签的数据进行的聚类分析.文章介绍了一种基于双重高斯混合模型的EM算法,在无监督学习中增加一些已标记的样本,利用已标记的样本得到初始参数,研究了半监督条件下的双重高斯混合模型的EM聚类算法.实验表明,该算法较无监督学习而言,提升了样本的识别率,有良好的聚类性能.这种算法模型也可以作为一种基础模型,具有一定的应用领域.  相似文献   

5.
由于存在大量服从高斯分布的样本数据,采用高斯混合模型(Gaussian Mixture Models,GMM)对这些样本数据进行聚类分析,可以得到比较准确的聚类结果.通常采用EM算法(Expectation Maximization Algorithm)对GMM的参数进行迭代式估计.但传统EM算法存在两点不足:对初始聚类中心的取值比较敏感;迭代式参数估计的迭代终止条件是相邻两次估计参数的距离小于给定的阈值,这不能保证算法收敛于参数的最优值.为了弥补上述不足,提出采用密度峰值聚类(Density Peaks Clustering,DPC)来初始化EM算法,以提高算法的鲁棒性,采用相对熵作为EM算法的迭代终止条件,实现对GMM算法参数值的优化选取.在人工数据集及UCI数据集上的对比实验表明,所提算法不但提高了EM算法的鲁棒性,而且其聚类结果优于传统算法.尤其在服从高斯分布的数据集上的实验结果显示,所提算法大幅提高了聚类精度.  相似文献   

6.
针对EM算法中的初始类的数目很难决定,在迭代中经常产生部分最优的情况,将K-means算法与基于EM的聚类方法相结合,提出了一个新的适用于基因表达数据的模型聚类方法。新的聚类方法,首先利用K-means算法具有全局性、效率高的优点,快速得到聚类的起始类的划分,将其设置为高斯混合模型的初始参数值,进一步采用EM方法进行聚类,得到最优聚类结果。通过2次对真实数据集的实验测试,将新的算法分别与K均值算法和EM算法进行了比较。实验结果表明,新算法是一种有效的聚类方法,聚类结果的准确度得到了提高。  相似文献   

7.
陶志勇  刘晓芳  王和章 《计算机应用》2018,38(12):3433-3437
针对高斯混合模型(GMM)聚类算法对初始值敏感且容易陷入局部极小值的问题,利用密度峰值(DP)算法全局搜索能力强的优势,对GMM算法的初始聚类中心进行优化,提出了一种融合DP的GMM聚类算法(DP-GMMC)。首先,基于DP算法寻找聚类中心,得到混合模型的初始参数;其次,采用最大期望(EM)算法迭代估计混合模型的参数;最后,根据贝叶斯后验概率准则实现数据点的聚类。在Iris数据集下,DP-GMMC聚类准确率可达到96.67%,与传统GMM算法相比提高了33.6个百分点,解决了对初始聚类中心依赖的问题。实验结果表明,DP-GMMC对低维数据集有较好的聚类效果。  相似文献   

8.
高斯混合模型是一种含隐变量的概率图模型,其参数通常由EM算法迭代训练得到.本文在简单推导高斯混合模型的EM算法后,将使用高斯混合模型对鸢尾花(iris)数据集进行分类判别.同时,针对EM算法受初始值影响大的问题,使用了K均值聚类算法作为其初始值的估计方法.在得到K均值聚类算法和EM算法的分类判别结果后,对比两种算法的判...  相似文献   

9.
基于有限混合多变量t分布的鲁棒聚类算法   总被引:1,自引:1,他引:0  
余成文  郭雷 《计算机科学》2007,34(5):190-193
在用混合模型聚类时,聚类数据中存在局外点是非常困难的问题。为了提高混合拟合的鲁棒性,本文用混合t模型替代混合高斯模型,来拟合含有背景噪音的多变量多高斯分布数据;提出了两个求解混合t模型的修改版期望最大化(EM)算法,并将它们与模型选择准则集成在一起,应用一个组合规则成分灭绝策略选择聚类成分数,得到两个对应的鲁棒聚类算法。对含有背景噪音的多个高斯成分进行不同聚类算法的大量实验表明,本文的鲁棒聚类算法能自动选择最佳的聚类成分数,相对于混合高斯模型的聚类方法,鲁棒性增强很多;相对于传统求解混合t模型(EM/ECM)的聚类方法,能有效避免其严重依赖初始值和易收敛至参数空间边界的缺点,具有较强的鲁棒性和较快的收敛速度。  相似文献   

10.
遗传K-均值初始化的t混合模型医学图像聚类*   总被引:1,自引:1,他引:0  
针对基于混合模型的图像聚类质量易受混合模型参数初始值的影响,提出一种遗传K-均值初始化的t混合模型医学图像聚类方法。该方法构建一种医学图像的t混合模型,将遗传算法与K-均值算法相结合,实现对医学图像的初始划分,从而获得混合模型的初始参数,有效克服混合模型对参数初始值选择的敏感性问题,用EM算法多次迭代估计t混合模型参数;最后根据得到的混合模型对医学图像进行聚类。实验表明,该方法实现了医学图像较精准的聚类,有较好的稳定性和通用性。  相似文献   

11.
有限混合密度模型及遥感影像EM聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
遥感信息是地球表层信息的综合反映,由于地球表层系统的复杂性和开放性,地表信息是多维的、无限的、遥感信息传递过程中的局限性以及遥感信息之间的复杂相关性,决定了遥感信息其结果的不确定性和多解性,遥感信息具有一定的统计特性,同时又具有高度的随机性和复杂性,在特征空间中往往表现为混合密度分布,针对遥感信息这种统计分布的复杂性,提出了有限混合密度的期望最大(EM)分解模型,该模型假设总体分布可分解为有限个参数化的密度分布,通过EM迭代计算可估计出各密度分布的最大似然参数集;将有限混合EM聚类算法应用于遥感影像的聚类分析中,并与传统统计聚类方法进行了比较,比较结果表明,其对复杂地物的区分具有优势,另外在融合专家知识、初始化等方面具有扩展能力。  相似文献   

12.
This study focuses on clustering algorithms for data on the unit hypersphere. This type of directional data lain on the surface of a unit hypersphere is used in geology, biology, meteorology, medicine and oceanography. The EM algorithm with mixtures of von Mises-Fisher distributions is often used for model-based clustering for data on the unit hypersphere. However, the EM algorithm is sensitive to initial values and outliers and a number of clusters must be assigned a priori. In this paper, we propose an effective approach, called a learning-based EM algorithm with von Mises-Fisher distributions, to cluster this type of hyper-spherical data. The proposed clustering method is robust to outliers, without the need for initialization, and automatically determines the number of clusters. Thus, it becomes a fully-unsupervised model-based clustering method for data on the unit hypersphere. Some numerical and real examples with comparisons are given to demonstrate the effectiveness and superiority of the proposed method. We also apply the proposed learning-based EM algorithm to cluster exoplanet data in extrasolar planets. The clustering results have several important implications for exoplanet data and allow an interpretation of exoplanet migration.  相似文献   

13.
Finite mixture models are being increasingly used to provide model-based cluster analysis. To tackle the problem of block clustering which aims to organize the data into homogeneous blocks, recently we have proposed a block mixture model; we have considered this model under the classification maximum likelihood approach and we have developed a new algorithm for simultaneous partitioning based on the classification EM algorithm. From the estimation point of view, classification maximum likelihood approach yields inconsistent estimates of the parameters and in this paper we consider the block clustering problem under the maximum likelihood approach; unfortunately, the application of the classical EM algorithm for the block mixture model is not direct: difficulties arise due to the dependence structure in the model and approximations are required. Considering the block clustering problem under a fuzzy approach, we propose a fuzzy block clustering algorithm to approximate the EM algorithm. To illustrate our approach, we study the case of binary data by using a Bernoulli block mixture.  相似文献   

14.
An EM algorithm for the block mixture model   总被引:1,自引:0,他引:1  
Although many clustering procedures aim to construct an optimal partition of objects or, sometimes, of variables, there are other methods, called block clustering methods, which consider simultaneously the two sets and organize the data into homogeneous blocks. Recently, we have proposed a new mixture model called block mixture model which takes into account this situation. This model allows one to embed simultaneous clustering of objects and variables in a mixture approach. We have studied this probabilistic model under the classification likelihood approach and developed a new algorithm for simultaneous partitioning based on the classification EM algorithm. In this paper, we consider the block clustering problem under the maximum likelihood approach and the goal of our contribution is to estimate the parameters of this model. Unfortunately, the application of the EM algorithm for the block mixture model cannot be made directly; difficulties arise due to the dependence structure in the model and approximations are required. Using a variational approximation, we propose a generalized EM algorithm to estimate the parameters of the block mixture model and, to illustrate our approach, we study the case of binary data by using a Bernoulli block mixture.  相似文献   

15.
蔡崇超  王士同 《计算机应用》2007,27(5):1235-1237
在Bernoulli混合模型和期望最大化(EM)算法的基础上给出了一种基于不完整数据的改进方法。首先在已标记数据的基础上通过Bernoulli混合模型和朴素贝叶斯算法得到似然函数参数估计初始值, 然后利用含有权值的EM算法对分类器的先验概率模型进行参数估计,得到最终的分类器。实验结果表明,该方法在准确率和查全率方面要优于朴素贝叶斯文本分类。  相似文献   

16.
The unsupervised learning of multivariate mixture models from on-line data streams has attracted the attention of researchers for its usefulness in real-time intelligent learning systems. The EM algorithm is an ideal choice for iteratively obtaining maximum likelihood estimation of parameters in presumable finite mixtures, comparing to some popular numerical methods. However, the original EM is a batch algorithm that works only on fixed datasets. To endow the EM algorithm with the capability to process streaming data, two on-line variants are studied, including Titterington’s method and a sufficient statistics-based method. We first prove that the two on-line EM variants are theoretically feasible for training the multivariate normal mixture model by showing that the model belongs to the exponential family. Afterward, the two on-line learning schemes for multivariate normal mixtures are applied to the problems of background learning and moving foreground detection. Experiments show that the two on-line EM variants can efficiently update the parameters of the mixture model and are capable of generating reliable backgrounds for moving foreground detection.  相似文献   

17.
黄卓  王文峰  郭波 《控制与决策》2008,23(2):133-139
针对目前连续PH分布数据拟合EM(Expectation-Maximization)算法存在的初值敏感问题,提出运用确定性退火EM算法进行连续PH分布数据拟合,给出了详细的理论推导,并通过两个拟合实例与标准EM算法进行了对比.对比结果表明所提出的方法可以有效地避免初值选择的不同对EM算法结果的影响,减小陷入局部最优的可能性,能得到比标准EM算法更好的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号