首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
二元数据子空间聚类算法的初始化研究*   总被引:2,自引:1,他引:1  
针对二元数据空间高维稀疏性的特点而提出的有限混合伯努利模型,能够快速寻找映射簇的模型框架;EM算法是数学模型进行参数迭代的重要方法,其算法的优劣很大程度上取决于其初始参数。对于运用EM算法来实现有限混合伯努利模型聚类算法已有许多研究, EM算法中参数的选取直接影响聚类算法的性能。引入 Binning法和改变数据之间相似度测量方式、中心点的选取方式来进行初始化,从而大大减少聚类结果对初始参数的依赖,实验证明该算法是高效的、正确的。  相似文献   

2.
一种快速、鲁棒的有限高斯混合模型聚类算法   总被引:1,自引:0,他引:1  
有限混合模型聚类是一种基于概率模型的有效聚类方法。针对高斯混合模型的聚类算法,分别对模型的成分混合系数及样本所属成分的概率系数施加熵惩罚算子,实现对模型成分数的两级控制,快速消除无效成分,使算法能在很少的迭代次数内收敛到确定解。传统算法对初始值(成分数目c需事先指定)的设置非常敏感,容易导致EM算法陷入局部最优解或收敛到解空间的边界,而文中的算法对初始值的设定没有特殊的要求,实验证明其具有很好的鲁棒性。  相似文献   

3.
由于存在大量服从高斯分布的样本数据,采用高斯混合模型(Gaussian Mixture Models,GMM)对这些样本数据进行聚类分析,可以得到比较准确的聚类结果.通常采用EM算法(Expectation Maximization Algorithm)对GMM的参数进行迭代式估计.但传统EM算法存在两点不足:对初始聚...  相似文献   

4.
有限混合密度模型及遥感影像EM聚类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
遥感信息是地球表层信息的综合反映,由于地球表层系统的复杂性和开放性,地表信息是多维的、无限的、遥感信息传递过程中的局限性以及遥感信息之间的复杂相关性,决定了遥感信息其结果的不确定性和多解性,遥感信息具有一定的统计特性,同时又具有高度的随机性和复杂性,在特征空间中往往表现为混合密度分布,针对遥感信息这种统计分布的复杂性,提出了有限混合密度的期望最大(EM)分解模型,该模型假设总体分布可分解为有限个参数化的密度分布,通过EM迭代计算可估计出各密度分布的最大似然参数集;将有限混合EM聚类算法应用于遥感影像的聚类分析中,并与传统统计聚类方法进行了比较,比较结果表明,其对复杂地物的区分具有优势,另外在融合专家知识、初始化等方面具有扩展能力。  相似文献   

5.
社交网络作为一种新兴的媒体具有广泛的社会影响力,且基于社交网络的营销方式逐渐成为一种新的发展趋势,因此研究社交网络中消息的传播具有重大的现实和经济意义。通过借鉴日常生活中人与人之间的信任原理,提出了一种基于信任度的消息传播模型。该模型首先利用个体的公开信息,使用数据挖掘的算法对个体进行分类;然后,根据同类和不同类个体之间的关系计算个体之间的信任度;最后,使用消息与个体的属性相似性以及信任度来计算消息可能传播范围。给出了相应的计算方法,并与两种基准方法对比,结果表明,该模型在准确度上提升15%左右,而所用时间降低50%以上。与数据集统计结果对比,该实验的结果与统计结果相差5%左右,充分表明该模型在实际应用中有比较好的效果。  相似文献   

6.
自适应仿射传播聚类   总被引:42,自引:4,他引:42       下载免费PDF全文
王开军  张军英  李丹  张新娜  郭涛 《自动化学报》2007,33(12):1242-1246
适合处理大类数的仿射传播聚类有两个尚未解决的问题: 一是很难确定偏向参数取何值能够使算法产生最优的聚类结果; 另一个是当震荡发生后算法不能自动消除震荡并收敛. 为了解决这两个问题, 提出了自适应仿射传播聚类方法, 具体技术包括: 自适应扫描偏向参数空间来搜索聚类个数空间以寻找最优聚类结果、自适应调整阻尼因子来消除震荡以及当调整阻尼因子方法失效时的自适应逃离震荡技术. 与原算法相比, 自适应仿射传播聚类方法性能更优, 能够自动消除震荡和寻找最优聚类结果. 对模拟和真实数据集的实验结果表明, 自适应仿射传播聚类方法十分有效, 其聚类质量优于或不低于原算法.  相似文献   

7.
张晓伟 《计算机应用》2014,34(2):411-416
社交网络作为一种新兴的媒体具有广泛的社会影响力,且基于社交网络的营销方式逐渐成为一种新的发展趋势,因此研究社交网络中消息的传播具有重大的现实和经济意义。通过借鉴日常生活中人与人之间的信任原理,提出了一种基于信任度的消息传播模型。该模型首先利用个体的公开信息,使用数据挖掘的算法对个体进行分类;然后,根据同类和不同类个体之间的关系计算个体之间的信任度;最后,使用消息与个体的属性相似性以及信任度来计算消息可能传播范围。给出了相应的计算方法,并与两种基准方法对比,结果表明,该模型在准确度上提升15%左右,而所用时间降低50%以上。与数据集统计结果对比,该实验的结果与统计结果相差5%左右,充分表明该模型在实际应用中有比较好的效果。  相似文献   

8.
准确认定贫困学生资格是关系到资助资源流向和教育公平的实现,在教学管理中,校园卡消费数据的准确聚类对于贫困生评定工作具有重要参考价值.近邻传播对于离群点不敏感,也能保持模型的较好鲁棒性的特点.将近邻传播算法应用到校园卡消费数据的聚类,实现学生消费能力的分类.实例分析的结果表明,该算法聚类结可为贫困生评定提供科学的参考依据.  相似文献   

9.
半监督的仿射传播聚类   总被引:4,自引:0,他引:4  
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。  相似文献   

10.
高斯混合模型是一种含隐变量的概率图模型,其参数通常由EM算法迭代训练得到.本文在简单推导高斯混合模型的EM算法后,将使用高斯混合模型对鸢尾花(iris)数据集进行分类判别.同时,针对EM算法受初始值影响大的问题,使用了K均值聚类算法作为其初始值的估计方法.在得到K均值聚类算法和EM算法的分类判别结果后,对比两种算法的判...  相似文献   

11.
高斯混合模型聚类中EM算法及初始化的研究   总被引:6,自引:0,他引:6  
岳佳  王士同 《微计算机信息》2006,22(33):244-246
EM算法是参数估计的重要方法,其算法核心是根据已有的数据来迭代计算似然函数,使之收敛于某个最优值。EM算法收敛的优劣很大程度上取决于其初始参数。运用EM算法来实现高斯混合模型聚类,如何初始化EM参数便成为一个关键的问题。在比较其他的初始化方法的基础上,引入“binning”法来初始化EM。实验结果表明,应用binning法来初始化EM的高斯混合模型聚类优于其它传统的初始化方法。  相似文献   

12.
在基于概率模型的聚类中,簇模型对数据分布的拟合性直接影响着聚类质量。基于内容的文本数据分布的复杂性导致单一因素的簇模型无法准确拟合文本数据的分布特征。该文认为文本基于内容的分布特性主要受主题内容和通用写作方式影响,给出了一种基于主题模型和通用模型的混合簇模型和基于该簇模型的文本聚类方法。实验表明该聚类方法较单一因素的簇模型具有更好的拟合性,聚类质量 更好。  相似文献   

13.
The block or simultaneous clustering problem on a set of objects and a set of variables is embedded in the mixture model. Two algorithms have been developed: block EM as part of the maximum likelihood and fuzzy approaches, and block CEM as part of the classification maximum likelihood approach. A unified framework for obtaining different variants of block EM is proposed. These variants are studied and their performances evaluated in comparison with block CEM, two-way EM and two-way CEM, i.e EM and CEM applied separately to the two sets.  相似文献   

14.
传统的基于EM算法的聚类方法,当模型的某个高斯分量的协方差矩阵变为奇异矩阵时,会导致聚类失败。提出在聚类过程中用最大后验估计(MAP)来代替极大似然估计(MLE);将一种改进的贝叶斯信息准则(BIC)与模型参数估计同时处理,扩大了模型选择的搜索范围。该算法有效地避免了协方差矩阵在迭代中陷入奇异,并将参数估计和模型选择同时进行。通过R软件进行仿真分析,结过表明改进的算法在减少计算量同时,提高了聚类的准确度,并具有鲁棒性。  相似文献   

15.
Recently, there has been a considerable interest in finite mixture models with semi-/non-parametric component distributions. Identifiability of such model parameters is generally not obvious, and when it occurs, inference methods are rather specific to the mixture model under consideration. Hence, a generalization of the EM algorithm to semiparametric mixture models is proposed. The approach is methodological and can be applied to a wide class of semiparametric mixture models. The behavior of the proposed EM type estimators is studied numerically not only through several Monte-Carlo experiments but also through comparison with alternative methods existing in the literature. In addition to these numerical experiments, applications to real data are provided, showing that the estimation method behaves well, that it is fast and easy to be implemented.  相似文献   

16.
传统的基于EM算法的聚类方法;当模型的某个高斯分量的协方差矩阵变为奇异矩阵时;会导致聚类失败。提出在聚类过程中用最大后验估计(MAP)来代替极大似然估计(MLE);将一种改进的贝叶斯信息准则(BIC)与模型参数估计同时处理;扩大了模型选择的搜索范围。该算法有效地避免了协方差矩阵在迭代中陷入奇异;并将参数估计和模型选择同时进行。通过R软件进行仿真分析;结过表明改进的算法在减少计算量同时;提高了聚类的准确度;并具有鲁棒性。  相似文献   

17.
蔡崇超  王士同 《计算机应用》2007,27(5):1235-1237
在Bernoulli混合模型和期望最大化(EM)算法的基础上给出了一种基于不完整数据的改进方法。首先在已标记数据的基础上通过Bernoulli混合模型和朴素贝叶斯算法得到似然函数参数估计初始值, 然后利用含有权值的EM算法对分类器的先验概率模型进行参数估计,得到最终的分类器。实验结果表明,该方法在准确率和查全率方面要优于朴素贝叶斯文本分类。  相似文献   

18.
为解决常用车底阴影检测方法在复杂光照及背景条件下检测结果不稳定的问题,提出一种基于聚类分析的车底阴影检测方法。使用改进的高斯混合模型聚类算法对交通图像中的目标,即路面、车道线、车辆、车底阴影进行聚类,利用高斯阴影模型的均值与方差自适应阈值分割图像,提取路面与车底阴影的交线,利用阴影的几何结构特征对检测到的阴影线进行两次合并,得到最终结果。实验结果表明,该方法能有效检测车底阴影,适应白天不同时段、光强变化,在复杂投影的干扰下能实现准确检测。  相似文献   

19.
基于分层高斯混合模型的半监督学习算法   总被引:10,自引:0,他引:10  
提出了一种基于分层高斯混合模型的半监督学习算法,半监督学习算法的学习样本包括已标记类别样本和未标记类别学习样本。如用高斯混合模型拟合每个类别已标记学习样本的概率分布,进而用高斯数为类别数的分层高斯混合模型拟合全部(已标记和未标记)学习样本的分布,则形成为一个基于分层的高斯混合模型的半监督学习问题。基于EM算法,首先利用每个类别已标记样本学习高斯混合模型,然后以该模型参数和已标记样本的频率分布作为分层高斯混合模型参数的初值,给出了基于分层高斯混合模型的半监督学习算法,以银行票据印刷体数字识别做实验,实验结果表明,本算法能够获得较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号