首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
结合限制的分隔模型及K-Means算法   总被引:7,自引:0,他引:7       下载免费PDF全文
何振峰  熊范纶 《软件学报》2005,16(5):799-809
将数据对象间的关联限制与K-means算法结合可以取得较好的效果,但由于划分是由K个中心决定的,每一类仅由一个中心决定,分隔的表示方法限制了算法效果的进一步提高.基于数据对象间的两类限制,定义了数据对象和集合间的两类关联,以及集合间的3类关联,在此基础上给出了结合限制的分隔模型.在模型中,基于集合间的正关联,多个子集中心可以用来表示同一类,使划分的表示可以更为灵活、精细.基于此模型,给出了相应的算法CKS(constrained K-meanswith subsets)来生成结合限制的分隔.对3个UCI数据集的实验结果显示:在准确率及健壮性上,CKS显著优于另一个结合关联限制的K-means类算法COP-K-means,与另一个代表性的算法CCL相比,也有相当优势;在时间代价上,CKS也有一定优势.  相似文献   

2.
一种基于限制的PAM算法   总被引:2,自引:1,他引:2  
利用数据对象间的关联限制可以改善聚类算法的效果,但对于关联限制与K中心点算法的结合策略则少有研究。由此研究了关联限制与PAM算法的结合方法,提出了算法CPAM。首先基于限制找到一个合适的初始分隔;在接下来反复地调整中心点的过程中,也考虑到了所给限制。实验结果显示:CPAM可以有效地利用关联限制来提高一些实际数据集的准确率。  相似文献   

3.
聚类作为一种非监督学习方法是数据科学中重要的研究内容.K-means是一种基于划分的聚类算法,一般是利用启发式算法求解一个离散的NP问题.为增强K-means在大数据问题中的应用性,从聚类矩阵的属性出发,设计了一类非凸连续的K-means等价聚类优化模型,并利用ADM M框架给出了该等价模型的快速优化算法.数值实验结果表明了该模型及其优化算法在大数据聚类中的准确性和高效性.此外,还讨论了该模型的性质及等价性问题.  相似文献   

4.
基于数据对象间的关联限制定义了类间关联系数,本文提出了两阶段的限制层次聚类算法TCCL.算法分为两个阶段,第一阶段主要依据数据对象的自然分布,基于数据对象间的距离把它们合并入一个个小类;在第二阶段,依据背景知识,基于类间关联系数来实现小类的进一步合并.一些实际数据集的实验结果表明,TCCL可以比较有效地利用所给关联限制来改善聚类效果.  相似文献   

5.
K-means是一种无监督学习算法,基于数据对象之间的距离度量划分数据簇、欧氏距离等度量方法存在一些问题,比如离群点数据较多,算法准确度较低.互信息可以度量任意两个数据对象之间的互相包含程度,基于互信息改进K-means算法,可以更好地度量数据对象之间的距离,确保簇内高度相同和簇间高度相异,旨在解决离群点数据较多的情况下K-means算法准确度不高的问题.实验结果显示,与K-means算法、模糊K-means算法相比,改进K-means算法实验结果精确度达到了97.8%,该方法明显提高K-means算法的准确度.  相似文献   

6.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。  相似文献   

7.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

8.
IncSNN——一种基于密度的增量聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类算法是一类重要的聚类算法,能发现任意形状的簇,但由于它的时间复杂度较高,因此设计有效的增量更新算法是一个重要研究方向.在SNN算法的基础上,提出一种基于密度的增量聚类算法-IncSNN.该算法将所更新对象的空间进行划分,定义了基于该划分的最近邻居的概念,进而确定了受影响对象的集合,当算法更新时,只需要对受影响的数据进行处理.由于受影响对象的集合远小于原数据集合,因此显著提高了算法的效率.实验结果验证了IncSNN的有效性.  相似文献   

9.
邱烨  何振峰 《计算机科学》2012,39(8):196-198,209
结合关联限制K-means算法能有效地提高聚类结果,但对数据对象分配次序却非常敏感。为获得一个好的分配次序,提出了一种基于分配次序聚类不稳定性的迭代学习算法。根据Cop-Kmeans算法的稳定性特点,采用迭代思想,逐步确定数据对象的稳定性,进而确定分配次序。实验结果表明,基于分配次序聚类不稳定性迭代学习算法有效地提高了Cop-Kmeans算法的准确率。  相似文献   

10.
K-means算法是一种基于划分的聚类算法,具有算法简单且收敛速度快的特点。但该算法的性能依赖于聚类中心的初始位置的选择。拓展了复杂网络的重要特征,针对带有属性的数据对象所构成的数据集,定义了多维属性对象的度、聚集度和聚集系数,选取度和聚集系数高的K个点作为K-means聚类的初始中心点。实验数据表明,改进后的K-means算法较传统的算法具有更高的效率和准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号