共查询到18条相似文献,搜索用时 93 毫秒
1.
一种改进的半监督K-Means聚类算法 总被引:1,自引:0,他引:1
半监督聚类利用部分标签的数据辅助未标签的数据进行学习,从而提高聚类的性能。针对基于K-means的聚类算法发现非球状簇能力差的问题,本文提出新的处理思想,即把已标签数据对未标签数据的引力影响加入到类别分配决策中,给出了类与点的引力影响度定义,设计了带引力参数的半监督K-means聚类算法。实验表明,该算法在处理非球状簇分布的聚类时比现有的半监督K-means方法效果更好。 相似文献
2.
聚类作为一种非监督学习方法是数据科学中重要的研究内容.K-means是一种基于划分的聚类算法,一般是利用启发式算法求解一个离散的NP问题.为增强K-means在大数据问题中的应用性,从聚类矩阵的属性出发,设计了一类非凸连续的K-means等价聚类优化模型,并利用ADM M框架给出了该等价模型的快速优化算法.数值实验结果表明了该模型及其优化算法在大数据聚类中的准确性和高效性.此外,还讨论了该模型的性质及等价性问题. 相似文献
3.
《计算机科学与探索》2016,(7):1003-1009
半监督聚类是一种用先验信息完善聚类过程的机器学习方法。通过将元胞自动机(cellular automata,CA)距离变换算法引入到半监督聚类过程中,采用平面距离变换算法将数据集划分为若干子类,获得聚类数和约束信息,并作为下一阶段聚类的先验信息。利用半监督K-means聚类算法对第一阶段的聚类结果做进一步划分,可以获得完整的聚类中心和聚类数,并由此提出CA-K-means二阶段聚类算法。采用3组人工数据集和3组标准UCI数据集进行对比仿真实验,将CA-K-means二阶段聚类算法与半监督K-means聚类算法、遗传Kmeans聚类算法和单纯的CA层次聚类算法进行对比,结果显示,该算法对复杂分布数据的聚类准确率较高,聚类性能更加优良。 相似文献
4.
为了解决K-means算法在聚类数量增多的情况下,因选择了不合适的中心初值而影响到聚类效果这一问题,提出了一种局部迭代的快速K-means聚类算法(PIFKM+?)。该算法在K-means聚类的基础上,不断寻找能够被分割的聚类簇和能够被删除的聚类簇,并对受影响的局部数据进行重新聚类处理,降低了整个聚类更新的时间复杂度,提高了聚类的效果。PIFKM+?算法在面对聚类数量众多的情况下,具有能够快速更新聚类、对聚类中心初值不敏感、能够提高聚类精确度等优势。通过与K-means和K-means++两种算法的比较,在仿真数据集和真实数据集的综合实验下,验证了该算法的精确性、高效率性和可扩展性,同时实验结果的统计分析表明该算法在提高了聚类精确度的同时并没有损失太多的时间效率。 相似文献
5.
一种基于谱聚类的半监督聚类方法 总被引:6,自引:1,他引:6
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。 相似文献
6.
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。 相似文献
7.
8.
一种改进K-means算法的聚类算法CARDBK 总被引:1,自引:0,他引:1
CARDBK聚类算法与批K-means算法的不同之处在于,每个点不是只归属于一个簇,而是同时影响多个簇的质心值,一个点影响某一个簇的质心值的程度取决于该点与其它离该点更近的簇的质心之间的距离值。 从聚类结果的熵、纯度、F1值、Rand Index和NMI等5个性能指标值来看,与多个不同算法在多个不同数据集上分别聚类相比, 该算法具有较好的聚类结果;与多个不同算法在同一数据集上很多不同的初始化条件下分别聚类相比,该算法具有较好且稳定的聚类结果;该算法在不同大小数据集上聚类时具有线性伸缩性且速度较快。 相似文献
9.
10.
针对现有基于K-means的半监督聚类算法存在的共同问题,即对离群点敏感、在非凸数据集与不平衡数据集上表现差,提出了一种基于层次策略的散布种子半监督中心聚类算法。首先通过基于影响空间的样本边缘因子将数据集分为核心层与边缘层,然后应用一种改进的K-medoids算法完成核心层聚类,最后采用一种递进半监督分配策略对边缘层进行分配得到最终聚类结果。算法通过层次策略解决了离群点干扰问题、半监督子簇聚类及合并策略实现了在不同分布数据集上有效聚类。通过与几种半监督聚类方法在人工数据集以及真实数据集上进行的对比实验证明,该算法能够解决现存问题,提升了聚类性能与鲁棒性。 相似文献
11.
针对训练包不含标签的无监督多示例问题,本文提出了聚类和分类结合的多示例预测算法。首先利用多示例聚类算法完成无监督多示例学习的聚类任务,并根据聚类结果,将各个簇中的每个包转换成相应的k维特征向量。在标准多示例预测模型和一般性多示例预测模型上进行实验,可以得到较高的预测准确度,与其它多示例预测算法相比,本文算法具有较好的性能。 相似文献
12.
基于流形学习的多示例回归算法 总被引:2,自引:0,他引:2
多示例学习是一种新型机器学习框架,以往的研究主要集中在多示例分类上,最近多示例回归受到了国际机器学习界的关注.流形学习旨在获得非线性分布数据的内在结构,可以用于非线性降维.文中基于流形学习技术,提出了用于解决多示例同归问题的Mani MIL算法.该算法首先对训练包中的示例降维,利用降维结果出现坍缩的特性对多示例包进行预测.实验表明,Mani MIL算法比现有的多示例算法例如Citation-kNN等有更好的性能. 相似文献
13.
传统的视觉词典一般通过K-means聚类生成,一方面这种无监督的学习没有充分利用类别的先验信息,另一方面由于K-means算法自身的局限性导致生成的视觉词典性能较差。针对上述问题,提出一种基于谱聚类构建视觉词典的算法,根据训练样本的类别信息进行分割并采用动态互信息的度量方式进行特征选择,在特征空间中进行谱聚类并生成最终的视觉词典。该方法充分利用了样本的类别信息和谱聚类的优点,有效地解决了图像数据特征空间的高维性和结构复杂性所带来的问题;在Scene-15数据集上的实验结果验证了算法的有效性。 相似文献
14.
15.
聚类分析是一种无监督的模式识别方式,它是数据挖掘中的重要技术之一。给出了一种基于改进混合蛙跳算法的聚类分析方法,该方法结合了K—均值算法和改进混合蛙跳算法各自的优点,引入了K—均值操作,再用改进混合蛙跳算法进行优化,很大程度上提高了该算法的局部搜索能力和收敛速度。通过仿真对基于改进混合蛙跳的聚类方法与其他已有的聚类方法进行了比较,验证了所提出算法的优越性。 相似文献
16.
17.
基于核的K-均值聚类 总被引:17,自引:0,他引:17
将核学习方法的思想应用于K-均值聚类中,提出了一种核K-均值聚类算法,算法的主要思想是:首先将原空间中待聚类的样本经过一个非线性映射,映射到一个高维的核空间中,突出各类样本之间的特征差异,然后在这个核空间中进行K-均值聚类。同时还将一种新的核函数应用于核K-均值聚类中以提高算法的速度。为了验证算法的有效性,分别利用人工和实际数据进行K-均值聚类和核K-均值聚类,实验结果显示对于一些特殊的类分布数据,核K-均值聚类比K-均值聚类具有更好的聚类效果。 相似文献
18.
基于遗传算法学习聚类算法的中心个数 总被引:2,自引:0,他引:2
无导师聚类算法的目标是将一个数据集划分为若干个类,使得类内相似性尽可能大且类间相似性尽可能小。聚类过程中对数据集合分割成多少个类是一个很难确定的问题,目前还没有较好的解决方法。文章使用遗传算法对无导师聚类K-均值(K-means)算法中中心个数K值进行学习,实现了使用遗传算法进行聚类中心个数的确定,旨在提供一种选择中心参数个数的方法。通过对UCI机器学习数据库中的7个数据库进行实验,证实此方法是比较有效的。 相似文献