首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 421 毫秒
1.
针对k-means算法的聚类结果对初始聚类中心的选取较为敏感、选择聚类数目存在一定的主观性以及离群数据影响的问题,提出了一种结合孤立森林和鲸鱼优化算法的三支k-means算法(iF-W-TWKM)。首先利用孤立森林算法对数据集进行清洗,将数据集划分为两个子集:正常数据子集和异常数据子集。使用正常数据子集进行后续算法步骤,待算法结束后使用得到的聚类中心将异常数据子集中的样本划分到各类簇的边界域。利用鲸鱼优化算法建立以STDI为目标函数的优化问题进行全局寻优实现聚类中心的选取,避免局部最优。实验结果表明,改进后的算法在ACC、AS、DBI指标上整体优于k-means和TK-means,具有更好的聚类表现。  相似文献   

2.
朴素贝叶斯分类算法由于其计算高效在生活中应用广泛。本文根据集成算法的差异性特征,聚类算法聚类点的选择方式的可变性,提出了基于K-medoids聚类技术的贝叶斯集成算法,朴素贝叶斯的泛化性能得到了提升。首先,通过样本集训练出多个朴素贝叶斯基分类器模型;然后,为了增大基分类器之间的差异性,利用K-medoids算法对基分类器在验证集上的预测结果进行聚类;最后,从每个聚类簇中选择泛化性能最佳的基分类器进行集成学习,最终结果由简单投票法得出。将该算法应用于UCI数据集,并与其他类似算法进行比较可得,本文提出的基于K-medoids聚类的贝叶斯集成算法(NBKME)提高了数据集的分类准确率。  相似文献   

3.
针对传统串行聚类集成算法在处理高维海量数据时效率低下的问题,提出基于Spark的并行聚类集成算法SCEA(Spark based Clustering Ensemble Algorithm).首先,通过主成分分析与成对约束结合的方法对算法输入数据进行预处理,达到数据降维并去除特征相关性的目的;其次,通过调用不同聚类算法获得基聚类成员后,采用三元组方法通过基聚类成员的簇标签构造出相似度矩阵,并调用层次聚类算法得到最终的聚类结果;最后,在调用MLlib中已有聚类算法的基础上,基于Scala对SCEA算法进行了实现.将SCEA与同类算法在多组数据集下进行对比测试,实验结果表明:总体上SCEA不仅较已有算法在准确率方面有所提高,并且通过分析运行时间、加速比以及可扩展性3个性能指标,证明了SCEA在算法性能上的优越性.  相似文献   

4.
针对传统网格聚类算法仅能够去除空网格的问题,提出一种基于图像分割思想来剔除稀疏数据的多密度网格聚类算法.该算法对原始数据进行网格划分和数据映射,计算网格密度,将每个网格看作图像中的一个像素点,采用Otsu算法确定合适阈值,并给出了阈值应用于网格聚类算法时的阈值折合公式,完成稀疏单元的剔除.在聚类过程中考虑到网格单元内部特征,通过两个网格的相对密度及边界特征得到了相邻网格的相似度度量公式,弥补了网格聚类算法无法应对多密度数据的缺点.在Matlab中进行仿真实验,该算法在聚类之前对网格剔除率为69%,且不需要人工干预,而GAMD和SNN算法未剔除网格.当数据维度增加时,GAMD算法时间远远高于本算法.实验证明,该算法具有较好的数据过滤效果,聚类结果与数据输入顺序无关,在得到任意簇的同时,保证了较高的时间效率且能够广泛应用于各种数据集.  相似文献   

5.
随机森林是近些年发展起来的新集成学习算法,具有较好的分类准确率。针对该算法计算复杂度较高的不足,提出了一种基于谱聚类划分的随机森林算法。首先,利用聚类效果较好的谱聚类算法对原始样本集的每一类进行聚类处理。然后,在每一聚类簇中随机选取一个样本作为代表,组成新训练样本集合。最后,在新训练样本集上训练随机森林分类器。该算法通过谱聚类技术对原始样本进行了初步划分,将位置相近的多个样本用簇内的一个样本代表,较大程度地减少了训练样本的个数。在Corel Image图像识别数据集上的实验表明,算法可以用较少的分类时间达到较高的分类精度。  相似文献   

6.
基于覆盖的粗糙聚类算法   总被引:3,自引:0,他引:3  
传统的聚类算法大都得到了样本集的一个划分,类之间是严格的互斥关系,而现实世界中类与类之间往往没有明确的边界。该文将粗糙集理论引入到聚类分析中,提出了一种基于覆盖的粗糙聚类算法KMMRSC,它用多个中心点代表一个类,并用上、下近似来刻画样本的归属,类与类之间是一种覆盖关系。实验结果表明,该算法聚类质量优于k-均值算法,且能发现非球状簇。  相似文献   

7.
密度峰聚类(DPC)算法采用点的密度与距离属性对数据进行划分.该算法对大多数数据集能获得较好的聚类结果.然而,对于存在交叉、重叠情况的数据集,DPC算法的最近邻居分配方法将造成较大误差.针对这一缺陷,本文考虑到数据点的大部分邻居属于相同的簇,提出一种多邻居投票的聚类方法.该方法采取多个邻居的投票结果来决定未知点的归属....  相似文献   

8.
模糊聚类是近年来使用的一类性能较为优越的聚类算法,但该类算法对初始聚类中心敏感且对边界样本的聚类结果不够准确。为了提高聚类准确性、稳定性,该文通过联合多个模糊聚类结果,提出一种距离决策下的模糊聚类集成模型。首先,利用模糊C均值(FCM)算法对数据样本进行多次聚类,得到相应的隶属度矩阵。然后,提出一种新的距离决策方法,充分利用得到的隶属度关系构建一个累积距离矩阵。最后,将距离矩阵引入密度峰值(DP)算法中,利用改进的DP算法进行聚类集成以获取最终聚类结果。在UCI机器学习库中选择9个数据集进行测试,实验结果表明,相比经典的聚类集成模型,该文提出的聚类集成模型效果更佳。  相似文献   

9.
针对多视图聚类中如何更好地融合不同视图之间信息的问题,提出了一种多视图聚类算法。采用谱聚类中的归一化割算法,得到每个单视图的嵌入矩阵。通过最小化最终的全局图与各单视图之间的差距来学习最终的全局图。考虑到不同视图的重要性不同,使用了一种自加权的方式为每个视图添加权重。利用秩约束的方式控制全局图的连通分量个数。聚类结果可以从最终学习得到的全局图中直接得出,每个连通分量即为一个簇。通过在两个真实数据集上进行实验,对比该算法与其他类似算法在相同数据集上的聚类评价指标,得出该算法的聚类指标相比于对比算法有最大12%的提升。  相似文献   

10.
聚类集成是数据挖掘研究的一个热点。它是利用同一数据集的多个聚类划分集成在一起,以提高聚类分析的性能。当前相关研究大多没有考虑进行集成的聚类成员的质量,因此较差的成员会对集成结果产生不良影响。文中提出了一种基于加权co-occurrence矩阵的聚类集成算法(WCSCE)。该方法首先计算出聚类成员基于属性值的co-occurrence矩阵,然后对聚类成员的质量进行简单评价并赋予权重,生成加权co-occurrence矩阵,进而产生集成结果。最后通过实验验证了该算法的有效性,并提高了聚类质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号