首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
K-means算法的聚类效果与初始聚类中心的选择以及数据中的孤立点有很大关联,具有很强的不确定性。针对这个缺点,提出了一种优化初始聚类中心选择的K-means算法。该算法考虑数据集的分布情况,将样本点分为孤立点、低密度点和核心点,之后剔除孤立点与低密度点,在核心点中选取初始聚类中心,孤立点不参与聚类过程中各类样本均值的计算。按照距离最近原则将孤立点分配到相应类中完成整个算法。实验结果表明,改进的K-means算法能提高聚类的准确率,减少迭代次数,得到更好的聚类结果。  相似文献   

2.
基于减法聚类改进的模糊c-均值算法的模糊聚类研究   总被引:2,自引:0,他引:2  
针对模糊c-均值(FCM)聚类算法受初始聚类中心影响,易陷入局部最优,以及算法对孤立点数据敏感的问题,提出了解决方案:采用快速减法聚类算法初始化聚类中心,为每个样本点赋予一个定量的权值,用来区分不同的样本点对最终的聚类结果的不同作用,为提高聚类速度采用修正隶属度矩阵的方法,并将算法与传统的FCM相比.实验结果表明,该算法较好地解决了初值问题,与随机初始化方法相比,迭代次数少、收敛速度快、具有较好的聚类结果.  相似文献   

3.
针对模糊C-均值(FCM)算法在解决各数据样本对聚类中心具有同样影响权重问题的不足以及对噪声和孤立点数据敏感,提出了改进和提高的方法:利用相似关系理论,为每一个样本加一个特征权值,构造加权目标函数,让不同的样本在聚类中起不同的作用,并对欧式距离进行加权,减少少数异常点对确定聚类中心的影响;同时对隶属度函数进行改进,以消除孤立点对聚类结果的影响。实验结果表明改进后的算法比经典FCM具有更好的鲁棒性和聚类效果。  相似文献   

4.
传统的K-means算法对于孤立点数据是非常敏感的,少量的该类数据就能对聚类结果产生很大影响。该文提出了一种改进的K-means算法来消弱这种敏感性。算法基于孤立点检测LOF算法中计算K距离的思想,将大于K距离的数据点作为伪聚类中心参与聚类划分,通过对聚类结果的评价来判断该数据点是否为孤立点。若为孤立点则去掉该点,进而来提高聚类质量。  相似文献   

5.
针对模糊C-均值聚类算法过度依赖初始聚类中心的选取,从而易受孤立点和样本分布不均衡的影响而陷入局部最优状态的不足,提出一种基于自适应权重的模糊C-均值聚类算法。该算法采用高斯距离比例表示权重,在每一次迭代过程中,根据当前数据的聚类划分情况,动态计算每个样本对于类的权重,降低了算法对初始聚类中心的依赖,减弱了孤立点和样本分布不均衡的影响。实验结果表明,该算法是一种较优的聚类算法,具有更好的健壮性和聚类效果。  相似文献   

6.
为避免初始聚类中心陷入局部最优,孤立点影响聚类准确性,结合分裂式思想,提出一种基于密度加权的K均值聚类算法.以K均值聚类算法为基础,引入分裂式思想,提取所有数据对象的属性值组建矢量,通过求解所有数据对象的全部属性,得到经过规范化预处理的数据对象矩阵,根据样本点与点群之间的最小最大距离,构建分裂式K均值聚类算法,采用样本点密度函数界定公式,选取出最优初始聚类中心,结合样本点间距离,完成密度加权下的分裂式K均值聚类算法设计.经对比实验结果发现,所提算法较好地解决了初始聚类中心选取的随机问题,在有效提高聚类准确性的同时大幅度降低了迭代次数,提升了聚类效率.  相似文献   

7.
相比于k-means算法,模糊C均值(FCM)通过引入模糊隶属度,考虑不同数据簇之间的相互作用,进而避免了聚类中心趋同性问题.然而模糊隶属度具有拖尾和翘尾的结构特征,因此使得FCM算法对噪声点和孤立点很敏感;此外,由于FCM算法倾向于将各数据簇均等分,因此算法对数据簇大小也很敏感,对非平衡数据簇聚类效果不佳.针对这些问题,本文提出了基于可靠性的鲁棒模糊聚类算法(RRFCM).该算法基于当前的聚类结果,对样本点进行可靠性分析,利用样本点的可靠性和局部近邻信息,突出不同数据簇之间的可分性,从而提高了算法对噪声的鲁棒性,并且降低了对非平衡数据簇大小的敏感性,得到了泛化性能更好的聚类结果.与相关算法进行对比,RRFCM算法在人造数据集,UCI真实数据集以及图像分割实验中均取得最优的结果.  相似文献   

8.
为解决传统的模糊C-均值(FCM)算法容易陷入局部最优解的问题,该文提出了一种基于平滑技术改进的FCM算法,考虑到处于不同位置的样本点对分类的影响程度不同及聚类个数对聚类结果有很大影响,新算法结合了点密度及最佳聚类数确定方法,最后用有效性评价函数评估算法的有效性。实验证明,新方法聚类效果更好。以帕金森疾病为例对新方法在医学中的应用进行了探讨。  相似文献   

9.
张松兰  田丽 《测控技术》2016,35(12):123-126
为解决神经网络训练需要大量的样本,且容易陷入局部最优,收敛速度慢等缺点,采用改进模糊聚类(IFC)和支持向量机(SVM)相结合的模拟电路故障诊断方法.利用小波分解技术提取待诊断电路的测试信息作为故障特征,在模糊聚类算法中为消除孤立点和噪声的影响,对不同样本点引入权值以提高聚类效果,结合改进的模糊聚类算法进一步降低故障特征的维数,将其作为支持向量机的输入量,进行模型训练并预测模拟电路的故障.仿真结果表明,此方法应用于电路故障诊断有效削减计算复杂度并提高了诊断精度.  相似文献   

10.
为了更好地解决密度不均衡问题与刻画高维数据相似性度量问题,提出一种基于共享[k]-近邻与共享逆近邻的密度峰聚类算法。该算法计算两个点的共享[k]-近邻数与共享逆近邻数,并结合欧氏距离来确定这两个点之间的共享相似度;将样本点与其逆近邻点的共享相似度之和定义为该点的共享密度,再通过共享密度选取聚类中心。通过实验证明,该算法在人工数据集和真实数据集上的聚类结果较其他密度聚类算法更加准确,并且能更好地处理密度不均衡问题,同时也提高了高维数据的聚类精度。  相似文献   

11.
不平衡数据分析是智能制造的关键技术之一,其分类问题已成为机器学习和数据挖掘的研究热点。针对目前不平衡数据过采样策略中人工合成数据边缘化且需要降噪处理的问题,提出一种基于改进SMOTE(synthetic minority oversampling technique)和局部离群因子(local outlier factor,LOF)的过采样算法。首先对整个数据集进行[K]-means聚类,筛选出高可靠性样本进行改进SMOTE算法过采样,然后采用LOF算法删除误差大的人工合成样本。在4个UCI不平衡数据集上的实验结果表明,该方法对不平衡数据中少数类的分类能力更强,有效地克服了数据边缘化问题,将算法应用于磷酸生产中的不平衡数据,实现了该不平衡数据的准确分类。  相似文献   

12.
针对非平衡数据存在的类内不平衡、噪声、生成样本覆盖面小等问题, 提出了基于层次密度聚类的去噪自适应混合采样算法(adaptive denoising hybrid sampling algorithm based on hierarchical density clustering, ADHSBHD). 首先引入HDBSCAN聚类算法, 将少数类和多数类分别聚类, 将全局离群点和局部离群点的交集视为噪声集, 在剔除噪声样本之后对原数据集进行处理, 其次, 根据少数类样本中每簇的平均距离, 采用覆盖面更广的采样方法自适应合成新样本, 最后删除一部分多数类样本集中的对分类贡献小的点, 使数据集均衡. ADHSBHD算法在7个真实数据集上进行评估, 结果证明了其有效性.  相似文献   

13.
针对现有稀疏子空间聚类算法获取的系数矩阵不能准确反应高维空间中数据分布的稀疏性的不足,提出一种分式函数约束的稀疏子空间聚类模型,并利用交替方向迭代方法给出该模型的解。在无噪声情形下,证明了该方法获取的系数矩阵具有块对角结构,这为其准确获取数据结构提供了理论保证;在含噪声情形下,对异常点噪声同样采用分式函数约束作为正则项,提高了模型的鲁棒性。在人工数据集、Extended Yale B库和Hopkins155数据集上的实验结果表明,基于分式函数约束的稀疏子空间聚类方法不仅提高了聚类结果的准确率,而且对异常点噪声具有更好的鲁棒性。  相似文献   

14.
不平衡分类在现实生活中有着广泛应用,提高不平衡数据的分类精度一直是相关领域中的热门课题。针对已有欠采样方法容易保留多数类噪声样本的问题,提出一种基于聚类融合欠采样的改进欠采样方法。结合聚类融合与孤立森林(Isolation Forest,iForest)方法,筛选、删除异常指数高的多数类噪声样本,有效提高模型中的样本质量,增强欠采样算法的抗噪声能力。在7个UCI和KEEL不平衡数据集上的实验结果表明,该算法在处理不平衡分类问题时,AUC值和F1值均有一定程度的提升。将算法应用在蛋白质定位预测,提升了预测效果。  相似文献   

15.
随着聚类技术的发展.对不同密度的数据集的聚类需求也越来越迫切。为了解决不同密度数据集的聚类问题,提出一种基于距离和密度的多阶段聚类算法MCDD。该算法主要采用多阶段密度处理技术提取不同密度的聚类,同时使用密度因子提高聚类的精度.最后通过使用距离阈值的方法去除孤立点和噪声数据。实验表明,该算法在扩展性方面表现良好.对任意形状和大小的聚类都可以很好地处理,并能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

16.
针对SMOTE方法对所有少数类样本进行过采样的缺陷,提出一种基于特征加权与聚类融合的过采样方法(WKMeans-SMOTE),由此进行不平衡数据分类。考虑到不同特征权重对聚类结果的影响程度不同,选择特征加权的聚类算法对原始数据集进行聚类,并多次改变初始簇中心生成不同的聚类结果;根据簇标签匹配方法将不同的聚类结果进行匹配,引进“聚类一致性系数”筛选出处于少数类边界的样本;对筛选出的少数类样本进行SMOTE过采样,并采用CART决策树方法作为基分类器,对新的少数类样本与所有的多数类样本进行训练。实验结果表明,与现有的SMOTE、Borderline-SMOTE和ADASYN等过采样方法相比,所提出的WKMeans-SMOTE方法在分类性能上有一定的提升。  相似文献   

17.
由于实际问题中用户的行为模式存在多样性和不可预知性,传统异常检测方法采用提前设定正常模式或异常模式进行学习变得非常困难。针对这个问题,本文提出一种基于k-均值聚类的自适应异常检测方法,称为OD_KC方法。该方法设置不同的聚类个数对无标签的样本集进行k-均值聚类,通过构造测度函数,以衡量聚类结果的抱团性和分离性,从而获得最佳的聚类结果,同时自动得到那些被划分为很小规模的类的样本作为异常模式样本。基于k-均值的异常检测方法具有很强的自主性和自适应性,特别地,当样本分布模式复杂时,也能得到较为优秀的检测结果,具有较好的异常检测能力。实验结果表明,基于k-均值聚类的异常检测技术能够得到较好的检测结果。  相似文献   

18.
为了方便油藏数据特征的分析和石油的勘探开发过程,本文利用Spark并行计算框架分析油藏数据,并通过数据挖掘算法分析油藏属性之间的潜在关系,对油藏的不同层段进行了分类和预测.本文的主要工作包括:搭建Spark分布式集群和数据处理、分析平台,Spark是流行的大数据并行计算框架,相对传统的一些分析方法和工具,可以实现快速、准确的数据挖掘任务;根据油藏数据的特点建立多维异常检测函数,并新增渗孔比判别属性Pr;在处理不平衡数据时,针对逻辑回归分类提出交叉召回训练模型,并优化代价函数,针对决策树,提出KR-SMOTE对小类别样本进行过采样扩充,这两种方法都可以有效处理数据不平衡问题,提高分类精度.  相似文献   

19.
针对现有基于距离的离群点检测算法在处理大规模数据时效率低的问题,提出一种基于聚类和索引的分布式离群点检测(DODCI) 算法。首先利用聚类方法将大数据集划分成簇;然后在分布式环境中的各节点处并行创建各个簇的索引;最后使用两个优化策略和两条剪枝规则以循环的方式在各节点处进行离群点检测。在合成数据集和整理后的KDD CUP数据集上的实验结果显示,在数据量较大时该算法比Orca和iDOoR算法快近一个数量级。理论和实验分析表明,该算法可以有效提高大规模数据中离群点的检测效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号