共查询到17条相似文献,搜索用时 109 毫秒
1.
针对受均匀效应的影响,当前K-means型软子空间算法不能有效聚类不平衡数据的问题,提出一种基于划分的不平衡数据软子空间聚类新算法。首先,提出一种双加权方法,在赋予每个属性一个特征权重的同时,赋予每个簇反映其重要性的一个簇类权重;其次,提出一种混合型数据的新距离度量,以平衡不同类型属性及具有不同符号数目的类属型属性间的差异;第三,定义了基于双加权方法的不平衡数据子空间聚类目标优化函数,给出了优化簇类权重和特征权重的表达式。在实际应用数据集上进行了系列实验,结果表明,新算法使用的双权重方法能够为不平衡数据中的簇类学习更准确的软子空间;与现有的K-means型软子空间算法相比,所提算法提高了不平衡数据的聚类精度,在其中的生物信息学数据上可以取得近50%的提升幅度。 相似文献
2.
3.
自适应的软子空间聚类算法 总被引:6,自引:0,他引:6
软子空间聚类是高维数据分析的一种重要手段.现有算法通常需要用户事先设置一些全局的关键参数,且没有考虑子空间的优化.提出了一个新的软子空间聚类优化目标函数,在最小化子空间簇类的簇内紧凑度的同时,最大化每个簇类所在的投影子空间.通过推导得到一种新的局部特征加权方式,以此为基础提出一种自适应的k-means型软子空间聚类算法.该算法在聚类过程中根据数据集及其划分的信息,动态地计算最优的算法参数.在实际应用和合成数据集上的实验结果表明,该算法大幅度提高了聚类精度和聚类结果的稳定性. 相似文献
4.
子空间聚类是高维数据聚类的一种有效手段,子空间聚类的原理就是在最大限度地保留原始数据信息的同时用尽可能小的子空间对数据聚类。在研究了现有的子空间聚类的基础上,引入了一种新的子空间的搜索方式,它结合簇类大小和信息熵计算子空间维的权重,进一步用子空间的特征向量计算簇类的相似度。该算法采用类似层次聚类中凝聚层次聚类的思想进行聚类,克服了单用信息熵或传统相似度的缺点。通过在Zoo、Votes、Soybean三个典型分类型数据集上进行测试发现:与其他算法相比,该算法不仅提高了聚类精度,而且具有很高的稳定性。 相似文献
5.
6.
针对分类任务中的不平衡数据集造成的分类性能低下的问题,提出了类不平衡数据的EM聚类过采样算法,通过过采样提高少数类样本数量,从根本上解决数据不平衡问题。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的中心点作为过采样点,一定程度解决了样本的重要程度不够的问题;其次,通过直接在少数类样本空间上进行采样,可较好解决SMOTE、Cluster-SMOTE等方法对聚类空间没有针对性的问题;同时,通过对少数类样本数量的30%进行过采样,有效解决基于Cluster聚类的欠采样盲目追求两类样本数量平衡和SMOTE等算法没有明确采样率的问题。在公开的24个类不平衡数据集上进行了实验,验证了方法的有效性。 相似文献
7.
8.
障碍空间中不确定数据聚类算法 总被引:2,自引:0,他引:2
近些年,由于数据采集的不精确和数据本身的不确定性,使不确定性在位置数据中普通存在。在障碍空间中,聚类不确定数据面临新的挑战。提出了障碍空间中聚类不确定数据的OBS-UK-means(obstacle uncertain K-means)算法,并提出了分别基于R树和Voronoi图的两种剪枝策略和最近距离区域的概念,大大减少了计算量。通过实验验证了OBS-UK-means算法的高效性和准确性,同时证明了剪枝策略在不损害聚类有效性的情况下,能够有效地提高聚类效率。 相似文献
9.
10.
不平衡数据集类别分布严重倾斜,传统的聚类算法由于以提高整体学习性能为目标,往往偏向于聚集多数类,而忽视更有价值的稀有类.本文提出一种基于迭代的特征加权聚类算法,根据当前聚类后簇的特点以及特征重要性度量函数确定特征权值,利用所得权值进行下一轮聚类,直到权值稳定后结束迭代.在多个UCI不平衡数据集上的实验效果表明,本文算法能够较好地识别出重要特征并提高它们的权重,避免聚类算法过度偏向多数类,有效地提高了聚类性能. 相似文献
11.
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果. 相似文献
12.
13.
软子空间聚类是聚类研究领域的一个重要分支和研究热点。高维空间聚类以数据分布稀疏和"维度效应"现象等问题而成为难点。在分析现有软子空间聚类算法不足的基础上,引入子空间差异的概念;在此基础上,结合簇内紧凑度的信息来设计新的目标优化函数;提出了一种新的k-means型软子空间聚类算法,该算法在聚类过程中无需设置额外的参数。理论分析与实验结果表明,相对于其他的软子空间算法,该算法具有更好的聚类精度。 相似文献
14.
现有的类属型数据子空间聚类方法大多基于特征间相互独立假设,未考虑属性间存在的线性或非线性相关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量.其次,基于该度量推导了类属型数据核子空间聚类目标函数,并提出一种高效求解该目标函数的优化方法.最后,定义了一种类属型数据核子空间聚类算法.该算法不仅在非线性空间中考虑了属性间的关系,而且在聚类过程中赋予每个属性衡量其与簇类相关程度的特征权重,实现了类属型属性的嵌入式特征选择.还定义了一个聚类有效性指标,以评价类属型数据聚类结果的质量.在合成数据和实际数据集上的实验结果表明,与现有子空间聚类算法相比,核子空间聚类算法可以发掘类属型属性间的非线性关系,并有效提高了聚类结果的质量. 相似文献
15.
16.
针对软子空间聚类算法搜寻聚类中心点容易陷入局部最优的缺点,提出在软子空间聚类框架下,结合量子行为粒子群优化(QPSO)和梯度下降法优化软子空间聚类目标函数的模糊聚类算法.根据QPSO全局寻优的特点,求解子空间中全局最优中心点,利用梯度下降法收敛速度快的特点,求解样本点的模糊权重和隶属度矩阵,最终获取样本点的最优聚类结果.在UCI数据集上的实验表明,文中算法可提高聚类精度和聚类结果的稳定性. 相似文献
17.
现有的软子空间聚类算法在分割MR图像时易受随机噪声的影响,而且算法因依赖于初始聚类中心的选择而容易陷入局部最优,导致分割效果不理想.针对这一问题,提出一种基于烟花算法的软子空间MR图像聚类算法.算法首先设计一个结合界约束与噪声聚类的目标函数,弥补现有算法对噪声数据敏感的缺陷,并提出一种隶属度计算方法,快速、准确地寻找簇类所在子空间;然后,在聚类过程中引入自适应烟花算法,有效地平衡局部与全局搜索,弥补现有算法容易陷入局部最优的不足.EWKM,FWKM,FSC,LAC算法在UCI数据集、人工合成图像、Berkeley图像数据集以及临床乳腺MR图像、脑部MR图像上的聚类结果表明,所提出的算法不仅在UCI数据集上能够取得较好的结果,而且对图像聚类也具有较好的抗噪性能,尤其是对MR图像的聚类具有较高的精度和鲁棒性,能够较为有效地实现MR图像的分割. 相似文献