首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
基于特征加权理论的数据聚类算法   总被引:1,自引:0,他引:1  
针对数据挖掘过程中数据聚类操作的初始聚类数目和初始聚类中心确定困难的问题,提出了一种软子空间结合竞争合并机制的模糊加权聚类算法.通过对软子空间聚类算法的目标函数进行改写,并结合数据簇势的大小对各数据簇进行竞争与合并操作,实现了对数据的聚类处理.结果表明,该算法能够准确地对数据样本进行聚类,并且聚类结果与初始数据簇数目和初始聚类中心无关,能够满足对高维数据聚类处理的需要,具有较好的实际应用价值.  相似文献   

2.
针对两阶段判别嵌入式聚类算法无法有效地反映数据的真实结构问题,提出一种两阶段判别嵌入模糊聚类算法。首先利用模糊C-均值算法对数据进行初始聚类,得到数据的初始隶属度矩阵,然后通过奇异值分解和求解最大散度差对数据降维处理,最后在低维子空间中对降维后的数据再次进行模糊C-均值聚类。通过对初始数据和降维后的数据进行模糊聚类提高算法的准确度。对比实验结果表明,该算法可获取最优聚类精度,并能更有效地反映数据的真实结构。  相似文献   

3.
对K-Harmonic Means算法进行扩展,考虑到数据点对不同类的隶属关系,将模糊的概念应用到聚类中,提出了模糊K-Harmonic Means算法,推导出聚类中心和模糊隶属度的迭代公式.在中心迭代聚类算法统一框架的基础上,推导出FKHM算法聚类中心的条件概率表达式以及在迭代过程中的数据加权函数表达式.最后,用Folkes & Mallows指标对聚类结果进行评价.实验表明,模糊K-Harmonic Means(KHM)算法在聚类对于初值不敏感的同时提高了聚类结果的精确度,达到较好的聚类效果.  相似文献   

4.
针对传统聚类算法难以处理大规模数据和对噪声数据敏感等问题,基于模糊C有序均值聚类算法(FCOM),结合single-pass和online增量架构,分别提出了single-pass模糊C有序均值聚类算法(SPFCOM)和online模糊C有序均值聚类算法(OFCOM).SPFCOM和OFCOM算法首先对FCOM算法加权,然后以数据块为单位对数据集合进行增量式处理.实验结果表明,相较于对比算法,SPFCOM和OFCOM算法在聚类准确率方面得到了提高,还具有更强的鲁棒性.  相似文献   

5.
针对模糊C-均值聚类算法对聚类数预先不可知和谱系聚类所具有的缺陷,提出了混合模糊谱系聚类算法,该算法结合模糊聚类和谱系聚类,自动确定聚类数目,并可以有效的对数据进行聚类.实验表明,该算法具有良好的有效性和可行性.  相似文献   

6.
采用属性聚类的高维子空间聚类算法   总被引:4,自引:1,他引:3  
为了解决现有子空间聚类算法时间复杂度偏高以及对输入参数敏感的问题,提出了一种基于属性聚类方法的高效子空间聚类算法.算法首先通过计算每个属性的基尼值来过滤冗余属性,而后通过基于二维联合基尼值的关系函数建立非冗余属性的关系矩阵,以衡量任意两个非冗余属性的相关度, 进而在关系矩阵上应用可产生交叠的聚类算法,聚类结果即为所有兴趣度子空间的候选集合,最后调用聚类算法得到所有存在于这些子空间内的簇.在人工数据集和真实数据集上的实验表明,新算法不仅在时间复杂度和子空间簇的寻找能力方面均有较优表现,而且对输入参数的取值不甚敏感.  相似文献   

7.
针对无线传感网(WSN)数据融合中基于模糊逻辑的加权融合算法融合结果误差偏大的问题,提出了一种基于K-均值聚类的改进的模糊逻辑加权融合算法.首先运用K-均值聚类的思想分析收集到的原始误差数据,去除算法认为不可靠的数据,用余下的有效数据对修正模糊逻辑算法求得加权因子,并与节点测量数据加权平均求值,得到最终融合值.实验证明:通过与其它同类的加权融合算法比较,该改进算法的融合精度更高,效果更好.  相似文献   

8.
提出了一个基于密度和网格的子空间聚类算法.该算法运用启发式的密度连通思想来确定一维空间初始簇的生成,使用自底向上的搜索策略来发现存在子空间中的簇.实验结果表明,在处理高维数据时,在不牺牲算法的其他性能的同时提高了聚类的有效性,降低了对输入数据顺序及噪音数据的敏感性.  相似文献   

9.
用L1范数和L2范数的加权组合取代基于闵氏距离的软子空间(Minkowski metric based soft subspace,MSC)聚类算法目标函数中所用的Lp范数,导出一个新的MSC的聚类中心计算公式,从而得出一种改进的MSC聚类算法。改进算法使MSC的计算复杂度由O(n2 mc)降为O(nmc)(这里n是数据个数,m为数据维数,c是聚类数)。在Iris,breastcancer,Vehicle,User和Wine 5个真实数据上的对比性实验结果显示,改进MSC算法的聚类精度与原MSC的聚类精度相当,但改进算法的运行时间是原MSC运行时间的1/7到1/2。  相似文献   

10.
加权空间函数优化FCM的SAR图像分割   总被引:2,自引:0,他引:2  
传统模糊c-均值聚类算法没有考虑图像像素空间信息特征,在应用于合成孔径雷达图像分割时,由于合成孔径雷达图像中斑点噪声的影响,通常不能得到正确的分割结果.基于此问题提出加权空间隶属度和加权空间函数并应用于c-均值聚类算法,加权空间隶属度是多尺度条件下空间各相邻像素的位置和强度信息的加权隶属度值,加权空间函数中各加权空间隶属度的影响系数由自适应遗传算法优化,最终的隶属度值由加权空间函数修正.由于在这种聚类过程中融入了优化的空间信息,因此弱化了斑点噪声的影响,提高了分割精度.这种算法应用于实际合成孔径雷达图像分割实验,结果表明此算法对初始分类结果不敏感,具有较强的抗噪性能,改善了SAR图像的分割结果.  相似文献   

11.
基于主成分分析的密度聚类算法   总被引:1,自引:0,他引:1  
密度聚类算法可以描述任意形状的聚类,可以有效地处理异常数据,适合处理大数据集,但不适用于高维数据集的聚类,因此提出了基于主成分分析的密度聚类算法,将DBSCAN算法应用于PCA的k个主成分张成的子空间,解决了DBSCAN算法用于高维数据集的问题.运用气象数据进行实验,结果表明:主成分个数k值的选择严重影响聚类效果,故提出k的基本选择方法,正确选择k值情况下,该算法具有较好的聚类效果.  相似文献   

12.
High dimensional data clustering, with the inherent sparsity of data and the existence of noise, is a serious challenge for clustering algorithms. A new linear manifold clustering method was proposed to address this problem. The basic idea was to search the line manifold clusters hidden in datasets, and then fuse some of the line manifold clusters to construct higher dimensional manifold clusters. The orthogonal distance and the tangent distance were considered together as the linear manifold distance metrics. Spatial neighbor information was fully utilized to construct the original line manifold and optimize line manifolds during the line manifold cluster searching procedure. The results obtained from experiments over real and synthetic data sets demonstrate the superiority of the proposed method over some competing clustering methods in terms of accuracy and computation time. The proposed method is able to obtain high clustering accuracy for various data sets with different sizes, manifold dimensions and noise ratios, which confirms the anti-noise capability and high clustering accuracy of the proposed method for high dimensional data.  相似文献   

13.
多视图子空间聚类是处理高维数据的一种聚类方法,通过分别在每个视图上构造邻接矩阵的方法解决聚类问题,但未考虑到低秩表示和稀疏约束的结合在构造邻接矩阵中的重要性. 针对此问题,提出一种联合低秩表示和稀疏约束的双层多视角子空间聚类方法,使其更全面地描述数据本身,从而实现更有效的聚类,并采用ADMM方法来解决每个视图相关的低秩表示和稀疏性约束优化问题. 在多个数据集上的实验表明,其聚类性能比现有的多视角子空间聚类算法好,低秩表示和稀疏约束的结合可以提高聚类的准确性.  相似文献   

14.
为了解决现有子空间聚类算法时间复杂度偏高和对输入参数敏感的问题,提出了一种基于联合熵矩阵的子空间聚类算法. 通过计算每个属性实例分布的熵降维,计算任意两个维度的联合熵,形成联合熵矩阵,在联合熵矩阵中搜索最高阶全1子矩阵作为兴趣子空间,最后在兴趣子空间完成聚类. 在人工数据集和公开数据集上的实验表明,与传统子空间聚类算法相比,新算法能以较低的开销识别维度更高的兴趣度子空间.  相似文献   

15.
An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV), was proposed for the high dimensional clustering of binary sparse data, This algorithm compresses the data effectively by using a tool ‘Sparse Feature Vector‘, thus reduces the data scale enormously, and can get the clustering result with only one data scan, Both theoretical analysis and empirical tests showed that CABOSFV is of low computational complexity. The algorithm finds clusters in high dimensional large datasets efficiently and handles noise effectively.  相似文献   

16.
基于模糊聚类的高维划分策略研究   总被引:1,自引:0,他引:1  
数据集的划分策略是影响高维数据库索引性能的一个关键因素。金字塔技术是一种较好的高维索引方法,但它只对均匀分布的数据集具有良好的性能。为此,提出了一种改进的基于模糊聚类的金字塔技术,并将其用于高维划分策略,先对数据集进行模糊聚类处理,然后针对每个聚类进行金字塔划分,从而较好地实现了对非均匀分布数据的高维划分。  相似文献   

17.
提出一种基于分布式哈希表(DHT)的分布式子空间聚类(DISCLUS)算法,该算法对各结点存储的数据分别进行子空间聚类,对聚类结果进行合并,得到分布式系统的聚类结果.针对子空间聚类的特点,提出结果集缩减和结果集剪枝策略对结点间通讯进行优化.为实现结点聚类结果合并,提出分布式表决算法(DDV).该算法利用底层覆盖网的拓扑结构进行层次化表决信息收集,在动态网络环境中实现了对所有结点的无冗余覆盖.理论分析和实验表明,DISCLUS算法的聚类误差和通讯性能能够较好地适应系统数据集规模、网络规模和数据空间维度的增加.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号