首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 23 毫秒
1.
李森  刘希玉 《计算机应用研究》2012,29(11):4093-4096
针对高维数据的聚类问题,提出一种基于间隔Fisher分析(MFA)的半监督聚类算法。该算法首先使用已标记样本进行MFA映射,得到投影矩阵W后,再利用求得的投影方法对未标记样本进行降维;然后在低维空间引入基于约束的球形K-means(PCSKM)算法对降维后的数据进行半监督聚类,根据第一次的聚类结果,交替进行降维与聚类操作,直到算法收敛为止。该算法利用监督信息有效地集成了数据降维和半监督聚类。实验结果表明,该方法能够有效处理高维数据,同时能提高聚类性能。  相似文献   

2.
基于成对约束的判别型半监督聚类分析   总被引:10,自引:1,他引:9  
尹学松  胡恩良  陈松灿 《软件学报》2008,19(11):2791-2802
现有一些典型的半监督聚类方法一方面难以有效地解决成对约束的违反问题,另一方面未能同时处理高维数据.通过提出一种基于成对约束的判别型半监督聚类分析方法来同时解决上述问题.该方法有效地利用了监督信息集成数据降维和聚类,即在投影空间中使用基于成对约束的K均值算法对数据聚类,再利用聚类结果选择投影空间.同时,该算法降低了基于约束的半监督聚类算法的计算复杂度,并解决了聚类过程中成对约束的违反问题.在一组真实数据集上的实验结果表明,与现有相关半监督聚类算法相比,新方法不仅能够处理高维数据,还有效地提高了聚类性能.  相似文献   

3.
崔鹏  张汝波 《计算机科学》2010,37(7):205-207
半监督聚类是近年来研究的热点,传统的方法是在无监督算法的基础上加入有限的背景知识来提高聚类性能.然而大多数半监督聚类技术都基于邻近或密度,难以处理高维数据,因此必须将约减的特征加入到半监督聚类过程中.为解决此问题,提出了一种新的半监督聚类算法框架.该算法利用样本约束传递性进行预处理,然后将特征投影到低维空间实现降维,最终用半监督算法对约减后的样本进行聚类.通过实验同现行主要降维方法进行了比较,说明此方法能有效地处理高维数据,聚类效果良好.  相似文献   

4.
针对现有的聚类集成算法大都是无监督聚类集成算法且不能很好地处理高维数据的问题,设计一种基于PCA降维技术的成对约束半监督聚类集成算法(SSCEDR)。SSCEDR方法使用PCA主成分分析对原始数据进行降维,结合半监督聚类集成技术,在降维后的空间中将成对约束等先验知识代入到聚类集成过程中。本文通过在多组数据集上实验来验证算法的有效性。  相似文献   

5.
现实世界中高维数据无处不在,然而在高维数据中往往存在大量的冗余和噪声信息,这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能.实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中.因而,降维成为挖掘高维数据类簇结构的关键技术.在众多降维方法中,基于图的降维方法是研究的热点.然而,大部分基于图的降维算法存在以下两个问题:(1)需要计算或者学习邻接图,计算复杂度高;(2)降维的过程中没有考虑降维后的用途.针对这两个问题,提出一种基于极大熵的快速无监督降维算法MEDR. MEDR算法融合线性投影和极大熵聚类模型,通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图,具有样本个数的线性时间复杂度.在真实数据集上的实验结果表明,与传统的降维方法相比, MEDR算法能够找到更好地将高维数据投影到低维子空间的投影矩阵,使投影后的数据有利于聚类.  相似文献   

6.
周丽娜  吕萌 《计算机应用》2011,31(2):416-419
脑磁信号(MEG)作为一种新的脑机接口(BCI)输入信号,含有手运动方向的模式信息。鉴于半监督聚类融合了训练数据先验知识的优势,提出一种基于训练中心的半监督模糊聚类算法。该算法分为降维和改进的半监督聚类,采用主成分分析和线性判别分析将高维数据降到低维,改进的半监督聚类在对训练数据进行模糊聚类的基础上,将得到的聚类中心加权到测试数据聚类过程中,以增加测试数据聚类中心的鲁棒性。结果表明,该算法识别率较高,平均识别率达到了55.1%,优于BCI竞赛Ⅳ的最好结果46.9%。  相似文献   

7.
半监督维数约简是指借助于辅助信息与大量无标记样本信息从高维数据空间找到一个最优低维判别空间,便于后续的分类或聚类操作,它被看作是理解基因序列、文本与人脸图像等高维数据的有效方法。提出一个基于成对约束的半监督维数约简一般框架(SSPC)。该方法首先通过使用成对约束和无标号样本的内在几何结构学习一个判别邻接矩阵;其次,新方法应用学到的投影将原来高维空间中的数据映射到低维空间中,以至于聚类内的样本之间距离变得更加紧凑,而不同聚类间的样本之间距离变得尽可能得远。所提出的算法不仅能找到一个最佳的线性判别子空间,还可以揭示流形数据的非线性结构。在一些真实数据集上的实验结果表明,新方法的性能优于当前主流基于成对约束的维数约简算法的性能。  相似文献   

8.
一种面向高维符号数据的随机投影聚类算法   总被引:1,自引:0,他引:1  
现实数据往往分布在高维空间中,从整个向量空间来看,这些数据间的联系非常分散,因此如何降低维数实现高维数据的聚类受到众多研究者的普遍关注.介绍了一种适用于符号型高维数据的随机投影聚类算法.其根据频率选择与聚类相关的维向量,随机产生并根据投影聚类效果择优选择聚类中心及相关维向量,将投影聚类算法扩展至符号数据空间.实验结果证实了这种算法的实用性与有效性.  相似文献   

9.
聚类分析是数据挖掘中的一个重要研究课题。在许多实际应用中,聚类分析的数据往往具有很高的维度,例如文档数据、基因微阵列等数据可以达到上千维,而在高维数据空间中,数据的分布较为稀疏。受这些因素的影响,许多对低维数据有效的经典聚类算法对高维数据聚类常常失效。针对这类问题,本文提出了一种基于遗传算法的高维数据聚类新方法。该方法利用遗传算法的全局搜索能力对特征空间进行搜索,以找出有效的聚类特征子空间。同时,为了考察特征维在子空间聚类中的特征,本文设计出一种基于特征维对子空间聚类贡献率的适应度函数。人工数据、真实数据的实验结果以及与k-means算法的对比实验证明了该方法的可行性和有效性。  相似文献   

10.
黄李国  王士同 《计算机工程》2007,33(18):233-235
高维数据的聚类都隐含在低维的子空间内。为找出有效的子空间,Agrawal等人提出了投影聚类概念,通过映射变换转换到子空间里,然后借助其他方法找到聚类。该文基于目前最新的投影聚类算法EPCH,提出了PCMF算法,借助Mean-Shift划分子空间聚类。与EPCH算法相比,PCMF在划分子空间中数据时,无须输入参数(EPCH中是最大聚类个数),能够有效降低划分出的子空间数量,获得与EPCH相媲美的实验结果。  相似文献   

11.
Most existing semi-supervised clustering algorithms are not designed for handling high-dimensional data. On the other hand, semi-supervised dimensionality reduction methods may not necessarily improve the clustering performance, due to the fact that the inherent relationship between subspace selection and clustering is ignored. In order to mitigate the above problems, we present a semi-supervised clustering algorithm using adaptive distance metric learning (SCADM) which performs semi-supervised clustering and distance metric learning simultaneously. SCADM applies the clustering results to learn a distance metric and then projects the data onto a low-dimensional space where the separability of the data is maximized. Experimental results on real-world data sets show that the proposed method can effectively deal with high-dimensional data and provides an appealing clustering performance.  相似文献   

12.
王亮  王士同 《计算机工程》2012,38(1):148-150
针对样本间的不均衡性,提出一种基于成对约束的动态加权半监督模糊核聚类算法。在传统模糊聚类算法中加入半监督学习机制,通过Mercer核将原数据空间映射到特征空间,为特征空间中的每个向量分配一个动态权值,由此得到新的目标函数,并结合一种简单的核参数选择方法实现数据分类。理论分析和实验结果表明,与模糊核聚类算法及成对约束的竞争群算法相比,该算法具有更好的聚类效果。  相似文献   

13.
随着信息技术的飞速发展和大数据时代的来临,数据呈现出高维性、非线性等复杂特征。对于高维数据来说,在全维空间上往往很难找到反映分布模式的特征区域,而大多数传统聚类算法仅对低维数据具有良好的扩展性。因此,传统聚类算法在处理高维数据的时候,产生的聚类结果可能无法满足现阶段的需求。而子空间聚类算法搜索存在于高维数据子空间中的簇,将数据的原始特征空间分为不同的特征子集,减少不相关特征的影响,保留原数据中的主要特征。通过子空间聚类方法可以发现高维数据中不易展现的信息,并通过可视化技术展现数据属性和维度的内在结构,为高维数据可视分析提供了有效手段。总结了近年来基于子空间聚类的高维数据可视分析方法研究进展,从基于特征选择、基于子空间探索、基于子空间聚类的3种不同方法进行阐述,并对其交互分析方法和应用进行分析,同时对高维数据可视分析方法的未来发展趋势进行了展望。  相似文献   

14.
Clustering in high-dimensional spaces is a difficult problem which is recurrent in many domains, for example in image analysis. The difficulty is due to the fact that high-dimensional data usually exist in different low-dimensional subspaces hidden in the original space. A family of Gaussian mixture models designed for high-dimensional data which combine the ideas of subspace clustering and parsimonious modeling are presented. These models give rise to a clustering method based on the expectation-maximization algorithm which is called high-dimensional data clustering (HDDC). In order to correctly fit the data, HDDC estimates the specific subspace and the intrinsic dimension of each group. Experiments on artificial and real data sets show that HDDC outperforms existing methods for clustering high-dimensional data.  相似文献   

15.
现有的深度聚类算法大多采用对称的自编码器来提取高维数据的低维特征,但随着自编码器训练次数的不断增加,数据的低维特征空间在一定程度上发生了扭曲,这样得到的数据低维特征空间无法反映原始数据空间中潜在的聚类结构信息.为了解决上述问题,本文提出了一种新的深度嵌入K-means算法(SDEKC).首先,在低维特征提取阶段,在对称的卷积自编码器中相对应的编码器与解码器之间以一定的权重加入两个跳跃连接,以减弱解码器对编码器的编码要求同时突出卷积自编码器的编码能力,这样可以更好地保留原始数据空间中蕴含的聚类结构信息;其次,在聚类阶段,通过一个标准正交变换矩阵将低维数据空间转换为一个新的揭示聚类结构信息的空间;最后,本文以端到端的方式采用贪婪算法迭代优化数据的低维表示及其聚类,在6个真实数据集上验证了本文提出新算法的有效性.  相似文献   

16.
为使局部线性嵌入(local linear embedding, LLE)这一无监督高维数据的非线性特征提取方法提取出的特征在分类或聚类学习上更优,提出一种半监督类保持局部线性嵌入(semi-supervised class preserving local linear embedding, SSCLLE)的非线性特征提取方法。该方法将半监督信息融入到LLE中,首先对标记样本近邻赋予伪标签,增大标记样本数量。其次,对标记样本之间的距离进行局部调整,缩小同类样本间距,扩大异类样本间距。同时在局部线性嵌入优化目标函数中增加全局同类样本间距和异类样本间距的约束项,使得提取出的低维特征可以确保同类样本点互相靠近,而异类样本点彼此分离。在一系列实验中,其聚类精确度以及可视化效果明显高于无监督LLE和现有半监督流特征提取方法,表明该方法提取出的特征具有很好的类保持特性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号