首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 269 毫秒
1.
朱林  雷景生  毕忠勤  杨杰 《软件学报》2013,24(11):2610-2627
针对高维数据的聚类研究表明,样本在不同数据簇往往与某些特定的数据特征子集相对应.因此,子空间聚类技术越来越受到关注.然而,现有的软子空间聚类算法都是基于批处理技术的聚类算法,不能很好地应用于高维数据流或大规模数据的聚类研究中.为此,利用模糊可扩展聚类框架,与熵加权软子空间聚类算法相结合,提出了一种有效的熵加权流数据软子空间聚类算法——EWSSC(entropy-weighting streaming subspace clustering).该算法不仅保留了传统软子空间聚类算法的特性,而且利用了模糊可扩展聚类策略,将软子空间聚类算法应用于流数据的聚类分析中.实验结果表明,EWSSC 算法对于高维数据流可以得到与批处理软子空间聚类方法近似一致的实验结果.  相似文献   

2.
降维是处理高维数据的一项关键技术,其中线性判别分析及其变体算法均为有效的监督算法。然而大多数判别分析算法存在以下缺点:a)无法选择更具判别性的特征;b)忽略原始空间中噪声和冗余特征的干扰;c)更新邻接图的计算复杂度高。为了克服以上缺点,提出了基于子空间学习的快速自适应局部比值和判别分析算法。首先,提出了统一比值和准则及子空间学习的模型,以在子空间中探索数据的潜在结构,选择出更具判别信息的特征,避免受原始空间中噪声的影响;其次,采用基于锚点的策略构造邻接图来表征数据的局部结构,加速邻接图学习;然后,引入香农熵正则化,以避免平凡解;最后,在多个数据集上进行了对比实验,验证了算法的有效性。  相似文献   

3.
基于判别分析的半监督聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
与无监督聚类相比,半监督聚类是利用一部分先验信息来更好地挖掘和理解数据的内在结构,并紧密遵从用户的偏好。现有的典型半监督聚类算法仅仅适合于低维数据,文中提出一种新颖的基于判别分析的半监督聚类算法来解决高维数据聚类问题。新算法首先使用主成分分析来投影高维数据,进一步在投影空间中,使用基于球形K均值聚类算法对数据聚类;然后利用聚类结果,使用线性判别分析降维输入空间数据;最后在投影空间中对数据再次聚类。在一组真实数据集上的实验表明,所提出的算法不仅可以有效地处理高维数据,还提高了聚类性能。  相似文献   

4.
正交保持投影(ONPP)是经典的图嵌入降维技术,已经成功地应用到人脸识别中,其保持了高维数据的局部性和整体几何结构。监督的ONPP通过建立同类邻接图来最小化同类局部重构误差,寻找最优的低维嵌入,但是其只使用了类内信息,这会导致异类数据点间的结构不够明显。因此,提出了基于双邻接图的正交近邻保持投影(DAG-ONPP)算法。通过建立同类邻接图与异类邻接图,在数据嵌入低维空间后同类近邻重构误差尽量小,异类近邻重构误差更加明显。在ORL,Yale,YaleB和PIE人脸库上的实验结果表明,与其他经典算法相比,所提方法有效提高了分类能力。  相似文献   

5.
随着信息技术的飞速发展和大数据时代的来临,数据呈现出高维性、非线性等复杂特征。对于高维数据来说,在全维空间上往往很难找到反映分布模式的特征区域,而大多数传统聚类算法仅对低维数据具有良好的扩展性。因此,传统聚类算法在处理高维数据的时候,产生的聚类结果可能无法满足现阶段的需求。而子空间聚类算法搜索存在于高维数据子空间中的簇,将数据的原始特征空间分为不同的特征子集,减少不相关特征的影响,保留原数据中的主要特征。通过子空间聚类方法可以发现高维数据中不易展现的信息,并通过可视化技术展现数据属性和维度的内在结构,为高维数据可视分析提供了有效手段。总结了近年来基于子空间聚类的高维数据可视分析方法研究进展,从基于特征选择、基于子空间探索、基于子空间聚类的3种不同方法进行阐述,并对其交互分析方法和应用进行分析,同时对高维数据可视分析方法的未来发展趋势进行了展望。  相似文献   

6.
高茂庭  陆鹏 《计算机应用》2008,28(6):1411-1413
利用遗传算法优化投影方向,投影寻踪模型将高维的文本特征数据投影到2~3维的低维可视化空间上,并根据高维数据在这个低维空间当中的投影特征值来反映其线性和非线性结构或特征,达到数据降维目的并实现文本数据特征可视化。不仅大大约简了文本挖掘过程的计算复杂性,还有助于在K-means聚类算法中确定初始中心点数目,提高算法精度。实验验证了这种方法应用于文本特征降维的有效性。  相似文献   

7.
为了更加准确地对图像进行聚类与分类,提出一种基于局部样条嵌入的正交半监督子空间学习算法.通过学习一个正交投影矩阵,使得训练样本中的标注数据经过投影矩阵降维后类间离散度尽量大,类内离散度尽量小;采用局部样条回归将局部低维嵌入坐标映射成全局低维嵌入坐标,使得被投影数据保持原有流形结构,并有效地利用有标注训练样本和未标注训练样本得到优化的图像表达方式.图像聚类与分类实验的结果表明了文中算法的有效性.  相似文献   

8.
谱嵌入聚类(SEC)算法要求样本满足流形假设,样本标签总是可以嵌入到一个线性空间中去,这为线性可分数据的谱嵌入聚类问题提供了新的思路,但该算法使用的线性映射函数不适用于处理高维非线性数据。针对这一问题,通过核化线性映射函数,建立了基于核函数的谱嵌入聚类(KSEC)模型,该模型既能解决线性映射函数不能处理非线性数据的问题,又实现了对高维数据的核降维。在真实数据集上的实验分析结果表明,使用所提算法后聚类正确率平均提高了13.11%,最高可提高31.62%,特别在高维数据上平均提高了16.53%,而且在算法关于参数的敏感度实验中发现算法的稳定性更好。所以改进后的算法对高维非线性数据具有很好的聚类效果,获得了比传统谱嵌入聚类算法更高的聚类准确率和更好的聚类性能。所提方法可以用于诸如遥感影像这类复杂图像的处理领域。  相似文献   

9.
子空间学习是特征提取领域中的一个重要研究方向,其通过一种线性或非线性的变换将原始数据映射到低维子空间中,并在该子空间中尽可能地保留原始数据的几何结构和有用信息.子空间学习的性能提升主要取决于相似性关系的衡量方式和特征嵌入的图构建手段.文中针对子空间学习中的相似性度量与图构建两大问题进行研究,提出了一种基于核保持嵌入的子空间学习算法(Kernel-preserving Embedding based Subspace Learning,KESL),该算法通过自表示技术自适应地学习数据间的相似性信息和基于核保持的构图.首先针对传统降维方法无法挖掘高维非线性数据的内部结构问题,引入核函数并最小化样本的重构误差来约束最优的表示系数,以期挖掘出有利于分类的数据结构关系.然后,针对现有基于图的子空间学习方法大都只考虑类内样本相似性信息的问题,利用学习到的相似性矩阵分别构建类内和类间图,使得在投影子空间中同类样本的核保持关系得到加强,不同类样本间的核保持关系被进一步抑制.最后,通过核保持矩阵与图嵌入的联合优化,动态地求解出最优表示下的子空间投影.在多个数据集上的实验结果表明,所提算法在分类任务中的性能优于主流的子空间学习算法.  相似文献   

10.
引入人工免疫(AI)系统原理用于解决投影寻踪(PP)降维问题,利用免疫克隆选择算法优化投影方向,将高维的特征数据投影到低维空间上,从而降低了数据挖掘过程中的计算复杂度,实现了数据的约减;并用K-Means等聚类算法分别对初始数据和降维后的数据进行聚类对比。实验结果验证了人工免疫投影寻踪降维(AI-PPC)算法的有效性。  相似文献   

11.
针对密度峰值快速聚类(CFSFDP)算法对不同数据集聚类效果的差异,利用谱聚类对密度峰值快速聚类算法加以改进,提出了一种基于谱分析的密度峰值快速聚类算法CFSFDP-SA。首先,将高维非线性的数据集映射到低维子空间上实现降维处理,将聚类问题转化为图的最优划分问题以增强算法对数据全局结构的适应性;然后,利用CFSFDP算法对处理后的数据集进行聚类。结合这两种聚类算法各自的优势,能进一步提升聚类算法的性能。在5个人工合成数据集(2个线性数据集和3个非线性数据集)与4个UCI数据库中真实数据集上的聚类结果显示,相比CFSFDP算法,CFSFDP-SA算法的聚类精度有一定提升,在高维数据集的聚类精度上最多提高了14%,对原始数据集的适应性更强。  相似文献   

12.
Clustering in high-dimensional spaces is a difficult problem which is recurrent in many domains, for example in image analysis. The difficulty is due to the fact that high-dimensional data usually exist in different low-dimensional subspaces hidden in the original space. A family of Gaussian mixture models designed for high-dimensional data which combine the ideas of subspace clustering and parsimonious modeling are presented. These models give rise to a clustering method based on the expectation-maximization algorithm which is called high-dimensional data clustering (HDDC). In order to correctly fit the data, HDDC estimates the specific subspace and the intrinsic dimension of each group. Experiments on artificial and real data sets show that HDDC outperforms existing methods for clustering high-dimensional data.  相似文献   

13.
基于成对约束的判别型半监督聚类分析   总被引:10,自引:1,他引:9  
尹学松  胡恩良  陈松灿 《软件学报》2008,19(11):2791-2802
现有一些典型的半监督聚类方法一方面难以有效地解决成对约束的违反问题,另一方面未能同时处理高维数据.通过提出一种基于成对约束的判别型半监督聚类分析方法来同时解决上述问题.该方法有效地利用了监督信息集成数据降维和聚类,即在投影空间中使用基于成对约束的K均值算法对数据聚类,再利用聚类结果选择投影空间.同时,该算法降低了基于约束的半监督聚类算法的计算复杂度,并解决了聚类过程中成对约束的违反问题.在一组真实数据集上的实验结果表明,与现有相关半监督聚类算法相比,新方法不仅能够处理高维数据,还有效地提高了聚类性能.  相似文献   

14.
杨国亮  谢乃俊  余嘉玮  梁礼明 《计算机科学》2015,42(3):296-300, 306
为了在特征提取过程中保持数据低秩特性不变,提出了一种基于低秩表示的线性保持投影算法用于维数约简。它能够使降维后的低维空间中的数据依旧较好地保持在原始高维空间中的低秩特性,准确地学习出数据的低维子空间。通过构建两个不同的低秩表示模型来 揭示两种不同结构特性的低秩权重,然后以保持数据的这两个低秩权重关系为目的来求解高维数据的低维空间。 在ORL库和Yale库人脸库上的实验结果证明,该算法比传统的特征提取方法更有效。  相似文献   

15.
This paper presents a new k-means type algorithm for clustering high-dimensional objects in sub-spaces. In high-dimensional data, clusters of objects often exist in subspaces rather than in the entire space. For example, in text clustering, clusters of documents of different topics are categorized by different subsets of terms or keywords. The keywords for one cluster may not occur in the documents of other clusters. This is a data sparsity problem faced in clustering high-dimensional data. In the new algorithm, we extend the k-means clustering process to calculate a weight for each dimension in each cluster and use the weight values to identify the subsets of important dimensions that categorize different clusters. This is achieved by including the weight entropy in the objective function that is minimized in the k-means clustering process. An additional step is added to the k-means clustering process to automatically compute the weights of all dimensions in each cluster. The experiments on both synthetic and real data have shown that the new algorithm can generate better clustering results than other subspace clustering algorithms. The new algorithm is also scalable to large data sets.  相似文献   

16.
We have developed an informative sample subspace (ISS) method that is suitable for projecting high-dimensional data onto a low-dimensional subspace for classification purposes. In this paper, we present an ISS algorithm that uses a maximal mutual information criterion to search a labelled training data set directly for the subspace's projection base vectors. We evaluate the usefulness of the ISS method using synthetic data as well as real world problems. Experimental results demonstrate that the ISS algorithm is effective and can be used as a general method for representing high-dimensional data in a low-dimensional subspace for classification.  相似文献   

17.
稀疏子空间聚类综述   总被引:32,自引:7,他引:25  
稀疏子空间聚类(Sparse subspace clustering, SSC)是一种基于谱聚类的数据聚类框架. 高维数据通常分布于若干个低维子空间的并上, 因此高维数据在适当字典下的表示具有稀疏性. 稀疏子空间聚类利用高维数据的稀疏表示系数构造相似度矩阵, 然后利用谱聚类方法得到数据的子空间聚类结果. 其核心是设计能够揭示高维数据真实子空间结构的表示模型, 使得到的表示系数及由此构造的相似度矩阵有助于精确的子空间聚类. 稀疏子空间聚类在机器学习、计算机视觉、图像处理和模式识别等领域已经得到了广泛的研究和应用, 但仍有很大的发展空间. 本文对已有稀疏子空间聚类方法的模型、算法和应用等方面进行详细阐述, 并分析存在的不足, 指出进一步研究的方向.  相似文献   

18.
Most existing semi-supervised clustering algorithms are not designed for handling high-dimensional data. On the other hand, semi-supervised dimensionality reduction methods may not necessarily improve the clustering performance, due to the fact that the inherent relationship between subspace selection and clustering is ignored. In order to mitigate the above problems, we present a semi-supervised clustering algorithm using adaptive distance metric learning (SCADM) which performs semi-supervised clustering and distance metric learning simultaneously. SCADM applies the clustering results to learn a distance metric and then projects the data onto a low-dimensional space where the separability of the data is maximized. Experimental results on real-world data sets show that the proposed method can effectively deal with high-dimensional data and provides an appealing clustering performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号