首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
随着信息技术的飞速发展和大数据时代的来临,数据呈现出高维性、非线性等复杂特征。对于高维数据来说,在全维空间上往往很难找到反映分布模式的特征区域,而大多数传统聚类算法仅对低维数据具有良好的扩展性。因此,传统聚类算法在处理高维数据的时候,产生的聚类结果可能无法满足现阶段的需求。而子空间聚类算法搜索存在于高维数据子空间中的簇,将数据的原始特征空间分为不同的特征子集,减少不相关特征的影响,保留原数据中的主要特征。通过子空间聚类方法可以发现高维数据中不易展现的信息,并通过可视化技术展现数据属性和维度的内在结构,为高维数据可视分析提供了有效手段。总结了近年来基于子空间聚类的高维数据可视分析方法研究进展,从基于特征选择、基于子空间探索、基于子空间聚类的3种不同方法进行阐述,并对其交互分析方法和应用进行分析,同时对高维数据可视分析方法的未来发展趋势进行了展望。  相似文献   

2.
高冉  陈花竹 《计算机应用》2021,41(12):3645-3651
子空间聚类的目的是将来自不同子空间的数据分割到其本质上所属的低维子空间。现有的基于数据的自我表示和谱聚类的子空间聚类算法将该问题分为两个连续的阶段:首先从高维数据中学习数据的相似性矩阵,然后通过将谱聚类应用于所学相似性矩阵来推断数据的聚类隶属。通过定义一种新的数据自适应稀疏正则项,并将其与结构稀疏子空间聚类(SSSC)模型和改进的稀疏谱聚类(SSpeC)模型相结合,给出了一个新的统一优化模型。新模型利用数据的相似度和聚类指标的相互引导克服了SSpeC稀疏性惩罚的盲目性,并使得相似度具有了判别性,这有利于将不同子空间的数据分为不同类,弥补了SSSC模型只强制来自相同子空间的数据具有相同标签的缺陷。常用数据集上的实验结果表明,所提模型增强了聚类判别的能力,优于一些经典的两阶段法和SSSC模型。  相似文献   

3.
无重叠子空间分类聚类算法   总被引:1,自引:0,他引:1  
传统的聚类算法主要是对数值型的数据进行聚类,而随着对数据的发展需求,建立在分类数据上的算法也越来越多,由于分类数据没有直接意义上的距离,传统算法不能解决这个问题.同时,现有子空间上的分类聚类研究不是很多.引用熵的概念来选择确定划分的类别和类的最优中心点,同时提出了一种新的目标函数来得到每个类上的相关子空间集,并根据目标函数的最小值来优化聚类的划分.实验结果表明,该方法是可行的,同时也能够了解每个类中的数据结构特点.  相似文献   

4.
Zhang  Jing  Shi  Yue  Jing  Peiguang  Liu  Jing  Su  Yuting 《Multimedia Tools and Applications》2019,78(17):24123-24145
Multimedia Tools and Applications - With the explosively increasing of mobile phones and other oriented camera devices, more and more video data is captured and stored. This brings out an urgent...  相似文献   

5.
In high dimensional data, many dimensions are irrelevant to each other and clusters are usually hidden under noise. As an important extension of the traditional clustering, subspace clustering can be utilized to simultaneously cluster the high dimensional data into several subspaces and associate the low-dimensional subspaces with the corresponding points. In subspace clustering, it is a crucial step to construct an affinity matrix with block-diagonal form, in which the blocks correspond to different clusters. The distance-based methods and the representation-based methods are two major types of approaches for building an informative affinity matrix. In general, it is the difference between the density inside and outside the blocks that determines the efficiency and accuracy of the clustering. In this work, we introduce a well-known approach in statistic physics method, namely link prediction, to enhance subspace clustering by reinforcing the affinity matrix.More importantly,we introduce the idea to combine complex network theory with machine learning. By revealing the hidden links inside each block, we maximize the density of each block along the diagonal, while restrain the remaining non-blocks in the affinity matrix as sparse as possible. Our method has been shown to have a remarkably improved clustering accuracy comparing with the existing methods on well-known datasets.  相似文献   

6.
吴涛  陈黎飞  钟韵宁  孔祥增 《计算机应用研究》2023,40(11):3303-3308+3314
针对传统K-means型软子空间聚类技术中子空间差异度量定义的困难问题,提出一种基于概率距离的子空间差异表示模型,以此为基础提出一种自适应的投影聚类算法。该方法首先基于子空间聚类理论提出一个描述各簇类所关联的软子空间之间的相异度公式;其次,将其与软子空间聚类相结合,定义了聚类目标优化函数,并根据局部搜索策略给出了聚类算法过程。在合成和实际数据集上进行了一系列实验,结果表明该算法引入子空间比较可以为簇类学习更优的软子空间;与现有主流子空间聚类算法相比,所提算法大幅度提升了聚类精度,适用于高维数据聚类分析。  相似文献   

7.
Liu  Yanbei  Liu  Kaihua  Zhang  Changqing  Wang  Xiao  Wang  Shaona  Xiao  Zhitao 《Multimedia Tools and Applications》2018,77(17):22281-22297
Multimedia Tools and Applications - Sparse Subspace Clustering (SSC) is widely used in data mining and machine learning. Some studies have been developed to add pairwise constraints as side...  相似文献   

8.
Tang  Kewei  Cao  Liying  Zhang  Nan  Jiang  Wei 《Pattern Analysis & Applications》2022,25(4):879-890
Pattern Analysis and Applications - Because the data in practical applications usually satisfy the assumption of mixing subspaces and contain multiple features, multi-view subspace clustering has...  相似文献   

9.
一种高维空间数据的子空间聚类算法   总被引:6,自引:1,他引:6  
王生生  刘大有  曹斌  刘杰 《计算机应用》2005,25(11):2615-2617
传统网格聚类方法由于没有考虑到相邻网格内的数据点对考查网格的影响,存在不能平滑聚类以及聚类边界判断不清的情况。为此提出了一种高维空间数据的子空间聚类算法,扩展了相邻聚类空间。实验结果显示,克服了传统聚类的不平滑现象,使聚类边界得以很好的处理。  相似文献   

10.
张琦  郑伯川  张征  周欢欢 《计算机应用》2022,42(4):1148-1154
针对稀疏子空间聚类(SSC)方法聚类误差大的问题,提出了基于随机分块的SSC方法。首先,将原问题数据集随机分成几个子集,构建几个子问题;然后,采用交替方向乘子法(ADMM)分别求得几个子问题的系数矩阵,之后将几个系数矩阵扩充成与原问题一样大小的系数矩阵,并整合成一个系数矩阵;最后,根据整合得到的系数矩阵计算得到一个相似矩阵,并采用谱聚类(SC)算法获得原问题的聚类结果。相较于稀疏子空间聚类(SSC)、随机稀疏子空间聚类(S3COMP-C)、基于正交匹配追踪的稀疏子空间聚类(SSCOMP)、谱聚类(SC)和K均值(K-Means)算法中的最优算法,基于随机分块的SSC方法将子空间聚类误差平均降低了3.12个百分点,且其互信息、兰德指数和熵3个性能指标都明显优于对比算法。实验结果表明基于随机分块的SSC方法能降低子空间聚类误差,改善聚类性能。  相似文献   

11.
王丽娟    丁世飞  夏菁 《智能系统学报》2023,18(2):399-408
本文主要研究如何通过挖掘多视图特征的多样性信息来促进多视图聚类,提出了基于多样性的多视图低秩稀疏子空间聚类算法。该方法直接将视图多样性概念应用于多视图低秩稀疏子空间聚类算法框架中,确保不同视图的子空间表示矩阵的多样性;为了实现多个视图聚类一致性同时达到提高聚类性能的目标,在该框架中引入谱聚类算法共同优化求解。通过对3个图像数据集的实验验证了该算法的有效性,同时其聚类的性能优于已有的单视图及多视图算法。  相似文献   

12.
针对结构稀疏子空间聚类中不能很好地保证相似度矩阵连接性的问题,给出了一个新的统一优化模型。首先,引入了表示系数矩阵的子空间结构范数,增加了低秩表示来揭示高维数据的全局结构。其次,为了使相似度矩阵具有类内统一,类间稀疏的作用,还定义了分组效应来捕获数据的内部几何结构,提出了结构图正则低秩子空间聚类模型。最后使用自适应惩罚的线性化交替法(LADMAP)来得到最优解。实验结果表明,该模型不但可以捕获数据的全局结构,而且还可以捕获数据的内在几何结构,迫使相关数据紧密结合,不相关数据松散分离,从而使得相似度矩阵与分割矩阵变得更加一致。  相似文献   

13.
刘竞杰  陶亮 《计算机工程与应用》2012,48(12):139-143,182
结合传统的Parzen窗方法并引入一种更加合理的历史数据丢弃策略,在此基础上,通过计算可以得到整个数据集在低维空间投影的信息熵,利用信息熵实现了一种适用于高维数据流的子空间聚类算法(PStream)。理论及实验均表明,与传统的算法相比,该算法可以在一次遍历的前提下,完成对数据流的高精度聚类,虽然其运行效率与现有的方法(如HPStream)相比差别不大,但是却明显地改善了聚类效果。  相似文献   

14.
现有的多视图聚类算法大多假设多视图数据点之间为线性关系,且在学习过程中无法保留原始特征空间的局部性;而在欧氏空间中进行子空间融合又过于单调,无法将学习到的子空间表示对齐。针对以上问题,提出了基于格拉斯曼流形融合子空间的多视图聚类算法。首先,将核技巧和局部流形结构学习结合以得到不同视图的子空间表示;然后,在格拉斯曼流形上融合这些子空间表示以得到一致性亲和矩阵;最后,对一致性亲和矩阵执行谱聚类来得到最终的聚类结果,并利用交替方向乘子法(ADMM)来优化所提模型。与核多视图低秩稀疏子空间聚类(KMLRSSC)算法相比,所提算法的聚类精度在MSRCV1、Prokaryotic、Not-Hill数据集上分别提高了20.83个百分点、9.47个百分点和7.33个百分点。实验结果验证了基于格拉斯曼流形融合子空间的多视图聚类算法的有效性和良好性能。  相似文献   

15.
针对高维数据聚类的问题,许多有效的方法已经被提出,级联的子空间聚类算法CSC就是一种有效的解决法案。但是CSC算法定义的聚类损失可能破坏特征空间,从而取得非代表性的无意义特征,进而损害聚类性能。为了解决这一问题,提出了一种结合自编码器保留数据结构的改进算法。具体地说,使用聚类损失作为引导,分散特征空间数据点,同时采用一种欠完备的自动编码器作为重构损失,约束操作和维护数据生成分布的局部结构。将两者结合,共同优化聚类标签的分配,学习适合聚类的局部结构保留特征。使用自适应矩估计(Adam)和小批量随机梯度下降(mini-batch SGD)两种优化方法调整模型参数。在多个数据集上,使用聚类结果准确率(Acc)、标准互信息(NMI)和调整Rand指数(ARI)三个评价指标验证了该算法的有效性和优越性。  相似文献   

16.
针对现有的基于统计特征的协议识别方法选择识别特征时未考虑不同协议个体之间的差异的问题,结合半监督学习和模糊子空间聚类(FSC)方法,提出了一种半监督子空间聚类协议识别方法(SSPIA)。首先,将有标签的样本流转化为成对约束信息,从而获取先验约束条件;其次,在此基础上提出半监督模糊子空间聚类(SFSC)算法,该算法利用约束条件指导子空间聚类过程;然后,建立类簇和协议类型的映射,以获取协议各个特征的权重系数,进而构建个体化的密码协议特征库用于后续协议识别;最后,针对5个典型的密码协议进行聚类效果和识别效果实验。实验结果表明,针对基于统计特征的协议识别问题,与传统K-means方法和FSC方法相比,所提SSPIA的聚类效果更好,且SSPIA构建的协议识别分类器更为精确,协议识别率更高,误识别率更低。所提SSPIA提高了基于统计特征的识别效果。  相似文献   

17.

This paper proposes a new subspace clustering method based on sparse sample self-representation (SSR). The proposed method considers SSR to solve the problem that affinity matrix does not strictly follow the structure of subspace, and also utilizes sparse constraint to ensure the robustness to noise and outliers in subspace clustering. Specifically, we propose to first construct a self-representation matrix for all samples and combine an l 1-norm regularizer with an l 2,1-norm regularizer to guarantee that each sample can be represented as a sparse linear combination of its related samples. Then, we conduct the resulting matrix to build an affinity matrix. Finally, we apply spectral clustering on the affinity matrix to conduct clustering. In order to validate the effectiveness of the proposed method, we conducted experiments on UCI datasets, and the experimental results showed that our proposed method reduced the minimal clustering error, outperforming the state-of-the-art methods.

  相似文献   

18.
针对深度子空间聚类问题中不同层次特征中互补信息挖掘困难的问题,在深度自编码器的基础上,提出了一种在编码器获取的低层和高层特征之间探索互补信息的多样性表示的深度子空间聚类(DRDSC)算法。首先,基于希尔伯特-施密特独立性准则(HSIC)建立了不同层次特征衡量多样性表示模型;其次,在深度自编码器网络结构中引入特征多样性表示模块,从而挖掘有利于提升聚类效果的图像特征;此外,更新了损失函数的形式,有效融合了多层次表示的底层子空间;最后,在常用的聚类数据集上进行了多次实验。实验结果表明,DRDSC在数据集Extended Yale B、ORL、COIL20和Umist上的聚类错误率分别达到1.23%、10.50%、1.74%和17.71%,与高效稠密子空间聚类(EDSC)相比,分别降低了10.41、16.75、13.12和12.92个百分点;与深度子空间聚类(DSC)相比,分别降低了1.44、3.50、3.68和9.17个百分点,说明所提出的DRDSC算法有更好的聚类效果。  相似文献   

19.
Iterative projected clustering by subspace mining   总被引:3,自引:0,他引:3  
Irrelevant attributes add noise to high-dimensional clusters and render traditional clustering techniques inappropriate. Recently, several algorithms that discover projected clusters and their associated subspaces have been proposed. We realize the analogy between mining frequent itemsets and discovering dense projected clusters around random points. Based on this, we propose a technique that improves the efficiency of a projected clustering algorithm (DOC). Our method is an optimized adaptation of the frequent pattern tree growth method used for mining frequent itemsets. We propose several techniques that employ the branch and bound paradigm to efficiently discover the projected clusters. An experimental study with synthetic and real data demonstrates that our technique significantly improves on the accuracy and speed of previous techniques.  相似文献   

20.
Pattern Analysis and Applications - Among existing clustering methods, sparse subspace clustering (SSC) obtains superior clustering performance in grouping data points from a union of subspaces by...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号