共查询到20条相似文献,搜索用时 78 毫秒
1.
矩阵分解因可以实现大规模数据处理而具有十分广泛的应用。非负矩阵分解(Nonnegative Matrix Factorization,NMF)是一种在约束矩阵元素为非负的条件下进行的分解方法。利用少量已知样本的标注信息和大量未标注样本,并施加稀疏性约束,构造了一种新的算法——基于稀疏约束的半监督非负矩阵分解算法。推导了其有效的更新算法,并证明了该算法的收敛性。在常见的人脸数据库上进行了验证,实验结果表明CNMFS算法相对于NMF和CNMF等算法具有较好的稀疏性和聚类精度。 相似文献
2.
3.
4.
5.
提出了一种基于图正则化的半监督非负矩阵分解算法(GSNMF),克服了非负矩阵分解(NMF)、约束非负矩阵分解(CNMF)和图正则化非负矩阵分解(GNMF)方法忽略样本数据的局部几何结构或标签信息不足的缺陷,且NMF、CNMF和GNMF均为GSNMF的特例。也从理论上证明了GSNMF算法的收敛性。该算法对样本数据进行低维非负分解时,在图框架下既保持数据的几何结构,又利用已知样本的标签信息,在进行半监督学习时,同类样本能更好地聚集而类间距离尽可能大。在人脸数据库ORL、FERET和手写体数据库USPS上的仿真结果表明,相对于NMF及其一些改进算法,GSNMF均具有更高的聚类精度。 相似文献
6.
7.
真实世界多层网络具有多维度、高复杂性的特征,使得仅使用网络拓扑信息进行聚类的算法往往不能精准挖掘网络的公共社区结构。为了解决这一问题,本文提出一种基于非负矩阵分解的半监督模型(Semi-supervised Model with Non-negative Matrix Factorization, SeNMF)。首先,该模型设计基于PageRank算法的贪婪搜索方法获取网络的共识先验信息,用以增强每一层网络的拓扑结构,降低网络噪声;然后利用整体非负矩阵分解将所有网络层的低维表示在格拉斯曼流形上融合以获取更优的公共低维表示矩阵;最后利用K-means聚类得到网络的公共社区结构。实验表明,无论是网络层数的增加还是层间噪声的增强,SeNMF模型相较其他算法在多层网络聚类时均具有一定的优越性。 相似文献
8.
为了提高K-Means聚类算法在高维数据下的聚类效果,提出一种基于稀疏约束非负矩阵分解的K-Means聚类算法。该算法在最优保持原始数据本质的前提下,通过在非负矩阵分解过程中对基矩阵列向量施加l1与l2范数稀疏约束,首先挖掘嵌入在高维数据中的低维数据结构,实现高维数据的低维表示,然后利用在低维数据聚类中性能良好的K-Means算法对稀疏降维后的数据进行聚类。实验结果表明提出的算法可行,并且在处理高维数据上有效。 相似文献
9.
通过对几种典型聚类算法的分析和比较,提出了一种新的聚类算法,基于扩展约束的半监督谱聚类算法,简称CE-SSC。这种算法扩展了已知约束集,通过密度敏感距离改变样本点的相似关系,结合半监督谱聚类进行聚类。在UCI基准集上的仿真实验结果证明,基于扩展约束的半监督谱聚类算法具有良好的聚类效应。 相似文献
11.
面向混合属性数据集的改进半监督FCM聚类方法 总被引:1,自引:0,他引:1
针对混合属性数据集聚类精度低的问题,本文提出一种基于改进距离度量的半监督模糊均值聚类(Fuzzy C-means,FCM)算法.首先,在数据集中针对类别属性进行预处理,并设置相应的相异度阈值;将传统聚类距离度量与改进的Jaccard距离度量结合,确定混合属性数据集的距离度量函数;最后,将所得距离度量函数与传统半监督FCM算法相结合,并在滚动轴承的不同复合故障数据的特征集中进行聚类.实验表明,该算法能在含无序属性的混合属性数据集的聚类中取得更好的聚类效果. 相似文献
12.
《计算机科学与探索》2016,(7):1003-1009
半监督聚类是一种用先验信息完善聚类过程的机器学习方法。通过将元胞自动机(cellular automata,CA)距离变换算法引入到半监督聚类过程中,采用平面距离变换算法将数据集划分为若干子类,获得聚类数和约束信息,并作为下一阶段聚类的先验信息。利用半监督K-means聚类算法对第一阶段的聚类结果做进一步划分,可以获得完整的聚类中心和聚类数,并由此提出CA-K-means二阶段聚类算法。采用3组人工数据集和3组标准UCI数据集进行对比仿真实验,将CA-K-means二阶段聚类算法与半监督K-means聚类算法、遗传Kmeans聚类算法和单纯的CA层次聚类算法进行对比,结果显示,该算法对复杂分布数据的聚类准确率较高,聚类性能更加优良。 相似文献
13.
半监督聚类是近年来研究的热点,传统的方法是在无监督算法的基础上加入有限的背景知识来提高聚类性能.然而大多数半监督聚类技术都基于邻近或密度,难以处理高维数据,因此必须将约减的特征加入到半监督聚类过程中.为解决此问题,提出了一种新的半监督聚类算法框架.该算法利用样本约束传递性进行预处理,然后将特征投影到低维空间实现降维,最终用半监督算法对约减后的样本进行聚类.通过实验同现行主要降维方法进行了比较,说明此方法能有效地处理高维数据,聚类效果良好. 相似文献
14.
高维数据中许多特征之间互不相关或冗余,这给传统的学习算法带来了巨大的挑战。为了解决该问题,特征选择应运而生。与此同时,许多实际问题中数据存在多个视图而且数据的标签难以获取,多视图学习和半监督学习成为机器学习中的热点问题。本文研究怎样从"部分标签"的多视图数据中选择最大相关最小冗余的特征子集,提出一种基于多视图的半监督特征选择方法。为了剔除冗余和无关的特征,探索蕴含于多视图数据中的互补信息以及每个视图中不同特征之间的冗余关系,并利用少量标签数据蕴含的信息协同未标签数据同时进行特征选择。实验结果验证了本算法能够获得很好的特征选择效果及聚类效果。 相似文献
15.
16.
17.
现有的半监督聚类集成方法能利用先验信息,使集成的准确性、鲁棒性和稳定性得到提高,但在集成阶段加入成对约束信息时,只考虑了给定的约束信息而忽视了约束点与被约束点的邻域点之间的关系.针对此问题,提出了一种基于数据相关性的半监督模糊聚类集成方法.该方法首先利用半监督模糊聚类算法建立集成信息矩阵,并将其转换为相似性矩阵;然后,利用已知的约束信息及约束点与被约束点的邻域点之间的关系来修改相似性矩阵;最后,利用图划分算法得到最终的聚类结果.真实数据上的实验结果表明,提出的方法可以有效提高聚类质量. 相似文献
18.
19.
Fu-lai Chung Shitong Wang Zhaohong Deng Chen Shu D. Hu 《Soft Computing - A Fusion of Foundations, Methodologies and Applications》2006,10(11):981-993
When gene expression datasets contain some labeled data samples, the labeled information should be incorporated into clustering algorithm such that more reasonable clustering results can be achieved. In this paper, a novel semi-supervised clustering algorithm, Semi-supervised Iterative Visual Clustering Algorithm (Semi-IVCA), is presented to tackle with such datasets. The new algorithm first constructs the visual sampling image of the dataset based on visual theorem and obtains its attractors using the gradient learning rules, where each attractor denotes a cluster of the dataset. Then the new algorithm introduces an iterative clustering procedure to realize the semi-supervised learning. The new algorithm is a generalization of the current Visual Clustering Algorithm (VCA) presented by authors. Except for the advantage that Semi-IVCA can effectively utilize the labeled data information in clustering, it is robust and insensitive to initialization, and it has strong parameter learning capability and good interpretation for the clustering results. When the new algorithm Semi-IVCA is applied to the artificial and real gene expression datasets, the experimental results confirm the above advantages of algorithm Semi-IVCA. 相似文献
20.
针对基于监督的入侵检测算法在现实网络环境中通常面临的训练样本不足的问题,提出了一种基于纠错输出编码的半监督多类分类入侵检测方法。该方法综合cop-kmeans算法的半监督思想,挖掘未标记数据中的隐含关系,扩大有标记正常网络数据的数量。该算法首先采用SVDD计算入侵检测各类别的可分程度,从而得到由不同子类构成的二叉树;然后分别对二叉树的各层节点进行编码并形成层次输出编码,得到最终的分类器。实验表明,该算法对各种类型的攻击具有更高的检测率,在现实网络环境中具有较好的实用性。 相似文献