首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
常规的大规模子空间聚类算法在计算锚点亲和矩阵时忽略了数据之间普遍存在的局部结构,且在计算拉普拉斯(Laplacian)矩阵的近似特征向量时存在较大误差,不利于数据聚类。针对上述问题,提出一种融合局部结构学习的大规模子空间聚类算法(LLSC)。所提算法将局部结构学习嵌入锚点亲和矩阵的学习,从而能够综合利用全局和局部信息挖掘数据的子空间结构;此外,受非负矩阵分解(NMF)的启发,设计一种迭代优化方法以简化锚点亲和矩阵的求解过程;其次,根据Nystr?m近似方法建立锚点亲和矩阵与Laplacian矩阵的数学联系,并改进Laplacian矩阵特征向量的计算方法以提升聚类性能。相较于LMVSC(Large-scale Multi-View Subspace Clustering)、SLSR(Scalable Least Square Regression)、LSC-k(Landmark-based Spectral Clustering using k-means)和k-FSC(k-Factorization Subspace Clustering),LLSC在4个广泛使用的大规模数据集上显示出...  相似文献   

2.
非负矩阵分解作为一种有效的数据表示方法被广泛应用于模式识别和机器学习领域。为了得到原始数据紧致有效的低维数据表示,无监督非负矩阵分解方法在特征降维的过程中通常需要同时发掘数据内部隐含的几何结构信息。通过合理建模数据样本间的相似性关系而构建的相似度图,通常被用来捕获数据样本的空间分布结构信息。子空间聚类可以有效发掘数据内部的子空间结构信息,其获得的自表达系数矩阵可用于构建相似度图。该文提出了一种非负子空间聚类算法来发掘数据的子空间结构信息,同时利用该信息指导非负矩阵分解,从而得到原始数据有效的非负低维表示。同时,该文还提出了一种有效的迭代求解方法来求解非负子空间聚类问题。在两个图像数据集上的聚类实验结果表明,利用数据的子空间结构信息可以有效改善非负矩阵分解的性能。  相似文献   

3.
在处理数据特征提取问题时,已有的基于非负矩阵分解的不完整多视角聚类算法对局部特征的提取不够准确.针对此问题,文中提出基于正交约束的分块不完整多视角聚类(CIMVCO).利用非负矩阵分解获得所有视角的潜在特征矩阵,通过加入正交约束得到更好的局部特征.对于各个视角的缺失样本,CIMVCO给予较小的权重以减小缺失数据的影响.为了解决大规模数据的聚类问题,CIMVCO逐块处理数据以减少内存需求和处理时间.在Reuters和Digit数据集上的实验验证CIMVCO的有效性.  相似文献   

4.
Web用户聚类算法   总被引:2,自引:0,他引:2  
Web用户聚类是将具有相似访问特性的用户归在一起,在电子商务的市场分割和为用户提供个性化服务中,能发挥巨大作用。文章提出基于用户访问路径以及节点高度的相似性评价函数,建立相似矩阵,并提出相似矩阵结构分解算法对此相似矩阵进行变换生成对角矩阵或下三角矩阵,该矩阵中的每一个子对角阵即对应一个用户类,矩阵的左下角对应各用户类之间的关系。  相似文献   

5.
为了提高K-Means聚类算法在高维数据下的聚类效果,提出一种基于稀疏约束非负矩阵分解的K-Means聚类算法。该算法在最优保持原始数据本质的前提下,通过在非负矩阵分解过程中对基矩阵列向量施加l1与l2范数稀疏约束,首先挖掘嵌入在高维数据中的低维数据结构,实现高维数据的低维表示,然后利用在低维数据聚类中性能良好的K-Means算法对稀疏降维后的数据进行聚类。实验结果表明提出的算法可行,并且在处理高维数据上有效。  相似文献   

6.
在如今的大数据时代,多视图数据引起了越来越多的关注,对多视图聚类的假设是所有视图都是完整的,然而,这种假设在实际应用中很难得到满足。因此不完备多视图聚类是一个重要挑战。针对大规模的不完备多视图数据,考虑到其数据的特征,利用互补性和一致性,论文提出了一种基于非负矩阵分解的在线反向图正则化聚类方法,首先利用加权非负矩阵分解作为基础模型,考虑到缺失实例的影响,引入一个动态权重矩阵;其次,学习所有视图的潜在特征矩阵并得到一个共识矩阵;同时,考虑到挖掘数据的局部结构,在基础模型上增加反向图正则化项;最后,对于大规模的数据,分块处理多视图数据以减少内存需求。在四个真实的数据集上进行了大量实验证明了所提出的方法的有效性。  相似文献   

7.
为提高K-means聚类算法在高维数据下的聚类效果,提出了一种基于正交非负矩阵分解的K-means聚类算法。该算法对原始数据进行非负矩阵分解,并分别通过改进的Gram-Schmidt正交化和Householder正交化加入了正交约束,以保证低维特征的非负性,增加数据原型矩阵的正交性,然后进行K-means聚类。实验结果表明,基于IGS-ONMF和H-ONMF的K-means聚类算法在处理高维数据上具有更好的聚类效果。  相似文献   

8.
随着信息时代的来临,互联网产生的大规模高维数据呈现几何级数增长,对其进行谱聚类在计算时间和内存使用上都存在瓶颈问题,尤其是求Laplacian矩阵特征向量分解。鉴于Hadoop MapReduce并行编程模型对密集型数据处理的优势,基于t最近邻稀疏化近似相似Laplacian矩阵,设计Hadoop MapReduce并行近似谱聚类算法,以期解决上述瓶颈问题。实验使用UCI Bag of Words数据集验证所设计算法的正确性和有效性,结果显示该并行设计在谱聚类质量和性能方面达到了一定的预期效果。  相似文献   

9.
两阶段联合聚类协同过滤算法   总被引:2,自引:1,他引:1  
吴湖  王永吉  王哲  王秀利  杜栓柱 《软件学报》2010,21(5):1042-1054
提出一种两阶段评分预测方法.该方法基于一种新的联合聚类算法(BlockClust)和加权非负矩阵分解算法.首先对原始矩阵中的评分模式进行用户和物品两个维度的联合聚类,然后在这些类别的内部通过加权非负矩阵分解方法进行未知评分预测.这种方法的优势在于,首阶段聚类后的矩阵规模远远小于原始评分矩阵,并且同一类别内部的评分具有相似的模式,这样,在大幅度降低预测阶段计算量的同时又提高了非负矩阵分解算法在面对稀疏矩阵预测上的准确度.进一步给出了推荐系统的3种更新模式下如何高效更新预测模型的增量学习方法.在MovieLens数据集上比较了新算法及其他7种相关方法的性能,从而验证了该方法的有效性及其在大型实时推荐系统中的应用价值.  相似文献   

10.
解决文本聚类集成问题的两个谱算法   总被引:8,自引:0,他引:8  
徐森  卢志茂  顾国昌 《自动化学报》2009,35(7):997-1002
聚类集成中的关键问题是如何根据不同的聚类器组合为最终的更好的聚类结果. 本文引入谱聚类思想解决文本聚类集成问题, 然而谱聚类算法需要计算大规模矩阵的特征值分解问题来获得文本的低维嵌入, 并用于后续聚类. 本文首先提出了一个集成算法, 该算法使用代数变换将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题, 并继续转化为规模更小的特征值分解问题; 然后进一步研究了谱聚类算法的特性, 提出了另一个集成算法, 该算法通过求解超边的低维嵌入, 间接得到文本的低维嵌入. 在TREC和Reuters文本数据集上的实验结果表明, 本文提出的两个谱聚类算法比其他基于图划分的集成算法鲁棒, 是解决文本聚类集成问题行之有效的方法.  相似文献   

11.
两阶段联合聚类协同过滤算法   总被引:14,自引:1,他引:13  
吴湖  王永吉  王哲  王秀利  杜栓柱 《软件学报》2010,21(4):1042-1054
提出一种两阶段评分预测方法.该方法基于一种新的联合聚类算法(BlockClust)和加权非负矩阵分解算 法.首先对原始矩阵中的评分模式进行用户和物品两个维度的联合聚类,然后在这些类别的内部通过加权非负矩阵 分解方法进行未知评分预测.这种方法的优势在于,首阶段聚类后的矩阵规模远远小于原始评分矩阵,并且同一类别 内部的评分具有相似的模式,这样,在大幅度降低预测阶段计算量的同时又提高了非负矩阵分解算法在面对稀疏矩 阵预测上的准确度.进一步给出了推荐系统的3 种更新模式下如何高效更新预测模型的增量学习方法.在MovieLens数据集上比较了新算法及其他7种相关方法的性能,从而验证了该方法的有效性及其在大型实时推荐系 统中的应用价值.  相似文献   

12.
针对K平均( K-means)、期望最大化( EM)等传统聚类算法在网络社团挖掘中存在的聚类结果不合理、容易陷入局部最小值等问题,以最小化社团间的连接权值为优化目标,基于节点间交互次数归一化结果建立节点间的相似矩阵,求出此矩阵对应的拉普拉斯矩阵,以拉普拉斯矩阵的前k个最小特征值对应的特征向量为基建立新的特征空间,将相似矩阵向新的特征空间做投影,在投影后的特征空间中运用K-means算法进行社团挖掘,实现目标函数的最小化。通过仿真实验对比,说明了该基于拉普拉斯矩阵的聚类方法( LMBC)比传统聚类方法更有效地解决聚类节点分布不均衡的问题,及非凸、高维数据集在保持原有几何结构的同时有效降维的问题。 LMBC从数据集相似矩阵的角度进行聚类分析,进一步丰富了流形学习的理论与方法,可广泛应用于社交网络分析及图像识别等领域。  相似文献   

13.
文本聚类的目标是把数据集中内容相似的文档归为一类,而使内容不同的文档分开。目前针对不同领域的需求,多种解决聚类问题的算法应运而生。然而,由于文本数据本身固有的复杂特点,如海量、高维、稀疏等,使得对海量文本数据的聚类仍然是一个棘手的问题。提出了层次非负矩阵分解聚类方法,该方法不但保留了非负矩阵分解的优点,如同步识别文档类别和找出类别本质特征,而且能够展现类别间的层次结构。这种类别层次结构在网页预览等应用中是非常有用的。在真实数据集20Newsgroups和Reuters-RCV1上的实验结果表明,层次非负矩阵分解相比已有的方法更有效。  相似文献   

14.
杨亮东  杨志霞 《计算机应用》2019,39(5):1275-1281
针对鲁棒非负矩阵分解(RNMF)的运算规模随训练样本数量逐渐增多而不断增大的问题,提出一种稀疏限制的增量式鲁棒非负矩阵分解算法。首先,对初始数据进行鲁棒非负矩阵分解;然后,将其分解结果参与到后续迭代运算;最后,在对系数矩阵增加稀疏限制的情况下与增量式学习相结合,使目标函数值在迭代求解时下降地更快。该算法在节省运算时间的同时提高了分解后数据的稀疏度。在数值实验中,将所提算法与鲁棒非负矩阵分解算法、稀疏限制的鲁棒非负矩阵分解(RNMFSC)算法进行了比较。在ORL和YALE人脸数据库上的实验结果表明,所提算法在运算时间和分解后数据的稀疏度等方面均优于其他两个算法,并且还具有较好的聚类效果,尤其在YALE人脸数据库上当聚类类别数为3时该算法的聚类准确率达到了91.67%。  相似文献   

15.
基于NMF的文本聚类方法   总被引:4,自引:0,他引:4  
黄钢石  陆建江  张亚非 《计算机工程》2004,30(11):113-114,176
提出一种基于非负矩阵分解的文本聚类方法。该方法利用NMF分解项-文本矩阵来降低特征空间维数,并得到文本向量在概念空间上的表示,在此基础上应用聚类算法。实验表明,基于NMF的文本聚类方法能够提高文本聚类精度。  相似文献   

16.
协同过滤算法可根据用户的偏好,预测其感兴趣的项目,这项技术是目前商业领域中应用较为广泛且成功的。过去,使用协同过滤算法会因其数据的稀疏性及使用K-Means算法聚类时需要预先确定聚类个数等问题影响协同过滤算法的准确性。针对上述问题,提出了一种多聚类融合的协同过滤推荐算法。首先,构建用户-项目评分矩阵;其次,根据用户兴趣、偏好矩阵查找待估值项所对应的近邻用户,随后使用Slope One算法在对每一个簇内的稀疏矩阵进行填充,从而缓解数据稀疏性问题;再次,使用Canopy聚类算法进行粗聚类,将计算出的每个中心点作为K-Means算法的初始聚类点并进行K-Means细聚类;最后,优化后的协同过滤算法最终被用来预测每个簇中填充后的评分矩阵,并采用带时间加权的相似度公式。最终实验数据显示,优化后能够有效提升算法的效率与推荐质量。  相似文献   

17.
王治和  王淑艳  杜辉 《计算机工程》2021,47(5):88-96,103
模糊C均值(FCM)聚类算法无法识别非凸数据,算法中基于欧式距离的相似性度量只考虑数据点之间的局部一致性特征而忽略了全局一致性特征。提出一种利用密度敏感距离度量创建相似度矩阵的FCM算法。通过近邻传播算法获取粗类数作为最佳聚类数的搜索范围上限,以解决FCM算法聚类数目需要人为预先设定和随机选定初始聚类中心造成聚类结果不稳定的问题。在此基础上,改进最大最小距离算法,得到具有代表性的样本点作为初始聚类中心,并结合轮廓系数自动确定最佳聚类数。基于UCI数据集和人工数据集的实验结果表明,相比经典FCM、K-means和CFSFDP算法,该算法不仅具有识别复杂非凸数据的能力,而且能够在保证聚类性能和稳定性的前提下加快收敛速度。  相似文献   

18.
为了获得结构更加合理的相似矩阵,提出了基于谱聚类和L2,1范数的多视图聚类算法.该算法首先将改进的多视图亲和矩阵利用L2,1范数正则项合理地构造出相似矩阵S,使S在整体稀疏的情况下保证局部的强线性关系;然后同时进行相似矩阵的学习和谱聚类过程,将相似矩阵S和标签矩阵F交替迭代,加强数据集与降维后的F的几何结构的紧密联系;最后对所提出的算法进行了实验,结果表明该算法是有效的.  相似文献   

19.
谱聚类算法由于其可识别非凸数据分布、可有效避免局部最优解、不受数据点维数限制等优点,在许多领域得到广泛应用。然而,随着数据量的增大和数据维数的增多,在保证聚类准确性的前提下,尽可能降低计算时间将变得非常必要。此外,影响谱聚类算法聚类质量的因素除数据集本身外,还与所采用的求解距离矩阵的方法、相似性矩阵的尺度参数、Laplacian矩阵形式等多种因素相关。针对以上问题,首先对于大规模数据问题,将MPI并行编程模型应用于谱聚类算法;然后利用t-最近邻方法对谱聚类算法中较大维数的Laplacian矩阵进行近似转化,同时用局部尺度(Local Scaling)参数对算法中的尺度参数进行自动调节。基于上述分析,提出了一种谱聚类并行实现算法,即稀疏化局部尺度并行谱聚类算法SLSPSC,并在四个数据集上进行了测试,与现有的并行谱聚类算法PSC在运行时间和聚类质量两方面做了比较分析。实验结果显示,该算法降低了求解Laplacian矩阵的总时间,同时部分数据集聚类质量得到较大提高。  相似文献   

20.
邵超  宋淑米 《计算机科学》2021,48(z1):240-245
随着信息的海量增长,推荐系统有效缓解了信息爆炸带来的问题,其中协同过滤作为主流技术之一受到了广泛的关注.针对用户的兴趣偏好研究主要是基于商品标签的有监督数据集进行研究,忽略了无监督数据集,同时,在计算用户的兴趣偏好过程中也未能考虑到信任用户对用户兴趣的影响.为此,文中首先在无监督的项目数据集上采用矩阵分解模型得到项目的潜在特征向量,据此对项目进行聚类以表示项目的类别信息;然后,结合用户的信任关系和用户-项目评分矩阵构造用户的兴趣偏好矩阵;最后,为提高推荐效率,在用户的兴趣偏好矩阵上对用户进行聚类,在每个聚类簇内计算用户之间的相似度,从而实现推荐.在公开数据集上的实验结果表明,该算法能有效改善推荐结果的精确性,提升推荐质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号