首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
提出一种基于非负矩阵分解(NMF)的双重约束文本聚类算法。在正交三重NMF模型中,加入文本空间的成对约束信息和词空间的类别约束信息,将不同的特征词项进行分类。利用迭代规则对原始的词-文档矩阵进行分解,获得文本聚类结果。与多种传统半监督文本聚类算法的对比结果表明,该算法具有较高的聚类精度,能提供更准确和有效的聚类结果。  相似文献   

2.
通过分析文本的特征,提出了一种基于稀疏约束非负矩阵分解(NMFsc)的文本聚类新方法。该方法用NMFSC分解词.文本矩阵来降低特征空间的维度,并依照稀疏约束更好地控制稀疏度,然后利用簇中文本的相似性进一步细化簇。实验表明,与基于k-means的文本聚类方法和基于NMF的文本聚类方法相比,此方法具有较高的归一化互信息值(NMI),从而具有良好的聚类性能。  相似文献   

3.
对互联网产生的大量短文本进行聚类分析具有重要的应用价值,但由于短文本存在特征稀疏和特征难以提取的问题,导致传统的文本聚类算法难以有效处理该问题。为了解决该问题,利用非负矩阵分解(NMF)模型提出基于加权核非负矩阵分解(WKNMF)的短文本聚类算法。该算法通过核方法的映射关系将稀疏特征空间映射到高维隐性空间,从而可以充分利用短文本中的隐性语义特征进行聚类;另外,利用核技巧简化高维数据的复杂运算,并通过迭代更新规则不断地动态调整短文本的权重向量,从而可以区分不同短文本对聚类的重要性。在真实的微博数据集上进行了相关实验,结果表明WKNMF算法比K均值、隐含狄利克雷分布(LDA)、NMF和自组织神经网络(SOM)具有更好的聚类质量,准确度和归一化互信息分别达到了66.38%和66.91%。  相似文献   

4.
非负矩阵分解(NMF)作为一种数据降维和特征提取的有效工具,已经在文本聚类、推荐系统等多个领域得到应用,但是其计算过程比较复杂。对此,提出一种基于MPI+OpenMP的混合层次化并行NMF方法,其充分利用基于MPI的消息传递模型和基于OpenMP的共享存储模型各自的优势,并基于多核节点集群进行测试。实验结果表明,所设计的并行NMF算法达到了较高的加速比,能有效处理高阶矩阵的非负分解,极大地提高了计算的效率。  相似文献   

5.
张磊  冯晓森  项学智 《计算机工程》2009,35(13):26-27,5
提出基于非负矩阵分解(NMF)的中文文本主题分类方法,应用NMF算法分解词.文本矩阵获取词之间的相关性,有效地解决同义词、多义词的影响。实验结果表明,与基于奇异值分解的潜在语义索引方法相比,该方法计算速度快、占用存储空间较少。在潜在语义数据降低较大的情况下,NMF方法具有更好的分类精度。  相似文献   

6.
基因芯片是微阵列技术的典型代表,它具有高通量的特性和同时检测全部基因组基因表达水平的能力。应用微阵列芯片的一个主要目的是基因表达模式的发现,即在基因组水平发现功能相似,生物学过程相关的基因簇;或者将样本分类,发现样本的各种亚型。例如根据基因表达水平对癌症样本进行分类,发现疾病的分子亚型。非负矩阵分解NMF方法是一种非监督的、非正交的、基于局部表示的矩阵分解方法。近年来这种方法被越来越多地应用在微阵列数据的分类分析和聚类发现中。系统地介绍了非负矩阵分解的原理、算法和应用,分解结果的生物学解释,分类结果的质量评估和基于NMF算法的分类软件。总结并评估了NMF方法在微阵列数据分类和聚类发现应用中的表现。  相似文献   

7.
为了改进Map Reduce早期版本在大数据聚类算法方面的性能,文章提出了基于Yarn(Yet Another Resource Negotiator)云计算平台与非负矩阵分解NMF(Nonnegative Matrix Factorization)的大数据聚类方法。文章讨论了高维数据相似性聚类与非负矩阵分解的结合及其面向Map Reduce的数据聚类的任务划分方式。该方法的实现采用Hadoop2.0的Yarn平台,利用Hadoop的HDFS(Hadoop Distributed File System)来存储大容量的外部数据;描述了基于NMF的大数据相似性聚类方法的编码与实现过程,并以电信运营商的大数据作为案例程序进行了测试。实验结果表明,Yarn云平台比传统用于数据聚类的非负矩阵方法具有更好的运行时间与加速比,能够在可以接受的时间范围内完成电信运营商的大数据处理。  相似文献   

8.
《微型机与应用》2019,(3):44-48
非负矩阵分解(NMF)作为一种新的矩阵分解和特征提取方法,是大数据处理和模式识别中线性分离数据从而聚类的有效方法。提出了一种新的聚类算法FCM-NMF,采用NMF分解提取样本的本质特征,并用模糊C均值(FCM)进行模糊聚类。该算法将NMF目标函数与FCM算法融合,提出了新的目标函数的形式,并生成新的交替迭代公式。最后在两个标准图像数据集GHIM-10k和COREL-10k上与传统的5种聚类方法从三个评价指标进行了对比。实验结果表明,该算法在标准数据集上聚类准确率和标准化互信息值分别达到了84%和77. 21%,达到了预期目标,提高了聚类效果。  相似文献   

9.
为了改进Map Reduce早期版本在大数据聚类算法方面的性能,文章提出了基于Yarn(Yet Another Resource Negotiator)云计算平台与非负矩阵分解NMF(Nonnegative Matrix Factorization)的大数据聚类方法。文章讨论了高维数据相似性聚类与非负矩阵分解的结合及其面向Map Reduce的数据聚类的任务划分方式。该方法的实现采用Hadoop2.0的Yarn平台,利用Hadoop的HDFS(Hadoop Distributed File System)来存储大容量的外部数据;描述了基于NMF的大数据相似性聚类方法的编码与实现过程,并以电信运营商的大数据作为案例程序进行了测试。实验结果表明,Yarn云平台比传统用于数据聚类的非负矩阵方法具有更好的运行时间与加速比,能够在可以接受的时间范围内完成电信运营商的大数据处理。  相似文献   

10.
王扬  吴凡  姚宗强  刘杰  李栋 《计算机应用》2017,37(8):2405-2409
针对细粒度、多类别的用户用电行为分析问题,提出了基于地理信息正则化矩阵分解的居民用户用电行为分析算法,探索用户用电的群体特点,为个性化的、更优的电力调度提供决策支持依据。该模型首先基于矩阵分解理论将用户映射到能表征其用电行为特点的潜在特征空间,然后采用k-means聚类算法在潜在特征空间上实现用电用户群的细分聚类。特别地引入了地理信息作为矩阵分解的正则化因子,使得学习到的潜在特征空间不仅满足用户群特征的正交,而且使得地理位置相近的用户在潜在特征空间的映射也相近,与真实物理空间保持一致。将所提方法应用于中新天津生态城智能电网采集到的真实居民用电数据分析挖掘任务中。实验结果表明,与基准的向量空间模型(VSM)和非负矩阵分解(NMF)算法相比,所提方法能够取得更好的用户细分聚类结果,挖掘出一定的用户群体用电模式,有助于辅助智能电网提升经营和服务水平。  相似文献   

11.
非负矩阵分解作为一种有效的数据表示方法被广泛应用于模式识别和机器学习领域。为了得到原始数据紧致有效的低维数据表示,无监督非负矩阵分解方法在特征降维的过程中通常需要同时发掘数据内部隐含的几何结构信息。通过合理建模数据样本间的相似性关系而构建的相似度图,通常被用来捕获数据样本的空间分布结构信息。子空间聚类可以有效发掘数据内部的子空间结构信息,其获得的自表达系数矩阵可用于构建相似度图。该文提出了一种非负子空间聚类算法来发掘数据的子空间结构信息,同时利用该信息指导非负矩阵分解,从而得到原始数据有效的非负低维表示。同时,该文还提出了一种有效的迭代求解方法来求解非负子空间聚类问题。在两个图像数据集上的聚类实验结果表明,利用数据的子空间结构信息可以有效改善非负矩阵分解的性能。  相似文献   

12.
文本聚类的目标是把数据集中内容相似的文档归为一类,而使内容不同的文档分开。目前针对不同领域的需求,多种解决聚类问题的算法应运而生。然而,由于文本数据本身固有的复杂特点,如海量、高维、稀疏等,使得对海量文本数据的聚类仍然是一个棘手的问题。提出了层次非负矩阵分解聚类方法,该方法不但保留了非负矩阵分解的优点,如同步识别文档类别和找出类别本质特征,而且能够展现类别间的层次结构。这种类别层次结构在网页预览等应用中是非常有用的。在真实数据集20Newsgroups和Reuters-RCV1上的实验结果表明,层次非负矩阵分解相比已有的方法更有效。  相似文献   

13.
文本特征选择是文本分类和信息提取的关键技术。针对文本分类中特征向量的高维稀疏问题,提出了非负矩阵分解和概念语义空间结合的特征抽取方法,对特征矩阵分解算法加入非负限制能够给出概念语义向量面向主题的解释,较好体现文本的局部特征。采用非负矩阵分解对全局和局部语义空间进行降维处理提高了体征提取效率,对不同概念语义空间中文本分类效果比对分析。实验结果表明基于非负矩阵分解的局部概念语义空间中文本分类精度较高。  相似文献   

14.
李飞  杜亮  任超宏 《计算机应用》2019,39(4):1021-1026
非负矩阵分解(NMF)算法仅能用于对原始非负数据寻找低秩近似,而概念分解(CF)算法将矩阵分解模型扩展到单个非线性核空间,提升了矩阵分解算法的学习能力和普适性。针对无监督环境下概念分解面临的如何设计或选择合适核函数这一问题,提出基于全局融合的多核概念分解(GMKCF)算法。同时输入多种候选核函数,在概念分解框架下基于全局线性权重融合对它们进行学习,以得出质量高稳定性好的聚类结果,并解决概念分解模型面临核函数选择的问题。采用交替迭代的方法对新模型进行求解,证明了算法的收敛性。将该算法与基于核的K-均值(KKM)、谱聚类(SC)、KCF(Kernel Concept Factorization)、Coreg(Co-regularized multi-view spectral clustering)、RMKKM(Robust Multiple KKM)在多个真实数据库上的实验结果表明,该算法在数据聚类方面优于对比算法。  相似文献   

15.
杨亮东  杨志霞 《计算机应用》2019,39(5):1275-1281
针对鲁棒非负矩阵分解(RNMF)的运算规模随训练样本数量逐渐增多而不断增大的问题,提出一种稀疏限制的增量式鲁棒非负矩阵分解算法。首先,对初始数据进行鲁棒非负矩阵分解;然后,将其分解结果参与到后续迭代运算;最后,在对系数矩阵增加稀疏限制的情况下与增量式学习相结合,使目标函数值在迭代求解时下降地更快。该算法在节省运算时间的同时提高了分解后数据的稀疏度。在数值实验中,将所提算法与鲁棒非负矩阵分解算法、稀疏限制的鲁棒非负矩阵分解(RNMFSC)算法进行了比较。在ORL和YALE人脸数据库上的实验结果表明,所提算法在运算时间和分解后数据的稀疏度等方面均优于其他两个算法,并且还具有较好的聚类效果,尤其在YALE人脸数据库上当聚类类别数为3时该算法的聚类准确率达到了91.67%。  相似文献   

16.
姜小燕  孙福明  李豪杰 《计算机科学》2016,43(7):77-82, 105
非负矩阵分解是在矩阵非负约束下的分解算法。为了提高识别率,提出了一种基于稀疏约束和图正则化的半监督非负矩阵分解方法。该方法对样本数据进行低维非负分解时,既保持数据的几何结构,又利用已知样本的标签信息进行半监督学习,而且对基矩阵施加稀疏性约束,最后将它们整合于单个目标函数中。构造了一个有效的更新算法,并且在理论上证明了该算法的收敛性。在多个人脸数据库上的仿真结果表明,相对于NMF、GNMF、CNMF等算法,GCNMFS具有更好的聚类精度和稀疏性。  相似文献   

17.
为提高K-means聚类算法在高维数据下的聚类效果,提出了一种基于正交非负矩阵分解的K-means聚类算法。该算法对原始数据进行非负矩阵分解,并分别通过改进的Gram-Schmidt正交化和Householder正交化加入了正交约束,以保证低维特征的非负性,增加数据原型矩阵的正交性,然后进行K-means聚类。实验结果表明,基于IGS-ONMF和H-ONMF的K-means聚类算法在处理高维数据上具有更好的聚类效果。  相似文献   

18.
随着技术的发展,数据往往具有来自不同源的多种形式,多视角聚类算法旨在利用不同源中的互补信息进行聚类。虽然目前多视角聚类算法已在各个领域取得较大发展和成功应用,但是多视角聚类算法仍然面临许多重要挑战,其中一个就是当多个视角的样本存在缺失时,如何充分挖掘数据信息以减少缺失样本带来的负面影响。针对此挑战,提出一种基于核诱导的不完整多视角聚类算法(KIMV)。该方法利用核方法和非负矩阵分解技术在核希尔伯特空间中对所有视角学习一个最优的共性矩阵,并通过视角自适应加权机制和图拉普拉斯正则化提高算法性能。在五个多视角数据集上的实验有效验证了KIMV的上述优势。  相似文献   

19.
Spectral clustering aims to partition a data set into several groups by using the Laplacian of the graph such that data points in the same group are similar while data points in different groups are dissimilar to each other. Spectral clustering is very simple to implement and has many advantages over the traditional clustering algorithms such as k-means. Non-negative matrix factorization (NMF) factorizes a non-negative data matrix into a product of two non-negative (lower rank) matrices so as to achieve dimension reduction and part-based data representation. In this work, we proved that the spectral clustering under some conditions is equivalent to NMF. Unlike the previous work, we formulate the spectral clustering as a factorization of data matrix (or scaled data matrix) rather than the symmetrical factorization of the symmetrical pairwise similarity matrix as the previous study did. Under the NMF framework, where regularization can be easily incorporated into the spectral clustering, we propose several non-negative and sparse spectral clustering algorithms. Empirical studies on real world data show much better clustering accuracy of the proposed algorithms than some state-of-the-art methods such as ratio cut and normalized cut spectral clustering and non-negative Laplacian embedding.  相似文献   

20.
曹卫东  蔡浩天 《计算机应用研究》2020,37(10):2937-2940,2975
为了提升传统多视图K-means算法在高维数据中的聚类性能,提出了一种鲁棒性大规模多视图数据的自降维K-means算法RMSKMC(robust multi-view subKmeans clustering),通过寻找单个视图上的最优子空间实现高维数据的自降维,利用非负矩阵分解(NMF)对损失函数进行重构,使不同视图共享相同的聚类指示矩阵从而实现多视图信息互补,完成大规模多视图数据的聚类。实验结果表明,在大规模多视图数据集上,该算法比其他多视图聚类算法资源消耗更小,并且能够进行更为准确的聚类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号