首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
对互联网产生的大量短文本进行聚类分析具有重要的应用价值,但由于短文本存在特征稀疏和特征难以提取的问题,导致传统的文本聚类算法难以有效处理该问题。为了解决该问题,利用非负矩阵分解(NMF)模型提出基于加权核非负矩阵分解(WKNMF)的短文本聚类算法。该算法通过核方法的映射关系将稀疏特征空间映射到高维隐性空间,从而可以充分利用短文本中的隐性语义特征进行聚类;另外,利用核技巧简化高维数据的复杂运算,并通过迭代更新规则不断地动态调整短文本的权重向量,从而可以区分不同短文本对聚类的重要性。在真实的微博数据集上进行了相关实验,结果表明WKNMF算法比K均值、隐含狄利克雷分布(LDA)、NMF和自组织神经网络(SOM)具有更好的聚类质量,准确度和归一化互信息分别达到了66.38%和66.91%。  相似文献   

2.
孙静  蔡希彪  孙福明 《计算机应用》2017,37(10):2834-2840
针对非负矩阵分解后数据的稀疏性降低、单一图像特征不能够很好地描述图像内容的问题,提出一种基于特征融合的多约束非负矩阵分解算法。该算法不仅考虑了少量已知样本的标签信息和稀疏约束,还对其进行了图正则化处理,而且将分解后的具有不同稀疏度的图像特征进行了融合,从而增强了算法的聚类性能和有效性。在Yale-32和COIL20数据集上进行的对比实验进一步验证了该算法具有更好的聚类精度和稀疏性。  相似文献   

3.
提出一种基于非负矩阵分解(NMF)的双重约束文本聚类算法。在正交三重NMF模型中,加入文本空间的成对约束信息和词空间的类别约束信息,将不同的特征词项进行分类。利用迭代规则对原始的词-文档矩阵进行分解,获得文本聚类结果。与多种传统半监督文本聚类算法的对比结果表明,该算法具有较高的聚类精度,能提供更准确和有效的聚类结果。  相似文献   

4.
针对传统的非负矩阵分解(NMF)应用于聚类时,没有同时考虑到鲁棒性和稀疏性,导致聚类性能较低的问题,提出了基于核技巧和超图正则的稀疏非负矩阵分解算法(KHGNMF)。首先,在继承核技巧的良好性能的基础上,用L2,1范数改进标准非负矩阵分解中的F范数,并添加超图正则项以尽可能多地保留原始数据间的内在几何结构信息;其次,引入L2,1/2伪范数和L1/2正则项作为稀疏约束合并到NMF模型中;最后,提出新算法并将新算法应用于图像聚类。在6个标准的数据集上进行验证,实验结果表明,相对于非线性正交图正则非负矩阵分解方法,KHGNMF使聚类性能(精度和归一化互信息)成功地提升了39%~54%,有效地改善和提高了算法的稀疏性和鲁棒性,聚类效果更好。  相似文献   

5.
基于NMF的文本聚类方法   总被引:4,自引:0,他引:4  
黄钢石  陆建江  张亚非 《计算机工程》2004,30(11):113-114,176
提出一种基于非负矩阵分解的文本聚类方法。该方法利用NMF分解项-文本矩阵来降低特征空间维数,并得到文本向量在概念空间上的表示,在此基础上应用聚类算法。实验表明,基于NMF的文本聚类方法能够提高文本聚类精度。  相似文献   

6.
为提高图像特征提取的普适性,提出了一种基于改进非负矩阵分解(NMF)的图像特征提取方法。首先,考虑到提取的图像特征的实际意义,选用非负矩阵分解模型进行图像特征的降维处理;其次,为实现用较小数量系数来描述图像特征,将稀疏约束作为非负矩阵分解模型的正则项之一;然后,为使降维后优化得到的特征具有较好的类间区分性,将聚类属性作为非负矩阵分解的另一个正则项;最后,通过对模型的梯度下降优化求解,获得最优的特征基向量与图像特征向量。实验结果表明,针对3种图像数据库,所提的图像特征更有利于图像正确分类或识别,错误接受率(FAR)与错误拒绝率(FRR)分别可以降低到0.021与0.025。  相似文献   

7.
为了能够提升分解矩阵的稀疏表达能力,提出了一种新的基于平滑l0范数的正交子空间非负矩阵分解方法。通过将分解矩阵的正交性及平滑l0范数约束同时引入矩阵分解的目标函数中一起进行优化,大大降低了计算复杂度,并提升了分解矩阵的稀疏表达能力。同时给出了分解矩阵的乘积更新迭代规则。通过在三个真实数据库(Iris,UCI,ORL)上的实验表明,该方法在分解所得矩阵的稀疏表示方面及将其应用于聚类问题所取得的聚类效果方面优于其他方法。  相似文献   

8.
针对非负矩阵分解(NMF)相对稀疏或局部化描述原数据时导致的稀疏能力和程度比较弱的问题,提出了L1范数约束正交子空间非负矩阵分解方法.通过将L1范数约束引入到正交子空间非负矩阵分解的目标函数中,提升了分解结果的稀疏性.同时给出累乘迭代规则.在UCI、ORL和Yale三个数据库上进行的实验结果表明,该算法在聚类效果以及稀疏表达方面优于其他算法.  相似文献   

9.
针对微博文本内容短、稀疏、高维等特点,提出一种改进的半监督微博聚类算法。该算法利用词项间的关系丰富文本特征,通过定义词项文档间关联关系和词项文档内关联关系揭示词项间语义的关联程度,并由此自动生成有标记的数据来指导聚类过程。对词项先验信息进行成对约束编码,构建基于词项间成对约束的三重非负矩阵分解模型来实现微博的半监督聚类。实验结果表明,该算法可以减少繁琐的人工标记过程,并能高效地进行微博聚类。  相似文献   

10.
姜小燕  孙福明  李豪杰 《计算机科学》2016,43(7):77-82, 105
非负矩阵分解是在矩阵非负约束下的分解算法。为了提高识别率,提出了一种基于稀疏约束和图正则化的半监督非负矩阵分解方法。该方法对样本数据进行低维非负分解时,既保持数据的几何结构,又利用已知样本的标签信息进行半监督学习,而且对基矩阵施加稀疏性约束,最后将它们整合于单个目标函数中。构造了一个有效的更新算法,并且在理论上证明了该算法的收敛性。在多个人脸数据库上的仿真结果表明,相对于NMF、GNMF、CNMF等算法,GCNMFS具有更好的聚类精度和稀疏性。  相似文献   

11.
基于信息粒度的文本聚类算法   总被引:1,自引:0,他引:1  
根据文本对象数据的高维性,稀疏性的特点,提出一种基于信息粒度原理的文本聚类方法.首先在给出文本的稀疏特征,文本的稀疏特征向量,文本的稀疏相似度,等价关系隶属度,广义的等价关系等定义的基础上,利用信息粒度原理生成初始聚类,然后提出并理论推导类间相似度的计算方法,进行类的归并.该算法聚类过程不依赖于输入样本的排列顺序,文本数据的有效压缩提高了算法的执行效率.  相似文献   

12.
基于改进NMFSC方法的人耳识别   总被引:4,自引:0,他引:4  
张玉  穆志纯 《计算机应用》2006,26(4):790-792
针对人耳识别问题,提出了一种改进的稀疏性受限的非负矩阵因子(NMFSC)方法,通过增加一个使系数矩阵尽可能正交的约束条件来定义原目标函数,给出求解该目标函数的迭代规则,并证明迭代规则的收敛性。同时对人耳进行子区域划分,根据聚类规则对各子区域选择适当的权值,实现局部相似度到整体相似度的最佳映射。实验结果表明了该算法的优越性。  相似文献   

13.
社交媒体的广泛使用使短文本聚类成为一个重要的研究课题。但短文本词向量的高维、稀疏性限制了传统文本聚类方法在短文本中的效果,并且由于词的稀疏性,词对簇结构的判别能力对短文本类结构的学习显得尤为重要。本文我们提出了一种基于概率模型的具有词判别力学习能力的短文本聚类框架,并在经典文本聚类模型LDA(Ldatant Drichilet Allocation)、BTM(Biterm Topic Model)和GSDMM(Gibbs Sampling Drichilet Mutitional Mixture model)模型中验证了词判别力学习对类结构学习的有效性。通过Gibbs采样算法对模型中的参数进行求解。最后在真实数据集上的实验结果显示具有词判别力学习的概率模型可以提高已有模型的聚类效果。  相似文献   

14.
针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用K Means算法对Web服务进行聚类。通过与LDA、TF IDF等方法进行对比发现,该方法在聚类纯度、熵和F Measure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。  相似文献   

15.
胡学考  孙福明  李豪杰 《计算机科学》2015,42(7):280-284, 304
矩阵分解因可以实现大规模数据处理而具有十分广泛的应用。非负矩阵分解(Nonnegative Matrix Factorization,NMF)是一种在约束矩阵元素为非负的条件下进行的分解方法。利用少量已知样本的标注信息和大量未标注样本,并施加稀疏性约束,构造了一种新的算法——基于稀疏约束的半监督非负矩阵分解算法。推导了其有效的更新算法,并证明了该算法的收敛性。在常见的人脸数据库上进行了验证,实验结果表明CNMFS算法相对于NMF和CNMF等算法具有较好的稀疏性和聚类精度。  相似文献   

16.
检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。  相似文献   

17.
论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果.  相似文献   

18.
在文本情感分析时,使用无监督的聚类方法,可以有效节省人力和数据资源,但同时也面临聚类精度不高的问题。相似性是文本聚类的主要依据,该文从文本相似度计算的角度,针对情感聚类中文本—特征向量的高维和稀疏问题,以及对评论文本潜在情感因素的表示问题,提出一种基于子空间的文本语义相似度计算方法(RESS)。实验结果表明,基于RESS的文本相似度计算方法,有效解决了文本向量的高维问题,更好地表达了文本间情感相似性,并获得较好的聚类结果。  相似文献   

19.
提出一种自动文本聚类方法,应用遗传算法进行全局和快速的文本特征项选择以实现降维处理,引入概率匿名思想,根据文本中不同特征项权重的组合,基于动态规划设计一个优化的多项式时间聚类算法,将文本集划分成适当个数的分区,并对每个分区进行聚类,从而形成初始聚类,采用相同方法对所有初始聚类进行再聚类,形成最终的文本聚类。实验结果表明,该方法既能实现文本特征项的有效选择,又能较好地改善文本聚类效果和性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号