共查询到19条相似文献,搜索用时 109 毫秒
1.
对互联网产生的大量短文本进行聚类分析具有重要的应用价值,但由于短文本存在特征稀疏和特征难以提取的问题,导致传统的文本聚类算法难以有效处理该问题。为了解决该问题,利用非负矩阵分解(NMF)模型提出基于加权核非负矩阵分解(WKNMF)的短文本聚类算法。该算法通过核方法的映射关系将稀疏特征空间映射到高维隐性空间,从而可以充分利用短文本中的隐性语义特征进行聚类;另外,利用核技巧简化高维数据的复杂运算,并通过迭代更新规则不断地动态调整短文本的权重向量,从而可以区分不同短文本对聚类的重要性。在真实的微博数据集上进行了相关实验,结果表明WKNMF算法比K均值、隐含狄利克雷分布(LDA)、NMF和自组织神经网络(SOM)具有更好的聚类质量,准确度和归一化互信息分别达到了66.38%和66.91%。 相似文献
2.
3.
4.
针对传统的非负矩阵分解(NMF)应用于聚类时,没有同时考虑到鲁棒性和稀疏性,导致聚类性能较低的问题,提出了基于核技巧和超图正则的稀疏非负矩阵分解算法(KHGNMF)。首先,在继承核技巧的良好性能的基础上,用L2,1范数改进标准非负矩阵分解中的F范数,并添加超图正则项以尽可能多地保留原始数据间的内在几何结构信息;其次,引入L2,1/2伪范数和L1/2正则项作为稀疏约束合并到NMF模型中;最后,提出新算法并将新算法应用于图像聚类。在6个标准的数据集上进行验证,实验结果表明,相对于非线性正交图正则非负矩阵分解方法,KHGNMF使聚类性能(精度和归一化互信息)成功地提升了39%~54%,有效地改善和提高了算法的稀疏性和鲁棒性,聚类效果更好。 相似文献
5.
6.
为提高图像特征提取的普适性,提出了一种基于改进非负矩阵分解(NMF)的图像特征提取方法。首先,考虑到提取的图像特征的实际意义,选用非负矩阵分解模型进行图像特征的降维处理;其次,为实现用较小数量系数来描述图像特征,将稀疏约束作为非负矩阵分解模型的正则项之一;然后,为使降维后优化得到的特征具有较好的类间区分性,将聚类属性作为非负矩阵分解的另一个正则项;最后,通过对模型的梯度下降优化求解,获得最优的特征基向量与图像特征向量。实验结果表明,针对3种图像数据库,所提的图像特征更有利于图像正确分类或识别,错误接受率(FAR)与错误拒绝率(FRR)分别可以降低到0.021与0.025。 相似文献
7.
为了能够提升分解矩阵的稀疏表达能力,提出了一种新的基于平滑l0范数的正交子空间非负矩阵分解方法。通过将分解矩阵的正交性及平滑l0范数约束同时引入矩阵分解的目标函数中一起进行优化,大大降低了计算复杂度,并提升了分解矩阵的稀疏表达能力。同时给出了分解矩阵的乘积更新迭代规则。通过在三个真实数据库(Iris,UCI,ORL)上的实验表明,该方法在分解所得矩阵的稀疏表示方面及将其应用于聚类问题所取得的聚类效果方面优于其他方法。 相似文献
8.
针对非负矩阵分解(NMF)相对稀疏或局部化描述原数据时导致的稀疏能力和程度比较弱的问题,提出了L1范数约束正交子空间非负矩阵分解方法.通过将L1范数约束引入到正交子空间非负矩阵分解的目标函数中,提升了分解结果的稀疏性.同时给出累乘迭代规则.在UCI、ORL和Yale三个数据库上进行的实验结果表明,该算法在聚类效果以及稀疏表达方面优于其他算法. 相似文献
9.
10.
11.
基于信息粒度的文本聚类算法 总被引:1,自引:0,他引:1
根据文本对象数据的高维性,稀疏性的特点,提出一种基于信息粒度原理的文本聚类方法.首先在给出文本的稀疏特征,文本的稀疏特征向量,文本的稀疏相似度,等价关系隶属度,广义的等价关系等定义的基础上,利用信息粒度原理生成初始聚类,然后提出并理论推导类间相似度的计算方法,进行类的归并.该算法聚类过程不依赖于输入样本的排列顺序,文本数据的有效压缩提高了算法的执行效率. 相似文献
12.
基于改进NMFSC方法的人耳识别 总被引:4,自引:0,他引:4
针对人耳识别问题,提出了一种改进的稀疏性受限的非负矩阵因子(NMFSC)方法,通过增加一个使系数矩阵尽可能正交的约束条件来定义原目标函数,给出求解该目标函数的迭代规则,并证明迭代规则的收敛性。同时对人耳进行子区域划分,根据聚类规则对各子区域选择适当的权值,实现局部相似度到整体相似度的最佳映射。实验结果表明了该算法的优越性。 相似文献
13.
社交媒体的广泛使用使短文本聚类成为一个重要的研究课题。但短文本词向量的高维、稀疏性限制了传统文本聚类方法在短文本中的效果,并且由于词的稀疏性,词对簇结构的判别能力对短文本类结构的学习显得尤为重要。本文我们提出了一种基于概率模型的具有词判别力学习能力的短文本聚类框架,并在经典文本聚类模型LDA(Ldatant Drichilet Allocation)、BTM(Biterm Topic Model)和GSDMM(Gibbs Sampling Drichilet Mutitional Mixture model)模型中验证了词判别力学习对类结构学习的有效性。通过Gibbs采样算法对模型中的参数进行求解。最后在真实数据集上的实验结果显示具有词判别力学习的概率模型可以提高已有模型的聚类效果。 相似文献
14.
针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用K Means算法对Web服务进行聚类。通过与LDA、TF IDF等方法进行对比发现,该方法在聚类纯度、熵和F Measure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。 相似文献
15.
矩阵分解因可以实现大规模数据处理而具有十分广泛的应用。非负矩阵分解(Nonnegative Matrix Factorization,NMF)是一种在约束矩阵元素为非负的条件下进行的分解方法。利用少量已知样本的标注信息和大量未标注样本,并施加稀疏性约束,构造了一种新的算法——基于稀疏约束的半监督非负矩阵分解算法。推导了其有效的更新算法,并证明了该算法的收敛性。在常见的人脸数据库上进行了验证,实验结果表明CNMFS算法相对于NMF和CNMF等算法具有较好的稀疏性和聚类精度。 相似文献
16.
检索结果聚类能够帮助用户快速定位需要查找的信息。注重进行中文文本聚类的同时生成高质量的标签,获取搜索引擎返回的网页标题和摘要,利用分词工具对文本分词,去除停用词;统一构建一棵后缀树,以词语为单位插入后缀树各节点,通过词频、词长、词性和位置几项约束条件计算各节点词语得分;合并基类取得分高的节点词作标签。实验结果显示该方法的聚类簇纯度较高,提取的标签准确且区分性较强,方便用户使用。 相似文献
17.
孙滨刘林 《计算机与数字工程》2014,(2):187-189,209
论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果. 相似文献
18.