共查询到17条相似文献,搜索用时 109 毫秒
1.
2.
3.
针对标题文本聚类中的聚类结果不稳定问题,提出一种基于聚类融合的标题文本聚类方法。该方法对标题文本的特征词进行筛选,将标题文本转化为特征词集合;提出基于统计和语义的相似度计算方法,计算特征词集合间的相似度;引入基于共协矩阵的聚类融合算法,得出聚类结果。实验结果表明,和传统聚类算法相比,该方法提升了标题文本聚类的稳定性。 相似文献
4.
5.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。 相似文献
6.
Web文本聚类大多是基于空间向量文本表示模型的,它没有考虑特征词之间的语义关系,并且特征词的维数非常高,造成文本语义信息的损失和时间复杂度的增加。把文本作为对象,文本中的特征词作为对应的属性,形成了基于文本的形式背景,从中提取概念来表示文本并度量文本之间的相似度,从而降低了特征词的维数,减少了计算的复杂度,取得了良好的聚类结果。 相似文献
7.
文本聚类关键是有效解决特征词向量选择及特征词权重计算方法、文本相似度计算方法、聚类中心确定等三个问题。针对相关算法在三个关键环节上存在的问题,提出了适合自由文本特点的特征词权重计算方法和文本相似度计算方法;在此基础上提出了改进的CBC算法,从全局上自适应地确定文本集中的各个聚类中心。算法在实验中准确地确定了各个聚类中心,并在两个文本集上分别获得88.50%和94.00%的聚类准确率。 相似文献
8.
提出一种新的动态模糊聚类的方法,针对传统的模糊聚类需要预先确定聚类数的问题,提出采用动态自组织映射神经网络来确定聚类数,并通过文本向量空间模型和TF-IDF方法来确定文本的特征向量,再将动态自组织映射神经网络得到的聚类数,用模糊C均值算法(FCM)函数处理,得到聚类的结果。该算法同仅用动态自组织映射神经网络算法的运行结果相比,具有运行聚类结果精度高的优点,模糊聚类更适合处理语义的多样性和文本归属的模糊性,实验验证了算法的有效性。 相似文献
9.
短文本因具有特征信息不足且高维稀疏等特点,使得传统文本聚类算法应用于短文本聚类任务时性能有限。针对上述情况,提出一种结合上下文语义的短文本聚类算法。首先借鉴社会网络分析领域的中心性和权威性思想设计了一种结合上下文语义的特征词权重计算方法,在此基础上构建词条-文本矩阵;然后对该矩阵进行奇异值分解,进一步将原始特征词空间映射到低维的潜在语义空间;最后通过改进的K-means聚类算法在低维潜在语义空间完成短文本聚类。实验结果表明,与传统的基于词频及逆向文档频权重的文本聚类算法相比,该算法能有效改善短文本特征不足及高维稀疏性,提高了短文的本聚类效果。 相似文献
10.
11.
12.
基于遗传FCM算法的文本聚类 总被引:4,自引:1,他引:3
本文提出基于遗传FCM算法的文本聚类方法,首先采用LSI方法对文本特征进行降维,然后通过聚类有效性分析得到文本的类别数,最后再采用遗传FCM算法对文本进行聚类,这种方法较好的克服了FCM算法收敛于局部最优的缺陷,很好的解决了FCM算法对初值敏感的问题。实验表明提出的方法具有较好的聚类性能。 相似文献
13.
首先,选择合适的文本集合,并且对文本进行分词处理,然后,进行文档内部特征词的提取,通过采用词频统计的方法对文本向量进行降维处理,从而选择最佳的特征向量。最后,将非数值的文本数据进行量化处理后,利用减聚类优化的模糊C-均值算法对文本集合进行聚类,从而提高文本聚类的效果。 相似文献
14.
孙滨刘林 《计算机与数字工程》2014,(2):187-189,209
论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果. 相似文献
15.
针对大多数现有的深度文本聚类方法在特征映射过程中过于依赖原始数据质量以及关键语义信息丢失的问题,提出了一种基于关键语义信息补足的深度文本聚类算法(DCKSC)。该算法首先通过提取关键词数据对原始文本数据进行数据增强;其次,设计了一个关键语义信息补足模块对传统的自动编码器进行改进,补足映射过程中丢失的关键语义信息;最后,通过综合聚类损失与关键词语义自动编码器的重构损失学习适合于聚类的表示特征。实验证明,提出算法在五个现实数据集上的聚类效果均优于当前先进的聚类方法。聚类结果证明了关键语义信息补足方法和文本数据增强方法对深度文本聚类的重要性。 相似文献
16.
17.
提出一种改进的基于潜在语义索引的文本聚类算法。算法引入潜在语义索引理论,改进传统的SOM算法。用潜在语义索引理论表示文本特征向量,挖掘文本中词与词之间隐藏的语义结构关系,从而消除词语之间的相关性,实现特征向量的降维。改进传统的SOM算法的局限性,准确给出聚类类别数目的值。实验结果表明,本算法的聚类效果更好,聚类时间更少。 相似文献