共查询到10条相似文献,搜索用时 6 毫秒
1.
2.
3.
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性. 相似文献
4.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大。遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化。另外,本文提出基于《知网》特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维。实验结果表明,基于《知网》和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定。 相似文献
5.
特征选择是文本聚类的重要环节,传统的阈值截断特征选择方法偏重高权重项,受特征词权重计算公式影响较大.遗传算法具有全局搜索的能力,并允许权重低的特征项以一定概率参与遗传进化.另外,本文提出基于<知网>特征词合并算法,通过合并具有高度相似性的特征词,实现初步降维.实验结果表明,基于<知网>和遗传算法的中文文本聚类特征选择方法能够有效降低特征向量维度,并且聚类结果较为稳定. 相似文献
6.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。 相似文献
7.
吕岩 《微电子学与计算机》2012,29(3):31-34
提出了一种改进蚁群文本聚类算法.改进蚁群文本聚类算法利用信息素对蚂蚁随机移动进行控制,使蚂蚁朝着文本向量相对集中的区域移动,缩短蚂蚁寻找文本向量簇的时间,提高聚类效率.采用复旦大学中文文本分类语料库进行仿真实验,实验结果表明,改进蚁群文本聚类算法不仅加快了文本聚类算法的收敛速度,而且提高文本聚类结果的精度. 相似文献
8.
采用了空间解析几何中的球极映射方法,形成高维向量到低维向量的拓扑变换模型,实现了矩阵形武的高维空间文本集合到低维空间文本集合的一一映射,编制了相应的算法,从而有效地解决了文本挖掘中的非线性降维问题,克服了以往研究中的缺陷. 相似文献
9.
10.
基于蚁群算法的文本分类和聚类 总被引:2,自引:1,他引:1
为了研究并提高文本的分类和聚类算法的性能,笔者根据蚁群算法在TSP问题中的应用方法,将其改进引用到文本的分聚类中。在文本聚类中,改变蚂蚁的信息素释放机制,道路节点的聚合方式,最终将相似文本进行聚合。在文本的分类中,将所需要的分类信息装入蚂蚁,蚂蚁根据系统外部所希望的方式将文本分类。实验结果证明,这种新的算法可以使文本分类和聚类的准确度提高,蚁群算法在文本分类聚类中的应用是可行的。 相似文献