共查询到19条相似文献,搜索用时 140 毫秒
1.
针对标题文本聚类中的聚类结果不稳定问题,提出一种基于聚类融合的标题文本聚类方法。该方法对标题文本的特征词进行筛选,将标题文本转化为特征词集合;提出基于统计和语义的相似度计算方法,计算特征词集合间的相似度;引入基于共协矩阵的聚类融合算法,得出聚类结果。实验结果表明,和传统聚类算法相比,该方法提升了标题文本聚类的稳定性。 相似文献
2.
3.
4.
谱聚类方法的应用已经开始从图像分割领域扩展到文本挖掘领域中,并取得了一定的成果。在自动确定聚类数目的基础上,结合模糊理论与谱聚类算法,提出了一种应用在多文本聚类中的模糊聚类算法,该算法主要描述了如何实现单个文本同时属于多个文本类的模糊谱聚类方法。实验仿真结果表明该算法具有很好的聚类效果。 相似文献
5.
徐浙君 《计算机光盘软件与应用》2014,(14):128-129
由于文本呈现的多样性和大量性,模糊聚类在文本聚类中扮演着越来越重要的角色。而应用最广泛的FCM算法存在着初始中心敏感的问题,对此本文提出了一种基于采样遗传的FCM算法(SGFCM)。该方法通过遗传算法的全局寻优能力来优化FCM算法的初始聚类中心,由此来提高聚类的质量及聚类的速度。实验证明该方法在文本软聚类应用中是有效的。 相似文献
6.
基于PAT-array和模糊聚类的文本聚类方法 总被引:5,自引:0,他引:5
阐述了基于后缀树的文本聚类(STC)算法,对其所存在的缺陷进行了分析,并在此基础上提出了采用PAT-array和模糊聚类相结合的方法对其进行的改进,以提高聚类的质量。 相似文献
7.
基于信息论的潜在概念获取与文本聚类 总被引:7,自引:3,他引:4
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法. 相似文献
8.
9.
文本聚类是聚类的一个重要的研究方向,是聚类在文本处理领域的重要应用.但是,传统的聚类算法在文本聚类应用中的表现并不能让人满意.文中将一种新的聚类算法--Chameleon算法引入中文文本聚类领域中.在构建中文文本聚类模型的基础上结合了分词、文本向量化等技术进行了相关实验.实验的结果表明Chameleon算法可以应用在中文文本聚类领域中,同时也解决了传统算法在聚类形状发现方面的不足.相关实验说明了这种算法在中文文本聚类领域应用中的有效性和实用性. 相似文献
10.
基于Kolmogorov复杂性的聚类算法虽然具有普适性、参数无关性的优点,但是应用到文本内容语义信息聚类时往往准确率较低。针对这一问题,提出了一种基于特征扩展的文本聚类改进算法——DEF-KC算法。该算法通过引用百度百科中特定词条的信息,对预处理过的文本中的关键词进行特征扩展,从而提高特征词的主题贡献度,增强文本的结构辨识度,并通过选取特定压缩算法近似计算Kolmogorov复杂性得到文本相似度,最后使用谱聚类算法进行聚类。实验结果表明,与传统的基于Kolmogorov复杂性的文本聚类算法相比,使用该算法时聚类准确率和召回率均得到了较大提升。 相似文献
11.
针对模糊文本聚类算法(FCM)对输入顺序以及初始点敏感的问题,提出了一种使用蚁群优化的模糊聚类算法(FACA)。该算法采用蚁群聚类算法(ACA)找到聚类的初始中心点,以解决模糊聚类的输入顺序以及初始点敏感等问题。模糊文本聚类算法的线性复杂度使其更便于在计算机实现。与经典的基本模糊聚类以及蚁群聚类在真实数据集上仿真相比较,结果表明经蚁群优化过的模糊聚类算法(FACA)效果更有效,更适合应用于大型的数据集。 相似文献
12.
一种结合主动学习的半监督文档聚类算法 总被引:1,自引:0,他引:1
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法. 相似文献
13.
随着信息的爆炸式增长,现有的搜索引擎在很多方面不能满足人们的需要。Web文档聚类可以减小搜索空间,加快检索速度,提高查询精度。提出了一种融合SOM(Self-Organizing Maps)粗聚类和改进PSO(Particle Swarm Optimization)细聚类的Web文档集成聚类算法。首先根据向量空间模型表示法,用特征词条及其权值表示Web文档信息,其次用SOM算法对文档特征集进行粗聚类,得到一组输出权值,然后用这组权值初始化改进的PSO算法,用改进PSO算法对此聚类结果进行细化,最终实现Web文档聚类。仿真结果表明,该算法能有效提高文档查询的查准率和查全率,具有一定的实用价值。 相似文献
14.
15.
16.
17.
18.
研究基于频繁结构的XML文档聚类方法,其频繁结构包括频繁路径和频繁子树。首先介绍一种挖掘XML文档中所有嵌入频繁子树的算法SSTMiner,对SSTMiner算法进行修改,得到FrePathMiner算法和FreTreeMiner算法,分别用于挖掘XML文档中最大频繁路径和最大频繁子树,在此基础上,提出一种凝聚的层次聚类算法XMLCluster,分别以最大频繁路径和最大频繁子树作为XML文档的特征,对文档进行聚类。实验结果表明FrePathMiner算法和FreTreeMiner算法找到频繁结构的数量都比传统的ASPMiner算法多,这就可以为文档聚类提供更多的结构特征,从而获得更高的聚类精度。 相似文献