首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
为了提高文本聚类的有效性,提出一种基于网络社团结构的文本聚类算法。基于语义知识库理论,利用文本集与词语间的关系,引入文本相似度概念,再结合Newman社团聚类算法特性,将文本集作为独立社团,用文本相似度表示社团联系的紧密程度,对网络文本进行聚类。实验结果表明,该方法有效可行。  相似文献   

2.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。  相似文献   

3.
提出并设计了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和划分聚类的思想,通过一个阈值来控制聚类算法的选取和新簇的建立.从一个小样本的实验结果来看,该算法的召回率和正确率比各种经典的方法更高.  相似文献   

4.
提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了 k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中.实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性.  相似文献   

5.
针对现有聚类集成谱算法聚类结果不稳定的问题,引入近邻传播聚类思想,设计了基于近邻传播的聚类集成谱算法(APCESA).该算法先由聚类集成和谱分得到空间结构相对简单的文本低维嵌入,然后通过近邻传播算法得到最终的聚类结果.在谱分解过程中,采用矩阵变换方法,避免了谱算法中特征值分解的高昂计算代价.对真实文本数据集的实验结果表明,所提算法比对比算法聚类更稳定,且聚类结果的NMI值和ANMI值均高于对比算法.  相似文献   

6.
一种基于向量空间模型的文本聚类方法   总被引:1,自引:0,他引:1  
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的.  相似文献   

7.
针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。  相似文献   

8.
针对谱聚类算法相似度函数设置困难问题,提出了一种使用证据累积的文本聚类谱算法.该算法使用超球K均值算法对文本集进行多次聚类,并将每次得到的划分结果作为判断2个文本是否应该放在一个簇中的证据,由此构建文本的相似度矩阵和正则化拉普拉斯矩阵.在TREC和Reuters文本集上进行了实验,验证了本文算法的有效性,它比层次聚类算法和CLUTO提供的K均值算法更加优越.  相似文献   

9.
通过研究Hadoop平台和MapReduce编程框架,提出了一个基于MapReduce的并行遮盖文本聚类算法.遮盖算法提出了两个距离阈值T1,T2用来构建重叠子集,避免了传统聚类算法对噪声敏感的缺点.同时采用适当的快速近似距离度量,大大加快了聚类速度.实验表明该算法在MapReduce框架下有良好的集群加速性能,适合处理大规模的数据集.  相似文献   

10.
相对于传统的纸媒体,网络媒体中的数据具有更新速度快、用户参与度高、覆盖面广等特点。如何协助用户在较短时间了解网络媒体中的主题信息,是一个亟待研究的领域。目前,文本主题聚类的研究技术还不够成熟,且在国内处于不断研究的阶段,尤其是在中文文本领域。对国内外主题检测研究现状、主题挖掘基本步骤、聚类算法的优缺点等方面进行了系统的概述,指出了当前研究方法的不足以及未来可研究的方向。  相似文献   

11.
一种改进的k-means中文文本聚类算法   总被引:3,自引:0,他引:3  
提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性。  相似文献   

12.
针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同  相似文献   

13.
随着文本数据的快速积累,文本自动分析成为管理和利用海量文本数据的重要手段。其中,文本聚类是文本分析的基本任务之一。本文着重介绍文本分析与谱聚类的研究进展,阐述目前在文本分析中应用谱聚类技术的主要方法,旨在为文本分析中谱聚类方法的应用提供引导作用。  相似文献   

14.
基于遗传算法的动态模糊聚类基于遗传算法的动态模糊聚类   总被引:13,自引:0,他引:13  
提出了一种基于遗传算法的动态模糊聚类方法。通过计算样本之间的模糊相似性,不失真地反映它们之间的内在关联。同时将样本之间的模糊相似性映射到样本之间的欧氏距离,即将高维样本映射到二维平面。利用遗传算法不断优化两者之间的映射,使样本之间的欧氏距离逐步趋近于其模糊相似性,实现动态模糊聚类。克服了聚类有效性对样本分布的依赖性;同时,增加了聚类的灵活性和可视化。该方法在性能上较经典的模糊聚类算法有一定改进,具有较好的聚类效果和较快的收敛速度。仿真实验结果证明了该方法的可行性和有效性。  相似文献   

15.
VSM在中文文本聚类中的应用及实证分析   总被引:7,自引:0,他引:7  
文本聚类Web文本挖掘的一个重要分支,而文本表示方法是文本聚类的基础。重点讨论了文本表示方法中最常用到的向量空间模型,分析了其优势和不足,并基于一个文本处理实验,对VSM模型从可实现角度给出改进建议。  相似文献   

16.
面向舆情分析的短文本频繁模式聚类算法   总被引:1,自引:0,他引:1  
基于短文本的舆情分析是当前信息挖掘与情感分析领域的研究重点,针对网络环境中大量的短文本信息的鲜明特点,本文突破了传统基于词的分类方法,提出一种基于后缀数组频繁模式发现的聚类算法,利用后缀数组频繁模式精确去重算法得到关键词库,结合局部性原理对位置点聚类之后作有意义字串挖掘,进而进行文本舆情分析,以便及时动态了解网络群体的情感方向以及社会舆情热点。  相似文献   

17.
针对模糊聚类算法存在的问题,通过对聚类有效性函数的分析,对聚类数c和加权指数m进行改进,将改进后的模糊聚类算法引入BP算法中,建立基于模糊聚类与BP算法的混合模型,并进行实验分析,分析结果表明,混合模型在准备性上优于传统的BP算法,因为数据经过模糊聚类之后同类数据具有更多的相似特征。  相似文献   

18.
基于字符串相似性聚类的网络短文本舆情热点发现技术   总被引:2,自引:0,他引:2  
将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.实验结果表明,本文提出方法有效.  相似文献   

19.
工业过程中多数系统呈现出非线性、时变性和多模态性等特征,往往难于用机理建模的方法建立它的模型,因此利用系统的输入和输出数据进行非机理建模是非常有意义的。对C-R模糊模型进行了改进,应用关系度聚类算法在线辨识出系统的模态,即系统C-R模型的模糊子空间的数目,提出了C-R模糊模型的聚类建模方法,仿真结果表明了该算法的有效性,节省了运算时间,简化了运算过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号