首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
为了提升文本聚类效果,改善传统聚类算法在参数设定,稳定性等方面存在的不足,提出新的文本聚类算法TCBIBK(a Text Clustering algorithm Based on Improved BIRCH and K-nearest neighbor)。该算法以BIRCH聚类算法为原型,聚类过程中除判断文本对象与簇的距离外,增加判断簇与簇之间的距离,采取主动的簇合并或分裂,设置动态的阈值。同时结合KNN分类算法,在保证良好聚类效率前提下提升聚类稳定性,将TCBIBK算法应用于文本聚类,能够提高文本聚类效果。对比实验结果表明,该算法聚类有效性与稳定性都得到较大提高。  相似文献   

2.
传统文本聚类方法只适合处理静态样本,且时间复杂度较高。针对该问题,提出一种基于簇相合性的文本增量聚类算法。采用基于词项语义相似度的文本表示模型,利用词项之间的语义信息,通过计算新增文本与已有簇之间的相合性实现对文本的增量聚类。增量处理完部分文本后,对其中错分可能性较大的文本重新指派类别,以进一步提高聚类性能。该算法可在对象数据不断增长或更新的情况下,避免大量重复计算,提高聚类性能。在20 Newsgroups数据集上进行实验,结果表明,与k-means算法和SHC算法相比,该算法可减少聚类时间,提高聚类性能。  相似文献   

3.
魏霖静  练智超  王联国  侯振兴 《计算机科学》2016,43(12):229-233, 259
已有的文本聚类算法大多基于一般的相似性度量而忽略了语义内容,对此提出一种基于最大化文本判别信息的文本聚类算法。首先,分别分析词条对其类簇与其他类簇的判别信息,并且将数据集从输入空间转换至差异分数矩阵空间;然后,设计了一个贪婪算法来筛选矩阵每行的低分数词条;最终,采用最大似然估计对文本差别信息进行平滑处理。仿真实验结果表明,所提方法的文档聚类质量优于其他分层与单层聚类算法,并且具有较好的可解释性与收敛性。  相似文献   

4.
文本聚类在信息过滤和网页分类等方面有着较好的应用,可是它面临数据维数很高的难点.由于维度很高,使得经典的聚类算法难以有效处理.针对这个问题给出了一种快速鲁棒的映射聚类算法,其中利用关联规则查询簇的相关维,然后使用相关维进行进一步的分析.实验结果说明了该算法具有速度快以及较好的鲁棒性等特点,可以应用在文本聚类中.  相似文献   

5.
一种改进的K均值文本聚类算法   总被引:1,自引:0,他引:1  
提出了一种改进的K均值文本聚类算法.该算法的改进基于以下两点:1)基于簇密度与文本间距离选取初始簇中心,引入置信半径来得到簇密度,即选取距离最远且簇密度最大的点为初始簇中心;2)基于权重的海明距离来计算文本相似度,同时采用轮廓系数来衡量不同算法的聚类质量.实验结果表明:该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量.  相似文献   

6.
传统的文本聚类往往采用词包模型构建文本向量,忽略了词语间丰富的语义信息。而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开,不能很好地发现人们感兴趣的话题。该文针对传统文本聚类算法的缺点,提出一种基于语义和完全子图的短文本聚类算法,通过对目前主流的三大语义模型进行了实验和对比,选择了一种较为先进的语义模型,基于该语义模型进行了聚类实验,发现新算法能较好地挖掘句子的语义信息且较传统的K-means有更高的聚类纯度。
  相似文献   

7.
基于文本聚类搜索引擎的查询扩展算法   总被引:2,自引:0,他引:2       下载免费PDF全文
目前多数基于文本聚类搜索引擎的研究对于聚类产生的小聚类簇查询未能给出深入查询解决方案,针对此类问题提出了一种基于聚类的查询扩展算法。此算法利用簇关系树结构改进相似度公式,对目标簇提取主题词并进行二次查询后,通过K中值聚类算法对查询结果进行聚类以对其进行扩展。此算法全部过程均为离线运算,旨在避免在线运算影响查询响应效率,并通过实验验证了该算法的有效性。  相似文献   

8.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

9.
最大距离法选取初始簇中心的K-means文本聚类算法的研究   总被引:1,自引:0,他引:1  
由于初始簇中心的随机选择, K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题, 提出了最大距离法选取初始簇中心的K-means文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类, 构造了一种将文本相似度转换为文本距离的方法, 同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中, 对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析, 其结果表明, 与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比, 新提出的文本聚类算法在降低了聚类总耗时的同时, F度量值也有了明显提高。  相似文献   

10.
基于改进DBSCAN算法的文本聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
蔡岳  袁津生 《计算机工程》2011,37(12):50-52
目前多数聚类算法不能很好地适应文本聚类的快速自适应需求。为此,论述DBSCAN算法的基本原理和实现过程,提出一种基于改进DBSCAN算法的文本聚类算法,利用最小二乘法降低文本向量的维度,并创建一种应用于DBSCAN算法的簇关系树结构。实验结果表明,该算法能自适应地进行文本聚类,且与DBSCAN相比,准确率较高。  相似文献   

11.
周腾 《软件》2012,(7):105-107
介绍了蚁群算法和聚类分析,针对传统蚁群聚类算法参数设置对结果影响大的缺点,提出了一种自适应蚁群聚类算法。主要通过对传统蚁群算法的参数进行简化,增加对局部相似度的运算,使蚂蚁的移动具有一定的方向性,从而降低蚂蚁移动的随机性,对待聚类模式的主成分分析再进行聚类,简化聚类的过程。最后在MATLAB上做了仿真实验,实验结果分析表明,运用该算法能得到较好的聚类结果,从而说明该算法是可行的。  相似文献   

12.
一种用于储层含油性识别的蚁群聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对储层含油性识别过程的复杂性和不确定性,提出一种改进的蚁群聚类算法.将储层类别作为变量,以Jaccard系数衡量聚类结果与已知类结构的一致性,以类内样本与类中心的方差衡量类内的紧密度,利用改进的蚁群算法实现样本的最优划分.实验结果显示,该算法得到的聚类结果与已知的测井解释结论一致度高,类内的紧密程度高,对储层含油性识...  相似文献   

13.
边缘检测是图像分割和模式识别的必要工作。首先分析了传统的导数算子Sobel和Canny的检测原理及其优缺点。然后针对图像边缘检测的特点,从模糊聚类角度出发,提出一种改进的蚁群算法。根据图像灰度和梯度特征设置初始聚类中心,改进启发式函数,将蚁群算法得到的聚类中心作为模糊C均值聚类的初始中心,再进行FCM聚类,实现基于目标函数的模糊聚类。最后对文中提到的各种算法的实验结果进行比较与分析,结果表明文中改进算法是有效的。  相似文献   

14.
蚁群聚类组合方法的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
基于蚁群算法的聚类算法已经在当前的数据挖掘研究中得到应用。针对蚁群聚类算法早期出现的缺点,提出一种蚁群聚类组合方法使其得以改进。改进思路是引入K-means作为蚁群算法的预处理过程。通过K-means快速、粗略地确定聚类中心,利用K-means方法的结果作为初值,再进行蚁群算法聚类。有效地解决了蚁群算法早期收敛过慢等问题。  相似文献   

15.
基于粒度原理的蚁群聚类算法   总被引:3,自引:0,他引:3  
朱树人  匡芳君  王艳华 《计算机工程》2005,31(23):162-163,166
在过去10多年中,蚁群算法(AC)的研究和应用取得了很大的进展,大量结果证明了算法的有效性和在某些领域的优势。文章从信息粒度的角度出发,解决了传统聚类算法中对样本“抱团”性质的客观描述和分类算法中分类专家主观先验知识之间的不协调性。并将蚁群系统模型引入聚类模型中,提出了一种基于粒度原理的蚁群聚类新方法。仿真结果表明上述方法是可行和有效的。  相似文献   

16.
基本蚁群聚类算法不必设置初始聚类中心,具有良好的全局搜索能力,但是算法的执行效率低。为此提出了一种改进的蚁群聚类组合算法,该算法引入了K-means算法的思想,在形成新类时设置阈值,利用连通性合并类,使改进后的算法在确保收敛速度的同时,提高了聚类的准确度。实验表明,该算法具有计算效率高、聚类能力强等优点,可用来获得全局最优解。  相似文献   

17.
针对单一聚类算法在图像分割中容易陷人局部最优或有过分割现象,造成分割精确度低等问题,文章提出了基于K-均值聚类和蚁群聚类相结合的新算法.新算法先将K-均值算法作快速分类,根据K-均值分类结果更新蚂蚁各路径上的信息素,指导其他蚂蚁选择,以提高蚁群聚类算法的运行效率.实验结果证明,新算法在图像分割处理的精确度上较单一的K均...  相似文献   

18.
针对蚁群融合模糊C-means (FCM)聚类算法在蛋白质相互作用网络中进行复合物识别的准确率不高、召回率较低以及时间性能不佳等问题进行了研究,提出一种基于模糊蚁群的加权蛋白质复合物识别算法FAC-PC(algorithm for identifying weighted protein complexes based on fuzzy ant colony clustering)。首先,融合边聚集系数与基因共表达的皮尔森相关系数构建加权网络;其次提出EPS(essential protein selection)度量公式来选取关键蛋白质,遍历关键蛋白质的邻居节点,设计蛋白质适应度PFC(protein fitness calculation)来获取关键组蛋白质,利用关键组蛋白质替换种子节点进行蚁群聚类,克服蚁群算法中因大量拾起放下和重复合并过滤操作而导致准确率和收敛速度过慢的缺陷;接着设计SI(similarity improvement)度量优化拾起放下概率来对节点进行蚁群聚类进而获得聚类数目;最后将关键蛋白质和通过蚁群聚类得到的聚类数目初始化FCM算法,设计隶属度更新策略来优化隶属度的更新,同时提出兼顾类内距和类间距的FCM迭代目标函数,最终利用改进的FCM完成复合物的识别。将FAC-PC算法应用在DIP数据上进行复合物的识别,实验结果表明FAC-PC算法的准确率和召回率较高,能够较准确地识别蛋白质复合物。  相似文献   

19.
基于蚁群优化算法的彩色图像颜色聚类的研究   总被引:5,自引:0,他引:5  
颜色聚类是计算机视觉和图形学中基本的处理问题 .提出了蚁群聚类算法在彩色图像颜色聚类中应用的新思路 .根据蚁群 pick- drop机制的基本原理 ,提出了在 RGB彩色空间中 ,改进的蚁群算法在彩色图像像素的颜色值聚类中的应用 ,最后进行像素的颜色映射 ,从而完成量化工作 .实验表明 ,采用该算法进行色彩的量化更具鲁棒性 ,颜色失真小 ,同时实现简单  相似文献   

20.
传统的蚁群聚类算法将聚类数据的每一维属性都等同看待,而在实际的应用中各维属性对聚类的贡献率不一,具有主次之分,若将所有属性赋予相同的权重,将对聚类的效果造成影响.为了克服这个缺陷,本文将主成份分析(PCA)方法引入到蚁群聚类当中,利用PCA计算属性的贡献率并以此构建属性的权重.在此基础上,结合一个新的初始化策略,提出了一种属性带权的改进蚁群聚类算法.通过对多个UCI数据集的测试,验证了本算法的有效性.实验结果表明,合理的权重分配能够有效的提高蚁群聚类的质量.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号