首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
谱聚类方法研究及其在Weka中的实现   总被引:1,自引:1,他引:0  
介绍了谱聚类方法的基本原理和算法思想,针对谱聚类方法优化问题求解的困难,分析了一种有原则的求解策略,从而给出算法的具体描述,并作为一个插件在Weka上进行了实现.对实现的系统进行了实验和测试,指出了应用中的关键问题.实验结果表明,谱聚类方法效果优于K-means方法.  相似文献   

2.
一种基于SOM和K-means的文档聚类算法   总被引:9,自引:0,他引:9  
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中心,再用K—means算法对文档聚类。实验结果表明,该聚类组合算法能改进文档聚类的性能。  相似文献   

3.
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。  相似文献   

4.
为了克服Weka系统在聚类算法方面的不足,在Weka的开源环境下进行了二次开发,扩充了聚类算法。介绍了Chameleon算法的基本原理和构建步骤,给出算法的具体描述,并将Chameleon算法嵌入Weka平台,充分利用了其中的类和可视化功能。对实现的系统进行了实验和测试,并对嵌入的算法和原有聚类算法k—means进行了对比分析。实验结果表明,Chameleon算法可获得更好的聚类效果。  相似文献   

5.
针对开源数据挖掘平台Weka在聚类方面只集成了少数聚类算法的缺点,对其进行二次开发,扩充其聚类算法。介绍FCM算法的基本思想和算法描述,将FCM算法嵌入到Weka平台,充分利用Weka的类和可视化功能。选取一种实例密度加权的方法对该算法进行改进,调整聚类中心位置,并将改进后的算法与原算法进行实验比较分析。实验结果表明,改进后的算法明显减少了迭代次数,并获得更好的聚类效果。  相似文献   

6.
改进的K-means 算法在网络舆情分析中的应用   总被引:1,自引:0,他引:1  
结合网络舆情分析的应用需求背景,首先介绍了文本信息的处理,然后探讨了文本聚类中的K-means算法,针对其对初始聚类中心的依赖性的特点,对算法加以改进。基于文档标题能够代表文档内容的思想,改进算法采用稀疏特征向量表示文本标题,计算标题间的稀疏相似度,确定初始聚类中心。最后实验证明改进的K-means算法提高了聚类的准确度;与基于最大最小距离原则的初始中心选择算法比较,提高了执行效率,同时保证了聚类准确度。  相似文献   

7.
位置加权文本聚类算法   总被引:2,自引:2,他引:0  
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。本文针对特征词在文档中的不同位置对文档的贡献大小不同,提出了基于特征词的位置加权文本聚类改进算法——TCABPW。通过选取反映文档主题的前L个高权值的特征项构造新的文本特征向量,采用层次聚类和K-means文本聚类相结合的改进算法实现文本聚类。实验结果表明,提出的改进算法在不影响聚类质量的情况下大大地降低了文本聚类的维度,在稳定性和纯度上都有显著提高,获得了较好的聚类效果。  相似文献   

8.
文本聚类算法的设计与实现   总被引:1,自引:1,他引:0  
为了有效地提高丈本聚类的质量和效率,在对已有的层次聚类和K-means算法分析和研究的基础上,针对互联网信息处理量大、实时性高的特点,设计并实现了一种用于高维稀疏相似矩阵的文本聚类算法.该算法结合了层次聚类和K-means聚类的思想,根据一个阈值来控制聚类算法的选取和新簇的建立,并通过文本特征提取和文档相似度矩阵计算实现文本聚类.实验结果表明,该算法的召回率和正确率更高.  相似文献   

9.
介绍了K-means和GAAC聚类算法思想和两种特征提取方法对维吾尔文文本表示及聚类效率的影响.在较大规模文本语料库基础上,分别用K-means和GAAC的方法进行维吾尔文文本聚类实验及性能对比分析,针对经典K-means算法对初始聚类中心的过分依赖性及不稳定性缺点以及GAAC的高计算复杂性,提出了一种结合GACC和K-means的维吾尔文聚类算法.本算法分两步完成聚类操作,首先是GAAC模块从少量文本集中获取最优的初始类中心,然后是K-means模块对大量文本集进行快速聚类.实验结果表明,新算法在聚类准确率和时间复杂度上都有了显著的提高.  相似文献   

10.
针对K-means聚类算法受初始类中心影响,聚类结果容易陷入局部最优导致聚类准确率较低的问题,提出了一种基于自适应布谷鸟搜索的K-means 聚类改进算法,并利用MapReduce编程模型实现了改进算法的并行化。通过搭建的Hadoop分布式计算平台对不同样本数据集分别进行10次准确性实验和效率实验,结果表明:(1)聚类的平均准确率在实验所采用的4种UCI标准数据集上,相比原始K-means聚类算法和基于粒子群优化算法改进的K-means聚类算法都有所提高;(2) 聚类的平均运行效率在实验所采用的5种大小递增的随机数据集上,当数据量较大时,显著优于原始K-means串行算法,稍好于粒子群优化算法改进的并行K-means聚类算法。可以得出结论,在大数据情景下,应用该算法的聚类效果较好。  相似文献   

11.
针对经典K-means聚类算法存在易陷入局部最优解的缺点,提出并实现了一种基于Hadoop的改进型遗传聚类算法.该算法利用遗传算法具有全局性和并行性的特点去处理K-means聚类算法易陷入局部最优的缺点,在此基础上对遗传算法进行改进,然后将改进后的遗传算法与K-means算法相结合,为提高算法执行效率,将其基于Hadoop平台进行了实现.通过实验将该改进方法与经典聚类算法进行对比分析,实验结果表明该方法在聚类准确性和聚类效率上均有较大的提高.  相似文献   

12.
李昕  钱旭  王自强 《计算机工程》2010,36(15):40-42,48
为有效解决文档聚类问题,提出一种基于间隔流形学习的文档聚类算法。该算法利用间隔Fisher分析将高维文档空间降维到低维特征空间,利用支持向量聚类算法进行聚类。在基准文档测试集上的实验结果表明,该算法的聚类性能优于其他常用的文档聚类算法。  相似文献   

13.
为提高K-means聚类算法在高维数据下的聚类效果,提出了一种基于正交非负矩阵分解的K-means聚类算法。该算法对原始数据进行非负矩阵分解,并分别通过改进的Gram-Schmidt正交化和Householder正交化加入了正交约束,以保证低维特征的非负性,增加数据原型矩阵的正交性,然后进行K-means聚类。实验结果表明,基于IGS-ONMF和H-ONMF的K-means聚类算法在处理高维数据上具有更好的聚类效果。  相似文献   

14.
图像分割是图像分析的关键步骤,具有十分重要的应用价值和研究价值。本文K-means聚类的特点,叙述了应用K-means聚类算法进行灰度图像分割,经实验结果表明,此算法能较好的用于图像分割上。  相似文献   

15.
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。  相似文献   

16.
K-means算法是经典的基于划分的聚类算法。针对K-means算法的类簇数目难以确定、对初始聚类中心敏感的缺陷,提出了改进的K-means算法,重新定义了计算样本对象密度的方法,并且运用残差分析的方法从决策图中自动获取初始聚类中心和类簇数目。实验结果表明该算法可获得更好的聚类效果。  相似文献   

17.
针对K-means聚类算法存在初始聚类中心影响聚类精度的问题,提出采用生物地理学算法优化K-means聚类中心,使其能提高聚类算法的准确率.在基准数据集中对本算法进行实验,其结果表明改进算法具有良好的性能.其次,采用改进的K-means聚类算法对不同工况下的锅炉燃烧工艺参数进行聚类,并挖掘出每一类中热效率最高时的燃烧工...  相似文献   

18.
Web文本表示方法作为所有Web文本分析的基础工作,对文本分析的结果有深远的影响。提出了一种多维度的Web文本表示方法。传统的文本表示方法一般都是从文本内容中提取特征,而文档的深层次特征和外部特征也可以用来表示文本。本文主要研究文本的表层特征、隐含特征和社交特征,其中表层特征和隐含特征可以由文本内容中提取和学习得到,而文本的社交特征可以通过分析文档与用户的交互行为得到。所提出的多维度文本表示方法具有易用性,可以应用于各种文本分析模型中。在实验中,改进了两种常用的文本聚类算法——K-means和层次聚类算法,并命名为多维度K-means MDKM和多维度层次聚类算法MDHAC。通过大量的实验表明了本方法的高效性。此外,我们在各种特征的结合实验结果中还有一些深层次的发现。  相似文献   

19.
将集成学习方法应用到XML文档聚类中来改进传统聚类算法的不足。提出一种标签与路径相结合的XML文档向量模型,基于这个模型,首先对原始文档集进行多次抽样,在新文档集上进行K均值聚类,然后对得到的聚类中心集合进行层次聚类。在人工数据集和真实数据集上的实验表明,该算法在召回率和精确率上优于K均值算法,并且增强了其鲁棒性。  相似文献   

20.
牛雷  孙忠林 《计算机科学》2018,45(2):226-230
初始聚类中心是指在聚类的过程中首次被选为中心的点或对象。针对传统的K-means算法由于随机选择初始聚类中心而造成的聚类结果不稳定的问题,提出PCA-AKM算法。该算法利用主成分分析方法提取数据集中的主要成分,实现数据降维,使用自定义指标密权值选择初始聚类中心,避免聚类中心局部最优问题。将该算法与K-means算法在UCI数据集上进行聚类对比,其聚类稳定性高于传统K-means算法。 在KDD CUP99数据集上,对所提算法进行入侵检测仿真,实验结果证明该算法检测率高,误检率低,能够有效提高入侵检测的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号