首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
K-means算法是进行文本聚类时使用最为广泛的一种推荐算法之一.该算法在进行文本聚类时每个属性的作用是同等的,而实际中每个属性对文本的影响是不同的,导致聚类效果受到影响.针对该缺点,通过引入属性权重提出了一种改进的K-means聚类算法,并在Hadoop平台加以实现,以更好体现改进算法的效率.通过实验进行了测试,表明...  相似文献   

2.
最大距离法选取初始簇中心的K-means文本聚类算法的研究   总被引:1,自引:0,他引:1  
由于初始簇中心的随机选择, K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题, 提出了最大距离法选取初始簇中心的K-means文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类, 构造了一种将文本相似度转换为文本距离的方法, 同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中, 对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析, 其结果表明, 与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比, 新提出的文本聚类算法在降低了聚类总耗时的同时, F度量值也有了明显提高。  相似文献   

3.
刘弈  罗念龙 《计算机应用研究》2013,30(10):3001-3006
统计数据轨迹一般具有重视变化趋势、数据噪声较大、模式分布不同等特点, 直接使用传统的聚类分析方法难有很好的效果。对此在K-means算法的基础上, 分别采用了归一化处理、平滑处理以及关键峰匹配等方法处理上述三个问题, 设计了一种解决系统使用轨迹模式分析问题的改进聚类方法。通过使用仿真数据与实际数据进行测试分析, 在仿真数据上改进算法显著降低了聚类的错误率。在实际数据上, 改进算法得出的聚类结果优于K-means算法, 由此证明了改进方法比传统K-means聚类算法在该问题上效果更好。  相似文献   

4.
文本聚类是文本信息进行有效组织、摘要和导航的重要手段,其中基于余弦相似度的K-means算法是最重要且使用最广泛的文本聚类算法之一。针对基于余弦相似度的K-means算法改进方案设计困难,且众多优异的基于欧氏距离的K-means改进方法无法适用的问题,对余弦相似度与欧氏距离的关系进行探讨,得到标准向量前提下二者的转化公式,并在此基础上定义一种与欧氏距离意义相近关系紧密的余弦距离,使原有基于欧氏距离的K-means改进方法可通过余弦距离迁移到基于余弦相似度的K-means算法中。在此基础上理论推导出余弦K-means算法及其拓展算法的簇内中心点计算方法,并进一步改进了聚类初始簇中心的选取方案,形成新的文本聚类算法MCSKM++。通过实验验证,该算法在迭代次数减少、运行时间缩短的同时,聚类精度得到提高。  相似文献   

5.
为了适应答题卡多样化需求和提高答题卡图像识别的准确率,提出了扫描阅卷系统中模板定制和图像聚类方法。首先基于人机交互方式进行模板定制,定义填涂区域属性和答题卡结构信息,并开发了模板制作器,实现答题卡模板文件的制作和管理;其次给出基于K-means改进算法的扫描阅卷系统中图像聚类方法,选择局部聚集密度最大的数据点作为初始聚类中心以得到全局较优的聚类结果,并通过计算区分度进行聚类结果评价;最后基于VC++和MS SQL Server2000开发了基于K-means改进算法的扫描阅卷系统,并对该系统进行了实验测试。测试结果表明,采用K-means改进算法进行扫描阅卷时能够得到稳定的图像聚类结果,大大提高了客观题阅卷准确率,具有较高的实用价值。  相似文献   

6.
《微型机与应用》2014,(14):78-81
针对私人微博内容进行聚类研究,结合私人微博的内容和结构特点提出了基于K-means的改进聚类算法。通过添加引用和评论内容丰富了文本内容,降低了短文本矩阵向量严重稀疏性带来的聚类算法准确性降低的影响;通过甄别"微话题"内容和改进相似度的计算,找到初始化类别并进行初步计算得到合适的类别数目和初始中心点,解决了K-means算法中聚类数目K需人工指定和初始中心点选取随机性的问题。实验结果表明,改进后的算法不仅可以自适应地得到K值,较普通的K-means算法在聚类的准确率上有所提高。  相似文献   

7.
针对K-means算法中聚类结果易受初始聚类中心影响的缺点,提出一种改进初始聚类中心选择的算法.该算法不断寻找最大聚类,并利用距离最大的两个数据对象作为开始的聚类中心对该聚类进行分裂,如此反复,直到得到指定聚类中心个数.用KDD CUP99数据集对改进算法进行仿真实验,实验数据表明,用该算法获得的聚类中心进行聚类相对原始的K-means算法,能获得更好的聚类结果.  相似文献   

8.
改进的K-means 算法在网络舆情分析中的应用   总被引:1,自引:0,他引:1  
结合网络舆情分析的应用需求背景,首先介绍了文本信息的处理,然后探讨了文本聚类中的K-means算法,针对其对初始聚类中心的依赖性的特点,对算法加以改进。基于文档标题能够代表文档内容的思想,改进算法采用稀疏特征向量表示文本标题,计算标题间的稀疏相似度,确定初始聚类中心。最后实验证明改进的K-means算法提高了聚类的准确度;与基于最大最小距离原则的初始中心选择算法比较,提高了执行效率,同时保证了聚类准确度。  相似文献   

9.
一种改进的K-means算法   总被引:24,自引:0,他引:24  
聚类分析在科研和商业应用中都有着非常重要的应用,K-means算法是聚类方法中常用的一种划分方法。随着数据量的增加,K-means算法的局限性日益突出。基于取样的划分思想,提出了一种改进的K-means算法,在一定程度上避免了聚类结果陷入局部解的现象,减少了原始K-means算法因采用误差平方和准则函数而出现将大的聚类簇分割开的情况,仿真实验结果表明:改进后的K-means算法优于原始算法,并且稳定性更好。  相似文献   

10.
针对现有的空间向量模型在进行文本表示时忽略词条的位置和词条间关系的问题,提出了一种基于相对密度的多耦合文本聚类算法。该算法在基于相对密度的聚类方法基础上,根据相对密度越小本文相似性越小这一事实,将相对密度转化为文本相似度,融入了传统DBSCAN密度算法,并对核心对象的选取进行了优化,。实验结果表明,与改进的K-means文本聚类和改进的DBSCAN文本聚类算法相比,本算法在文本聚类中更高效、聚类质量更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号