共查询到10条相似文献,搜索用时 31 毫秒
1.
2.
最大距离法选取初始簇中心的K-means文本聚类算法的研究 总被引:1,自引:0,他引:1
由于初始簇中心的随机选择, K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题, 提出了最大距离法选取初始簇中心的K-means文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类, 构造了一种将文本相似度转换为文本距离的方法, 同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中, 对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析, 其结果表明, 与原始的K-means聚类算法以及其他的两种改进的K-means聚类算法相比, 新提出的文本聚类算法在降低了聚类总耗时的同时, F度量值也有了明显提高。 相似文献
3.
统计数据轨迹一般具有重视变化趋势、数据噪声较大、模式分布不同等特点, 直接使用传统的聚类分析方法难有很好的效果。对此在K-means算法的基础上, 分别采用了归一化处理、平滑处理以及关键峰匹配等方法处理上述三个问题, 设计了一种解决系统使用轨迹模式分析问题的改进聚类方法。通过使用仿真数据与实际数据进行测试分析, 在仿真数据上改进算法显著降低了聚类的错误率。在实际数据上, 改进算法得出的聚类结果优于K-means算法, 由此证明了改进方法比传统K-means聚类算法在该问题上效果更好。 相似文献
4.
文本聚类是文本信息进行有效组织、摘要和导航的重要手段,其中基于余弦相似度的K-means算法是最重要且使用最广泛的文本聚类算法之一。针对基于余弦相似度的K-means算法改进方案设计困难,且众多优异的基于欧氏距离的K-means改进方法无法适用的问题,对余弦相似度与欧氏距离的关系进行探讨,得到标准向量前提下二者的转化公式,并在此基础上定义一种与欧氏距离意义相近关系紧密的余弦距离,使原有基于欧氏距离的K-means改进方法可通过余弦距离迁移到基于余弦相似度的K-means算法中。在此基础上理论推导出余弦K-means算法及其拓展算法的簇内中心点计算方法,并进一步改进了聚类初始簇中心的选取方案,形成新的文本聚类算法MCSKM++。通过实验验证,该算法在迭代次数减少、运行时间缩短的同时,聚类精度得到提高。 相似文献
5.
为了适应答题卡多样化需求和提高答题卡图像识别的准确率,提出了扫描阅卷系统中模板定制和图像聚类方法。首先基于人机交互方式进行模板定制,定义填涂区域属性和答题卡结构信息,并开发了模板制作器,实现答题卡模板文件的制作和管理;其次给出基于K-means改进算法的扫描阅卷系统中图像聚类方法,选择局部聚集密度最大的数据点作为初始聚类中心以得到全局较优的聚类结果,并通过计算区分度进行聚类结果评价;最后基于VC++和MS SQL Server2000开发了基于K-means改进算法的扫描阅卷系统,并对该系统进行了实验测试。测试结果表明,采用K-means改进算法进行扫描阅卷时能够得到稳定的图像聚类结果,大大提高了客观题阅卷准确率,具有较高的实用价值。 相似文献
6.
7.
针对K-means算法中聚类结果易受初始聚类中心影响的缺点,提出一种改进初始聚类中心选择的算法.该算法不断寻找最大聚类,并利用距离最大的两个数据对象作为开始的聚类中心对该聚类进行分裂,如此反复,直到得到指定聚类中心个数.用KDD CUP99数据集对改进算法进行仿真实验,实验数据表明,用该算法获得的聚类中心进行聚类相对原始的K-means算法,能获得更好的聚类结果. 相似文献
8.
改进的K-means 算法在网络舆情分析中的应用 总被引:1,自引:0,他引:1
结合网络舆情分析的应用需求背景,首先介绍了文本信息的处理,然后探讨了文本聚类中的K-means算法,针对其对初始聚类中心的依赖性的特点,对算法加以改进。基于文档标题能够代表文档内容的思想,改进算法采用稀疏特征向量表示文本标题,计算标题间的稀疏相似度,确定初始聚类中心。最后实验证明改进的K-means算法提高了聚类的准确度;与基于最大最小距离原则的初始中心选择算法比较,提高了执行效率,同时保证了聚类准确度。 相似文献
9.