首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
基于特征关联度的K-means初始聚类中心优化算法   总被引:3,自引:0,他引:3  
针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法.由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用“或运算”合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合“最小最大”原则从候选集中选取最优的初始中心.在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显优于Mahout提供的K-means算法,表明该算法可选出高质量的初始聚类中心,得到更好的聚类结果.  相似文献   

2.
提出一种基于薛定谔方程的K-Means聚类算法,利用量子力学中薛定谔方程的势能函数来确定初始聚类中心。计算每个数据样本所对应的势能函数值,将势能函数值小的数据样本放入初始聚类中心集合,设置一个距离阈值,数据集合中的数据样本和初始聚类中心集合中的数据样本进行相异度计算,将相异度大于阈值的数据样本放入初始聚类中心集合,重复这一操作,直到初始聚类中心集合中的样本数量等于K为止。试验结果表明,采用该方法能很好地筛选出初始聚类中心,得到更高的聚类结果准确率和较少的迭代次数,与其他几种方法相比,聚类结果准确率平均提高约12%,同时迭代次数减少约3次。  相似文献   

3.
一种优化初始化中心的k均值web信息聚类算法   总被引:1,自引:0,他引:1  
k-means算法是一种重要的聚类算法,在网络信息处理领域有着广泛的应用。由于k-means算法终止于一个局部最优状态,所以初始类中心点的选择会在很大程度上影响其聚类效果。针对k-means算法所存在的问题,构造了文本集合的相似度矩阵,基于平均相似度集合通过排序迭代优选出了初始中心点。实验表明此算法可以有效减少迭代次数并提高聚类精度,最终获得较好的聚类效果。  相似文献   

4.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

5.
为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法。该算法采用基于Hebbian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级。在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确。实验表明,该算法能准确地完成实体识别。  相似文献   

6.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。  相似文献   

7.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

8.
基于特征加权理论的数据聚类算法   总被引:1,自引:0,他引:1  
针对数据挖掘过程中数据聚类操作的初始聚类数目和初始聚类中心确定困难的问题,提出了一种软子空间结合竞争合并机制的模糊加权聚类算法.通过对软子空间聚类算法的目标函数进行改写,并结合数据簇势的大小对各数据簇进行竞争与合并操作,实现了对数据的聚类处理.结果表明,该算法能够准确地对数据样本进行聚类,并且聚类结果与初始数据簇数目和初始聚类中心无关,能够满足对高维数据聚类处理的需要,具有较好的实际应用价值.  相似文献   

9.
K-means算法对初始聚类中心及簇数K的选择敏感,导致聚类结果不稳定,会对IDS(intrusion detection system, IDS)的检测结果产生重要影响。针对该问题,提出一种基于细菌觅食优化算法(bacterial foraging optimization algorithm, BFOA)和K-means相复合的入侵检测算法(HIDS)。HIDS算法首先基于距离阈值方法动态确定簇数K,再利用BFOA优化生成初始聚类中心,使得选择的初始聚类中心达到全局最优,从而解决了K-means算法的聚类结果不稳定的问题,进而提高入侵检测的准确率。为验证算法的有效性和测试算法性能,将HIDS在KDD99数据集上进行试验测试,入侵检测率可达98.33%。试验结果表明该方法能够有效提高检测率并且降低误检率。  相似文献   

10.
针对模糊C-均值算法(FCM)具有局部最优问题和初值敏感性的缺陷,将微粒群优化算法应用于文本模糊聚类, 提出了基于微粒群优化算法的模糊C-均值算法PFCM.该算法首先采用实数编码方式对聚类原型进行编码,利用微粒群优化算法的全局搜索性能对初始聚类原型的选取进行指导,然后利用模糊C-均值算法进行聚类.使用算法PFCM对文本集合进行聚类实验,并用目标函数值和划分系数来判断模糊划分的效果,实验结果表明,与FCM相比,该算法具有较好的全局收敛性和较好的聚类结果.  相似文献   

11.
K-均值(K-means)聚类算法是学术与工业领域的经典算法。然而,它却具有两个明显缺陷:1) 需要预先知道聚类的数量;2) 对算法的随机初始化非常敏感。为了解决这两个问题,首先归纳了K-均值算法的基本步骤,并对聚类有效性进行了分析;然后以数据样本点的欧几里德距离为基础,定义了以聚类数量k为自变量的类间质心距离之和以及类内距离之和,由此构造了聚类有效性评价函数;最后根据经验规则,在聚类数量的可能范围内通过求解聚类有效性评价函数的最小值以确定数据集的最优聚类数量。对UCI的3个数据集Iris、Seeds和Wine的仿真结果说明,提出的聚类有效性评价函数不仅能够准确地反映数据的真实聚类结构,还能有效地抑制算法对随机初始化的敏感性,通过对K-均值算法的多次运行,其结果也验证了聚类有效性评价函数的鲁棒性。  相似文献   

12.
为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.  相似文献   

13.
一种改进的模糊C均值聚类算法   总被引:1,自引:0,他引:1  
针对模糊C均值(FCM)聚类算法中,聚类效果往往受到聚类数目和初始聚类中心的影响这一问题,提出了基于平均信息熵确定聚类数目的方法,并采用密度函数法来获得初始聚类中心.实验结果表明,改进后的算法较好地解决了初值问题,与随机初始化方法相比,迭代次数少,收敛速度快.  相似文献   

14.
基于Python的聚类分析及其应用   总被引:1,自引:0,他引:1  
在研究聚类基本原理及相应算法的基础上,着重分析了层次聚类算法和k-means分割聚类算法,并比较了这两种算法的特点.结合Python语言的特点,编写程序实现了k-means聚类算法在博客数据集上的聚类应用,给出了详细的聚类实验结果分析.  相似文献   

15.
为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。  相似文献   

16.
针对协同过滤推荐系统存在的数据稀疏性和扩展性差问题,提出了初始聚类中心优化的K-均值项目聚类推荐算法。该算法首先采用SlopeOne方法对评分矩阵预测填充来缓解数据稀疏性,然后采用初始聚类中心优化的K-均值算法对项目进行聚类,将相似度高的项目聚到同一个类中,最后根据目标项目所在的聚类搜索其最近邻并产生推荐。实验结果表明,该算法有效改善了数据的稀疏性和扩展性,提高了推荐质量。  相似文献   

17.
一种改进的k-means中文文本聚类算法   总被引:3,自引:0,他引:3  
提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性。  相似文献   

18.
针对全局K-均值算法时间复杂度大的问题,提出一种增量选择初始聚类中心的新方法。选择数据集中周围分布最密集的样本作为第一个初始聚类中心,选择最小化目标函数贡献大,并且和已有聚类中心距离远的样本作为下一个初始聚类中心。改进算法减少了增量选取初始聚类中心时的计算量,降低了时间复杂度。实验证明,改进算法与全局K-均值算法、快速全局K-均值算法相比,在不影响聚类效果的基础上,减少了聚类时间,与优化初始聚类中心的算法相比,聚类效果更优。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号