首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
基于初始聚类中心优化和维间加权的改进K-means算法   总被引:1,自引:0,他引:1  
针对K-means算法易受随机选择的初始聚类中心的影响和划分准确率不高的缺点,给出了一种改进的K-means算法。首先对初始聚类中心的选择过程进行了改进,然后对各样本点间差异最大的维进行加权处理。在Iris数据集上对原始算法和改进后的K-means算法的聚类结果进行对比分析。实验证明:改进后的算法稳定,且聚类的准确率达到了92%。  相似文献   

2.
聚类算法初始聚类中心的优化   总被引:1,自引:0,他引:1  
对近年来k-means算法的研究现状与进展进行总结.首先对较有代表性的初始聚类中心改进的算法,从思想、关键技术和优缺点等方面进行分析.其次选用知名数据集对典型算法进行测试,主要从就同一个数据集不同改进算法的聚类情况进行对比分析,为聚类分析和数据挖掘等研究提供有益的参考.  相似文献   

3.
为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。  相似文献   

4.
针对协同过滤推荐系统存在的数据稀疏性和扩展性差问题,提出了初始聚类中心优化的K-均值项目聚类推荐算法。该算法首先采用SlopeOne方法对评分矩阵预测填充来缓解数据稀疏性,然后采用初始聚类中心优化的K-均值算法对项目进行聚类,将相似度高的项目聚到同一个类中,最后根据目标项目所在的聚类搜索其最近邻并产生推荐。实验结果表明,该算法有效改善了数据的稀疏性和扩展性,提高了推荐质量。  相似文献   

5.
基于特征关联度的K-means初始聚类中心优化算法   总被引:3,自引:0,他引:3  
针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法.由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用“或运算”合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合“最小最大”原则从候选集中选取最优的初始中心.在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显优于Mahout提供的K-means算法,表明该算法可选出高质量的初始聚类中心,得到更好的聚类结果.  相似文献   

6.
基于特征加权理论的数据聚类算法   总被引:1,自引:0,他引:1  
针对数据挖掘过程中数据聚类操作的初始聚类数目和初始聚类中心确定困难的问题,提出了一种软子空间结合竞争合并机制的模糊加权聚类算法.通过对软子空间聚类算法的目标函数进行改写,并结合数据簇势的大小对各数据簇进行竞争与合并操作,实现了对数据的聚类处理.结果表明,该算法能够准确地对数据样本进行聚类,并且聚类结果与初始数据簇数目和初始聚类中心无关,能够满足对高维数据聚类处理的需要,具有较好的实际应用价值.  相似文献   

7.
基于特征加权的模糊聚类算法研究   总被引:2,自引:0,他引:2  
模糊聚类分析是非监督模式分类的一个分支,在模式识别中有着重要的地位。在FCM算法中,考虑到样本矢量中各维特征对模式分类的不同影响,本文引入一种基于特征加权的模糊聚类算法,该算法考虑了各维特征对分类的贡献不同,从而对数据进行了更有效的分类。  相似文献   

8.
k-means是一种快速有效的聚类算法,但是随着数据量的增加,k-means算法的局限性日益突出。该文从数据预处理,初始聚类中心的选取,最佳聚类数的确定等几个方面优化了k-means算法。仿真实验表明,优化后的k-means算法在稳定性和准确性方面都有很大的提高,证明提出的算法有一定的价值。  相似文献   

9.
提出一种基于薛定谔方程的K-Means聚类算法,利用量子力学中薛定谔方程的势能函数来确定初始聚类中心。计算每个数据样本所对应的势能函数值,将势能函数值小的数据样本放入初始聚类中心集合,设置一个距离阈值,数据集合中的数据样本和初始聚类中心集合中的数据样本进行相异度计算,将相异度大于阈值的数据样本放入初始聚类中心集合,重复这一操作,直到初始聚类中心集合中的样本数量等于K为止。试验结果表明,采用该方法能很好地筛选出初始聚类中心,得到更高的聚类结果准确率和较少的迭代次数,与其他几种方法相比,聚类结果准确率平均提高约12%,同时迭代次数减少约3次。  相似文献   

10.
传统K-means聚类算法的性能依赖于初始聚类中心的选择。本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的个节点作为聚类的初始聚类中心,然后进行聚类迭代过程。实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量。  相似文献   

11.
基于微聚集技术的κ-匿名化MDAV算法没有考虑数据属性的分布情况和数据属性重要性在聚类中的作用,易产生不合理的划分,从而对数据的保护程度与数据可用性之间关系带来影响.针对这个问题本文提出一种基于属性重要度和密度聚类的MDAV改进方法实现对数据集κ-匿名化.首先采用基于密度聚类DENCLUE方法对数据表进行聚集成簇,然后对每个簇采用基于粗糙集属性重要度作为加权距离的权值来计算相似样本,实现对数据集的κ-划分.与MDAV算法比较测试,所改进的方法改善了发布数据的可用性.  相似文献   

12.
为了使孤立点检测更为自动化,减少用户对参数选择的困难,提出了平均密度的定义,并给出基于平均密度的孤立点检测方法。该方法提出了孤立点对象的密度要小于数据集的平均密度;非孤立点对象的密度不应因为封闭区间的收缩而减少。采用企鹅图像边缘检测对该方法进行验证,实验结果表明,该方法能够有效地检测出图像边缘孤立点,同时简化了孤立点检测时对用户输入参数的要求。  相似文献   

13.
模糊粗糙集理论介绍和研究综述   总被引:4,自引:0,他引:4  
回顾了粗糙集理论,引出了模糊粗糙集的产生背景,介绍了模糊粗糙集模型的一些主要概念和性质,并给出了模糊粗糙集属性重要性的定义,探讨了模糊粗糙集合的应用和发展现状.  相似文献   

14.
模糊粗糙集的扩张定理   总被引:2,自引:0,他引:2  
模糊粗糙集(FR)是基于知识的不确定性提出来的,由于其处理信息系统中知识的不完善、不确定问题较粗糙集和模糊集有其自身的优点,近年来模糊粗糙集理论越来越受到国际学术界的关注,文章所讨论了模糊粗糙变换的性质并用模糊粗糙变换的保并性质证明了模糊粗糙集的扩张定理。  相似文献   

15.
提出了一种基于多层加权聚类的网络攻击检测方法,通过计算多层聚类加权的均值,设定每个攻击事件的加权平均值,对异构多层攻击进行有效整合,解决了多层攻击事件检测结果不一致带来的检测不准的问题。实验证明,这种方法能够有效整合多层攻击事件,保证了网络的安全,取得了满意的结果。  相似文献   

16.
模糊聚类分析主要用于研究样本的分类问题。利用层次分析方法给出了样本指标的权重,进一步引入了加权相似系数和加权距离系数的计算公式。在该系数的基础上,提出了一种既能考虑到样本之间的值贴近程度,又能考虑到样本之间的形贴近程度的改进统计量——相似度,用相似度矩阵替代传统的相似矩阵,得到了模糊聚类分析方法的改进。将其应用到网络安全综合评价实际样本数据的聚类分析中,结果表明改进的模糊聚类分析方法是有效的。  相似文献   

17.
S-模糊粗集     
针对实际生活中人们所涉及的模糊的不确定的知识或概念,依据S-粗集理论,提出了S-模糊粗集,给出了S-模糊粗集的两类形式:单向S-模糊粗集,双向S-模糊粗集,最后介绍了该理论的一个简单应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号