首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
传统的K均值聚类算法采用欧式距离计算样本间的相似度,由于未考虑不同样本属性对于衡量样本间距离区分度的重要性,导致相似度计算不准确,聚类性能较差。提出了一种改进的K均值聚类算法,通过计算每个属性相对于聚类类别的信息增益率,将信息增益率作为属性权重计算加权欧式距离,使对类别区分度贡献较大的属性拥有较大的权重,以提高样本间的相似性度量的准确性。在经典的入侵检测数据集UCI KDD CUP上的实验结果证明,与传统的基于K均值的入侵检测方法相比,此方法能够有效地提高检测准确率。  相似文献   

2.
针对K-means算法全局搜索能力的不足,提出了基于模拟谐振子的优化K-means聚类算法(SHO-KM),该算法克服了K-means聚类算法对初始聚类中心选择敏感问题,能够获得全局最优的聚类划分。为了提高聚类划分质量,在聚类过程中采用基于Fisher分值的属性加权的实体之间距离计算方法,使用属性加权距离计算方法进行聚类划分时,无论是球形数据还是椭球形数据都能够获得较好的聚类划分结果。对KDD-99数据集的仿真实验结果表明,该算法在入侵检测中获得了理想的检测率和误报率。  相似文献   

3.
在图像分类中,视觉词典的质量直接影响着图像分类的结果,随着用户的要求提高,K-means聚类算法所构建的视觉词典已无法满足用户对图像分类的需求,为了得到高效的视觉词汇码本,针对构建视觉词典的算法进行研究,通过K-means算法和层次聚类算法的结合来达到这一目的。混合聚类算法采用K-means算法对数据样本进行初步聚类,得到一个粗略的划分;引入信息熵的属性加权,利用信息熵度量某个属性的关键性,信息熵越大的属性对聚类结果的影响越小,计算加权后的类间欧式距离,将距离相近的两个类进行合并;在空间金字塔模型框架中,将改进的混合聚类方法应用到视觉词典的构建中。实验结果表明,结合信息熵的层次聚类算法能有效提高空间金字塔模型的分类准确率。  相似文献   

4.
K-means聚类是一种简捷高效、收敛速度快且易于实现的统计分析方法,但是传统的K-means聚类算法对初始聚类中心的选取敏感且易陷入局部最优,同时多数无监督特征选择算法容易忽视特征之间的联系。为此,提出了一种结合人工蜂群与K-means聚类的特征选择方法。首先,为了使同一簇中样本的相似度高而不同簇中样本的相似度低,基于簇内聚集度和簇间离散度构建了新的适应度函数,更好地反映各样本的特性,进而构建了蜜源被选择新的概率表达式;其次,设计了随着迭代次数的增加而数值逐渐减小的权重,提出了使蜂群搜索范围动态缩进的蜜源位置更新表达式;然后,为了弥补传统的欧氏距离在计算距离时仅考虑向量之间的累积差异而表现出的局限性,构造了同时考虑样本影响程度不同以及样本的相似性的加权欧氏距离表达式;最后,引入标准差和距离相关系数,定义了特征区分度与特征代表性,以二者之积度量特征重要性。实验结果表明,所提算法加快了人工蜂群算法的收敛速度并提高了K-means算法的聚类效果,同时也有效地提升了特征选择的分类效果。  相似文献   

5.
在分析了传统的基于划分的K-means聚类算法的优越性和存在不足的基础上,根据近两年复杂网络研究中部分新的理论成果,提出了复杂网络加权度、加权聚集度与加权聚集系数的定义,并将数据聚类转换为复杂网络上的节点聚类,提出基于加权复杂网络特征的K-means聚类算法(简称WCNFC算法)。实验结果表明,该算法根据节点加权复杂网络特征值,能够较好地找到聚类中心,有效地避免了对初始化选值敏感性的问题,从而使得聚类质量大大提高。  相似文献   

6.
K-means算法是一种基于划分的聚类算法,具有算法简单且收敛速度快的特点。但该算法的性能依赖于聚类中心的初始位置的选择。拓展了复杂网络的重要特征,针对带有属性的数据对象所构成的数据集,定义了多维属性对象的度、聚集度和聚集系数,选取度和聚集系数高的K个点作为K-means聚类的初始中心点。实验数据表明,改进后的K-means算法较传统的算法具有更高的效率和准确度。  相似文献   

7.
K-means聚类算法优化方法的研究   总被引:1,自引:0,他引:1  
针对K-means算法全局搜索能力的不足,提出基于改进PSO的优化K-means聚类算法(IPSO-KM),该算法克服了K-means聚类算法对初始聚类中心选择敏感问题,能够获得全局最优的聚类划分.同时,提出一种基于信息增益比例的属性加权的实体之间距离计算方法,使用属性加权距离计算方法进行聚类划分时,无论是球形数据还是椭球形数据都能够获得较好的聚类划分结果.仿真实验采用KDD-cup 99的测试数据,实验结果表明本文提出的算法不但能检测到多种已知的网络入侵行为,而且能够检测到许多未知的网络入侵行为,同时保持较高的网络入侵的检测率和较低入侵的误报率.  相似文献   

8.
针对模糊C均值(FCM)聚类算法没有考虑样本不同属性的重要程度、邻域信息等问题,提出一种基于熵与邻域约束的FCM算法。首先通过计算样本各属性的熵值来为各属性赋予权重,结合属性权重改进距离度量函数;随后根据邻域样本与中心样本间的距离计算邻域隶属度权重,加权得到邻域隶属度,利用邻域隶属度约束目标函数,修正隶属度迭代过程,最终达到提升FCM聚类算法性能的目的。理论分析和在人造数据集、多个UCI数据集的试验结果表明,改进后的算法在聚类效果、鲁棒性上均优于传统FCM算法、PCM算法、KFCM算法、KPCM算法和DSFCM算法,表明了本文算法的有效性。  相似文献   

9.
李四海  满自斌 《微机发展》2013,(6):98-101,105
为提高传统K-means聚类算法在医学数据聚类中的准确率和稳定性,提出了一种自适应特征权重的K-means聚类算法AFW-K-means。该算法首先通过计算属性的均方差选取初始聚类中心,然后根据当前的迭代结果,按照类内紧密、类间远离的原则调整属性在距离公式中的特征权重,以便更准确地反映数据点在欧氏空间中的真实距离,最后选取UCI上的BCW乳腺肿瘤等数据集对算法的有效性进行验证。结果表明:算法的准确率和稳定性均明显好于传统K-means算法。  相似文献   

10.
针对传统聚类算法中只注重数据间的距离关系,而忽视数据全局性分布结构的问题,提出一种基于EK-medoids聚类和邻域距离的特征选择方法。首先,用稀疏重构的方法计算数据样本之间的有效距离,构建基于有效距离的相似性矩阵;然后,将相似性矩阵应用到K-medoids聚类算法中,获取新的聚类中心,进而提出EK-medoids聚类算法,可有效对原始数据集进行聚类;最后,根据划分结果所构成簇的邻域距离给出确定数据集中的属性重要度定义,应用启发式搜索方法设计一种EK-medoids聚类和邻域距离的特征选择算法,降低了聚类算法的时间复杂度。实验结果表明,该算法不仅有效地提高了聚类结果的精度,而且也可选择出分类精度较高的特征子集。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号