首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对传统K-均值聚类算法需要事先确定聚类数,以及对初始质心的选择具有敏感性,从而容易陷入局部极值点的缺陷,定义了簇间相似度度量对传统K-均值聚类进行改进.新算法可以在事先不确定K值的情况下,根据欧氏距离选取初始质心并按照K均值算法聚类,然后过滤噪声样本并确定簇半径,计算簇间相似度并合并相似簇确定数据集的类别数并得到较优的聚类结果.通过在UCI数据集的实验结果表明,新算法能准确确定类别数并有高于传统K均值算法聚类精度.  相似文献   

2.
针对模糊C均值(FCM)聚类算法没有考虑样本不同属性的重要程度、邻域信息等问题,提出一种基于熵与邻域约束的FCM算法。首先通过计算样本各属性的熵值来为各属性赋予权重,结合属性权重改进距离度量函数;随后根据邻域样本与中心样本间的距离计算邻域隶属度权重,加权得到邻域隶属度,利用邻域隶属度约束目标函数,修正隶属度迭代过程,最终达到提升FCM聚类算法性能的目的。理论分析和在人造数据集、多个UCI数据集的试验结果表明,改进后的算法在聚类效果、鲁棒性上均优于传统FCM算法、PCM算法、KFCM算法、KPCM算法和DSFCM算法,表明了本文算法的有效性。  相似文献   

3.
通过分析现有短文本聚类算法的缺陷,提出了一种基于改进相似度与类中心向量的半监督短文本聚类算法。首先,定义强类别区分度词,利用已加标数据的类别信息提取并构造强类别区分度词集合,并对基于初始特征的余弦相似度和基于强类别区分度词项的相似度进行有效融合,得到更加合理的改进的短文本相似度计算公式。然后,通过计算样本与类中心向量的相似度实现对未分类样本的正确划分,与此同时,更新加标数据集合、类中心向量,重新抽取强类别区分度词。重复这个过程,直到实现所有数据的类别划分。实验表明:与其他同类算法相比,本文算法在聚类准确性和时间效率上有了较大的改进。  相似文献   

4.
[K]均值聚类算法是聚类领域最知名的方法之一,然而[K]均值聚类完全依赖欧式距离进行聚类,忽略了样本特征离散程度对聚类结果的影响,导致聚类边缘样本容易被误聚类,且算法易局部收敛,聚类准确率较低。针对传统[K]均值聚类算法的不足,提出了似然[K]均值聚类算法,对于每个聚类的所有样本考虑每个维度样本特征的离散程度信息,分别计算样本属于某一聚类的似然概率,能够有效提高聚类准确率。在人造数据集和基准数据集验证了似然[K]均值聚类算法的优越性,将其应用于涡扇发动机气路部件故障以及传感器故障的模式识别,验证了该算法在涡扇发动机故障诊断中的实用性和有效性。  相似文献   

5.
为了解决SVM入侵检测方法检测率低、误报率高和检测速度慢等问题,提出了一种基于距离加权模板约简和属性信息嫡的增量SVM入侵检测算法。该算法对K近部样本与待测样本赋予总距离加权权重,对训练样本集进行约简,并以邻界区分割和基于样本属性信息墒对聚类样本中的噪声点和过拟合点进行剔除,以样本分散度来提取可能支持向量机,并基于KKT条件进行增量学习,从而构造最优SVM分类器。实验仿真证明,该算法具有较好的检测率和检测效率,并且误报率低。  相似文献   

6.
由于缺少监督数据,传统的基于聚类算法的入侵检测系统存在误报率高、检测率低等问题。针对这种情况,提出基于模拟退火和半监督K均值聚类的入侵检测方法。该方法首先利用少量标记入侵类型的网络数据改进聚类初始化过程,在K均值聚类算法中引入半监督学习,然后利用模拟退火算法跳出局部极值的能力与半监督K均值聚类算法结合以得到全局最优聚类,最后根据标记数据确定聚类类别,并应用于入侵行为的检测。基于KDDCUP99的对比实验表明,该方法利用监督数据和模拟退火算法改进了聚类算法,能够有效提高入侵检测的准确率。  相似文献   

7.
为弥补属性空间聚类方法只关注对象属性信息以及结构聚类方法只关注对象间关系信息的不足,提出一种基于属性-关系综合相似度的聚类算法.在构建基于属性距离的有权网络后,算法给出对象间综合相似度以及类间综合相似度的计算方法,并设计相应策略自底向上实现聚类.与属性空间聚类和结构聚类方法相比,该算法由于兼顾了属性和关系信息而具有更高...  相似文献   

8.
电站空预器积灰会严重影响机组运行经济性.提出加权模糊C均值聚类算法对空预器积灰程度进行监测,该方法计算多维样本中每一维数据的标准差,将其作为权重,计算样本与类心之间的加权欧式距离,降低模糊C均值聚类算法对离群点的敏感度.利用人工数据对该方法进行验证,结果表明,相比于传统模糊C均值聚类算法,提出的方法对离群点识别更加准确...  相似文献   

9.
K-means聚类算法优化方法的研究   总被引:1,自引:0,他引:1  
针对K-means算法全局搜索能力的不足,提出基于改进PSO的优化K-means聚类算法(IPSO-KM),该算法克服了K-means聚类算法对初始聚类中心选择敏感问题,能够获得全局最优的聚类划分.同时,提出一种基于信息增益比例的属性加权的实体之间距离计算方法,使用属性加权距离计算方法进行聚类划分时,无论是球形数据还是椭球形数据都能够获得较好的聚类划分结果.仿真实验采用KDD-cup 99的测试数据,实验结果表明本文提出的算法不但能检测到多种已知的网络入侵行为,而且能够检测到许多未知的网络入侵行为,同时保持较高的网络入侵的检测率和较低入侵的误报率.  相似文献   

10.
一种改进的K均值文本聚类算法   总被引:1,自引:0,他引:1  
提出了一种改进的K均值文本聚类算法.该算法的改进基于以下两点:1)基于簇密度与文本间距离选取初始簇中心,引入置信半径来得到簇密度,即选取距离最远且簇密度最大的点为初始簇中心;2)基于权重的海明距离来计算文本相似度,同时采用轮廓系数来衡量不同算法的聚类质量.实验结果表明:该算法相比原始的K均值文本聚类算法和文献[1]中算法具有更好的聚类质量.  相似文献   

11.
传统的聚类算法通常将样本间的距离作为相似度的划分标准,因此距离计算方式的选择对于聚类的结果至关重要.但是传统的距离计算方法忽略了不同数据属性特征对聚类的影响.为了解决此问题,论文结合K-means提出了一种基于属性加权的快速K-means算法FAWK.首先,定义了一个反映属性特征差异的离散度函数对属性特征进行加权;其次,根据加权属性特征计算数据属性间的距离,并将所有属性的加权属性距离求和作为样本间的相似性距离;然后,将加权属性距离作为FAWK算法的划分标准对数据进行聚类;最后,将论文算法与现有方法在8个UCI数据集和LAMOST恒星光谱数据集进行实验测试与分析,实验结果表明FAWK算法具有迭代次数少、运行时间短、聚类结果准确率高且更接近真实数据集划分情况的特点.  相似文献   

12.
相异度和相似度度量是聚类算法中非常重要的一种因素,往往会影响到聚类分析的结果。很多聚类算法采用欧式距离作为计算数据相似度的度量。而欧式距离不能反映属性值的全局特性,且不顾及各属性之间的量纲差异,因此当不同属性间具有明显量纲或值域差异时,不能取得很好的效果。对此,提出了一种广义加权Minkowski距离,即由各属性的量纲和值域信息来确定各属性的广义权值,既考虑了整个数据集的特性,又消除了各属性之间的不和谐,同时分位数的引进在一定程度上减弱了噪声属性值对距离度量的影响。将提出的新的距离度量用于经典的k-means算法和量子遗传聚类算法,实验结果表明,采用新的距离度量和引进量子遗传算法的聚类是更加有效的。  相似文献   

13.
一种K-means聚类算法的改进与应用   总被引:1,自引:0,他引:1  
K-means算法是基于距离作为相似性度量的聚类算法,传统的K-means算法存在难以确定中心值个数、受噪声及孤立点影响较大的缺点。对此,利用类间相异度与类内相异度改进初始值K,以尽量减少人工干预;同时计算数据库中每一点与剩余点的距离和距离均和,将两者的大小比较作为识别孤立点和噪声点的依据,从而删除孤立点,减少对数据聚类划分的影响。最后将改进后的Kmeans算法应用于入侵检测系统并进行仿真实验,结果表明,基于改进的K-means算法的入侵检测系统一定程度上降低了误报率及误检率,提高了检测的准确率。  相似文献   

14.
基于最近邻原则的半监督聚类算法   总被引:1,自引:0,他引:1  
基于最近邻原则的半监督聚类算法是以基于最近邻的聚类中心求解算法为基础的。在基于最近邻的聚类中心求解算法中,用相似度矩阵记录数据点间的相似程度,由目标函数最小值求得聚类的类中心点。在基于最近邻原则的半监督聚类算法中,根据约束信息来调整相似度矩阵G,数据点间相似度的变化引起了数据点间加权欧式距离的变化,由此更新加权欧式距离矩阵M,最后执行聚类中心求解算法完成聚类。大量实验结果表明,该算法能获得较好的聚类结果。  相似文献   

15.
针对大数据量的入侵检测算法计算复杂度过高的问题,提出一种基于信息熵rough set的多层凝聚入侵检测算法。首先,利用粗糙集对入侵检测数据进行预处理和属性约简,防止算法陷入“维数陷阱”;其次,用粗糙集熵重要测度权重距离代替多层凝聚算法的欧式距离计算个体相似度,实现粗糙集预处理与多层凝聚算法的对接;最后,通过实验表明,基于信息熵rough set的多层凝聚入侵检测算法能够更有效的对入侵数据进行检测。  相似文献   

16.
贾长云  梁海军 《计算机科学》2013,40(2):95-97,138
针对物联网云存储数据伪装不良信息隐蔽性造成的信息量预处理困难、深层次语义理解不准确和样本不均衡等问题,提出了一种基于B-ISVM(Boundary-Incremental SVM)算法的物联网云存储数据不良信息检测算法。在该算法中,首先采取基于均值和标准差的K均值初始聚类分析对云存储数据信息量进行样本空间训练分类;然后将所有样本类进行欧氏距离遍历计算,得到类间子聚类中心距离矩阵和各聚类中心的邻界子聚类区;再通过信息量伪装与筛选原理进行云存储信息真伪筛选,以不良信息在伪信息中发生的概率为指数、以数据安全度阂值和不良伪装信息模板向量集的相似度阂值为指标,对云存储信息量进行识别;最后进行增量模式学习,得到各分类样本最终的最优分类超平面,并将各类检测出的不良伪装信息进行输出。系统测试证明,该算法能快速有效地对物联网云存储数据中的伪装信息进行检测。  相似文献   

17.
传统根据[K]-近邻图计算测地距离的方法,虽然能够发现流形分布数据间的相似关系,但是当不同类的点存在粘连关系时,依此计算相似度时不能体现样本间的真实关系,从而无法有效聚类。针对传统测地距离计算相似度的方法不能有效处理粘连数据集的问题,提出了基于局部密度和测地距离的谱聚类方法。计算样本的局部密度,寻找每个样本点的最近高密度点,并选择边缘点和非边缘点;在边缘点和其最近高密度点之间构造边、非边缘点之间的[K]个近邻点构造边,依此计算测地距离和相似度并进行聚类。在人工数据集和UCI数据集上的实验表明,该算法在处理粘连数据集时有效提高了聚类准确率。  相似文献   

18.
针对K均值算法存在的初始聚类中心敏感和易陷入局部最优等缺陷,利用人工鱼群算法全局寻优能力,提出一种人工鱼群和K均值算法相融合的网络入侵检测模型(AFSA-KCM).首先采用抽样技术和最大最小距离算法获得一组较优的聚类中心和聚类数目,然后通过人工鱼群模拟自然界鱼群的觅食、聚群,追尾等行为,找到最优的聚类中心和聚类数目,最后利用K均值算法根据最优的聚类中心和聚类数目建立最优的入侵检测模型,并采用KDD CUP99数据集进行测试实验.实验结果表明,相对于其它入侵检测模型,AFSA-KCM不仅提高了网络入侵检测率,同时加快了网络入侵检测速度,可以为网络安全入侵检测提供有效保证.  相似文献   

19.
基于自适应权重的粗糙K均值聚类算法   总被引:2,自引:0,他引:2  
原有Rough K-means算法中类的上、下近似采用固定经验权重,其科学性值得商榷,针对这一问题,设计了一种基于自适应权重的粗糙K均值聚类算法。基于自适应权重的粗糙聚类算法在每一次迭代过程中,根据当前的数据划分状态,动态计算每个样本对于类的权重,降低了原有算法对初始权重的依赖。此外,该算法采用近似集合中的高斯距离比例来表现样本权重,从而可以在多种数据分布上得到更精确的聚类结果。实验结果表明,基于自适应权重的粗糙K均值算法是一种较优的聚类算法。  相似文献   

20.
研究保证网络安全有效阻止入侵行为,针对网络入侵检测问题,传统 K 均值聚类算法在网络入侵检测应用过程中,存在对聚类中心初始值敏感、易陷入局部最优值等不足,从而使网络入侵检测正确率低,误检测率高难题.为了提高检测准确性,提出一种改进的 K 均值聚类网络入检测算法.采用有效指数法自动调整初始聚类数,降低了检测结果对初始聚类数的依赖,可通过自适应最佳密度半径函数来选择聚类中心,降低聚类中心对检测结果不利影响,加快聚类速度,最后通过最优初始聚类数 K 和聚类中心对网络入侵进行检测.在 Manab 平台上,采用改进算法对 KDD 99 网络入侵数据进行测试,实验结果表明,改进的 K 均值聚类算法提高了网络入侵检测正确率,误检率降低,为网络检测优化提供有效参考.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号