首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 148 毫秒
1.
K-means是一种无监督学习算法,基于数据对象之间的距离度量划分数据簇、欧氏距离等度量方法存在一些问题,比如离群点数据较多,算法准确度较低.互信息可以度量任意两个数据对象之间的互相包含程度,基于互信息改进K-means算法,可以更好地度量数据对象之间的距离,确保簇内高度相同和簇间高度相异,旨在解决离群点数据较多的情况下K-means算法准确度不高的问题.实验结果显示,与K-means算法、模糊K-means算法相比,改进K-means算法实验结果精确度达到了97.8%,该方法明显提高K-means算法的准确度.  相似文献   

2.
K-means算法是通过计算数据与聚类中心的距离来更新聚类中心的一种无监督的机器学习算法,在距离已知的情况下,BIRCH算法是一种典型的基于距离特征数的类别判断对数据信息进行汇总的方法,是一种平衡迭代规约和聚类的方法。论文结合K-means算法和BIRCH算法优缺点,在数据处理中用K-means处理对离群点干扰较大的数据,BIRCH处理时间复杂度较低的数据的原则构建核心树;以子类的初始中点为叶节点,以欧式距离为依据判断节点间的相似性,并对判别类别进行划分得到核心数据,BIRCH以K类的中点为核心树的叶节点,以叶节点为基础构造核心树,并对核心树的各种特征数据进行完善。实验证明改进K-means算法比原始K-means算法在养老服务护理推荐时用时更短。  相似文献   

3.
针对K-means算法全局搜索能力的不足,提出了基于模拟谐振子的优化K-means聚类算法(SHO-KM),该算法克服了K-means聚类算法对初始聚类中心选择敏感问题,能够获得全局最优的聚类划分。为了提高聚类划分质量,在聚类过程中采用基于Fisher分值的属性加权的实体之间距离计算方法,使用属性加权距离计算方法进行聚类划分时,无论是球形数据还是椭球形数据都能够获得较好的聚类划分结果。对KDD-99数据集的仿真实验结果表明,该算法在入侵检测中获得了理想的检测率和误报率。  相似文献   

4.
传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。  相似文献   

5.
K-means算法采用欧氏距离进行数据点的划分,不能够准确地刻画数据集特征,而随机选取聚类中心点的机制,也不能获得好的聚类结果。为此,提出一种基于数据场的数据势能竞争与K-means算法融合的聚类算法。算法中定义了数据场的概念,利用局部最小距离进行数据聚合势能的竞争,然后利用势能熵提取基于数据集分布的最优截断距离,根据截断距离与斜率确定出簇中心点,实现K-means聚类。在UCI数据集上的测试结果表明,融合后的算法具有更好的聚类结果。  相似文献   

6.
陈利跃  杭钟灵  余亮  黄剑  何星 《控制工程》2015,22(2):360-364
通过对电力远动监测系统和数据挖掘技术的讨论,提出一种基于马氏距离的双层聚类异常检测算法。针对远动系统数据非球面分布的特点,该算法通过K-means聚类改进算法对数据进行初始分类,然后使用基于马氏距离的Clustering Using Representatives(CURE)聚类改进算法对初始分类结果进行优化,以较少的计算成本去除K值设定的影响,达到预期的检测结果。同时,基于马氏距离的CURE聚类改进算法对球面和非球面分布的数据有非常好的适应能力。  相似文献   

7.
文本聚类是文本信息进行有效组织、摘要和导航的重要手段,其中基于余弦相似度的K-means算法是最重要且使用最广泛的文本聚类算法之一。针对基于余弦相似度的K-means算法改进方案设计困难,且众多优异的基于欧氏距离的K-means改进方法无法适用的问题,对余弦相似度与欧氏距离的关系进行探讨,得到标准向量前提下二者的转化公式,并在此基础上定义一种与欧氏距离意义相近关系紧密的余弦距离,使原有基于欧氏距离的K-means改进方法可通过余弦距离迁移到基于余弦相似度的K-means算法中。在此基础上理论推导出余弦K-means算法及其拓展算法的簇内中心点计算方法,并进一步改进了聚类初始簇中心的选取方案,形成新的文本聚类算法MCSKM++。通过实验验证,该算法在迭代次数减少、运行时间缩短的同时,聚类精度得到提高。  相似文献   

8.
针对网络用户隐私信息泄露问题,提出基于K-means算法的无线局域网自动化接入过程安全监测方法。对难以识别的离散型数据预处理进行优化,通过函数计算确定新的聚类中心,以类内相似度距离最小和类间相似度距离最大为标准确定k值大小,完成基于K-means算法的WLAN安全监测模型的构建。模型通过K-means聚类算法训练数据建立数据库,利用直推式异常检测算法判断网络中数据是否存在异常,完成无线局域网自动化接入过程安全监测。仿真实验结果表明,所提方法监测准确率与监测效率都明显高于其他方法,提高了无线局域网使用的安全性能,实现安全监测工作的完善。  相似文献   

9.
针对投运时间不长的变压器数据中有极大部分是正常数据的情况,为了有效利用变压器历史正常数据识别变压器是否异常,本文提出了基于改进K-means聚类的变压器异常状态识别模型。针对变压器绝大部分运行数据为正常数据、正常数据逐渐按一定的趋势变化以及异常状态数据变化急剧等特点,基于历史正常数据与K-means算法建立变压器异常状态识别模型;根据对正常数据聚类的结果确定用于识别新数据的各个阈值;通过计算新数据到各聚类中心的距离并与各阈值对比确认变压器是否异常。针对传统K-means算法的缺点,对K-means算法进行基于密度与距离选择K值与初始聚类中心的改进,使K-means算法有稳定的K值与聚类中心,聚类过程更加快速、稳定、有效,从而使识别模型计算得到的阈值更可靠。实例分析表明,模型能有效对变压器的异常状态进行快速、准确的识别,为变压器状态评估提供一种新思路。  相似文献   

10.
传统的聚类算法通常将样本间的距离作为相似度的划分标准,因此距离计算方式的选择对于聚类的结果至关重要.但是传统的距离计算方法忽略了不同数据属性特征对聚类的影响.为了解决此问题,论文结合K-means提出了一种基于属性加权的快速K-means算法FAWK.首先,定义了一个反映属性特征差异的离散度函数对属性特征进行加权;其次,根据加权属性特征计算数据属性间的距离,并将所有属性的加权属性距离求和作为样本间的相似性距离;然后,将加权属性距离作为FAWK算法的划分标准对数据进行聚类;最后,将论文算法与现有方法在8个UCI数据集和LAMOST恒星光谱数据集进行实验测试与分析,实验结果表明FAWK算法具有迭代次数少、运行时间短、聚类结果准确率高且更接近真实数据集划分情况的特点.  相似文献   

11.
粗糙K-means算法中下近似和边界区域权重系数的设置对算法的聚类效果有着重要的影响。传统的粗糙K-means算法及很多改进的粗糙K-means算法对所有类簇的下近似和边界区域设置固定的权重,忽视了簇内数据对象分布差异性的影响。针对这个问题,根据下近似和边界区域的数据对象相对于类簇中心的空间分布情况,提出一种新的基于空间距离自适应权重度量的粗糙K-means算法。该算法在每次迭代过程中,根据每个类簇的下近似和边界区域的数据对象相对于类簇中心的平均距离,综合度量下近似和边界区域对于类簇中心迭代计算的不同重要程度,动态地计算下近似和边界区域的相对权重系数。通过实例验证及实验仿真证明了所提算法的有效性。  相似文献   

12.
通过引入上、下近似的思想,粗糙K-means已成为一种处理聚类边界模糊问题的有效算法,粗糙模糊K-means、模糊粗糙K-means等作为粗糙K-means的衍生算法,进一步对聚类边界对象的不确定性进行了细化描述,改善了聚类的效果。然而,这些算法在中心均值迭代计算时没有充分考虑各簇的数据对象与均值中心的距离、邻近范围的数据分布疏密程度等因素对聚类精度的影响。针对这一问题提出了一种局部密度自适应度量的方法来描述簇内数据对象的空间特征,给出了一种基于局部密度自适应度量的粗糙K-means聚类算法,并通过实例计算分析验证了算法的有效性。  相似文献   

13.
基于自适应权重的粗糙K均值聚类算法   总被引:2,自引:0,他引:2  
原有Rough K-means算法中类的上、下近似采用固定经验权重,其科学性值得商榷,针对这一问题,设计了一种基于自适应权重的粗糙K均值聚类算法。基于自适应权重的粗糙聚类算法在每一次迭代过程中,根据当前的数据划分状态,动态计算每个样本对于类的权重,降低了原有算法对初始权重的依赖。此外,该算法采用近似集合中的高斯距离比例来表现样本权重,从而可以在多种数据分布上得到更精确的聚类结果。实验结果表明,基于自适应权重的粗糙K均值算法是一种较优的聚类算法。  相似文献   

14.
针对粗糙K均值算法的执行效率较低和对数据对象的处理不准确,本文提出了基于加权距离计算的自适应粗糙K均值算法。该算法首先在粗糙集理论应用的基础上修正数据集合的隶属度函数,其次结合属性约简方法,根据数据属性对聚类效果的影响因子设置权值,在欧氏距离中引入权值系数来初始化簇的中心点,最后通过K值递增的改进算法对数据集进行正态检验来验证每个簇的数据是否符合高斯分布模型,从而能够自适应地确定K值。实验结果表明,改进后的算法相比原算法在能保证一定执行效率的同时,能获得较高的聚类精确度,且对高维数据集也有较强的适应性,从而表明该算法是有效可行的。  相似文献   

15.
This paper aims to present several clustering methods based on rank distance. Rank distance has applications in many different fields such as computational linguistics, biology and computer science. The K-means algorithm represents each cluster by a single mean vector. The mean vector is computed with respect to a distance measure. Two K-means algorithms based on rank distance are described in this paper. Hierarchical clustering builds models based on distance connectivity. This paper describes two hierarchical clustering techniques that use rank distance. Experiments using mitochondrial DNA sequences extracted from several mammals are performed to compare the results of the clustering methods. Results demonstrate the clustering performance and the utility of the proposed algorithms.  相似文献   

16.
在多粒度近似空间中,将刻画相对量化信息的变精度粗糙集和描述绝对量化信息的程度粗糙集通过“逻辑与”算子结合起来,建立了基于“逻辑与”算子的双量化多粒度粗糙集模型,并分别从乐观和悲观双量化多粒度粗糙集的角度对模型的一些数学性质进行了讨论。该模型对多粒度近似空间中的相对量化信息和绝对量化信息同时进行了描述,在处理带噪声的数据方面有一定的应用价值,丰富了基于粗糙集理论的知识发现的理论基础。  相似文献   

17.
图像分割是计算机视觉领域的一个基础问题,涉及图像检索、物体检测、物体识别、行人跟踪等众多后续任务。目前已有大量研究成果,有基于阈值、聚类、区域生长的传统方法,也有基于神经网络的流行算法。由于图像区域边界的不确定性问题,现有算法并没有很好地解决图像部分区域渐变导致的边界模糊问题。粒计算是解决复杂问题的有效工具之一,在不确定的、模糊的问题上取得了良好的效果。针对现有图像分割算法在不确定性问题上的局限性,基于粒计算思想,提出了一种粗糙不确定性的图像分割方法。该算法在K均值算法的基础上,结合邻域粗糙集模型,先对类别边界区域的像素点进行粒化,运用邻域关系矩阵,得到各类别对各粒化像素点的包含度,从而对边界区域类别模糊的像素点进行重新划分,优化了图像分割的结果。在Matlab2019编程环境中,实验选取了BSDS500数据集中的一张马术训练图片和一张建筑物图片来测试算法性能。实验先对彩色图像进行灰度处理,用K均值算法对图像进行初步分割,再设置邻域因子值,依据边界像素点邻域信息重新划分边界点。对比K均值算法的分割结果可知,所提算法取得了更佳的效果。实验结果表明,该方法在粗糙度这一评价标准上优于K均值算法,可以有效降低图像区域边界的模糊性,实现灰度边界模糊的图像渐变区域的分割。  相似文献   

18.
针对现有的基于流形距离的聚类算法对“绝对流形”数据集较“相对流形”数据集聚类效果佳和参数[ρ]在较大范围内变化时,聚类性能较差等问题,提出基于改进流形距离的粗糙集k-means聚类算法。该算法通过用属性划分和最大最小距离选择初始聚类中心,以改进的流形距离和粗糙集优化k-means,并结合终止判断条件以达到解决边界数据聚类问题和提升聚类效果的目的。仿真结果表明:该算法对“绝对流形”和“相对流形”数据集聚类效果均有较好改善,且参数变化对聚类性能影响较大。  相似文献   

19.
入侵检测系统对于保障网络安全至关重要。针对传统的单一检测算法很难对不同种类的攻击都有很好检测效果的问题,提出一种结合极限学习机与改进K means算法的入侵检测方法。基于算法级联的方式,利用新型线性修正单元(PReLU)激活函数对极限学习机算法进行优化,采用设置距离阈值的方式,实现K means算法自动选择初始聚类中心与聚类簇数目的双重优化,设计了一种混合式入侵检测方法。采用NSL KDD数据集对所提出的入侵检测方法进行仿真实验,实验结果表明,与传统的BP神经网络、支持向量机与极限学习机算法相比,该方法有效地提高了检测效果,同时降低了误报率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号