首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
廖纪勇  吴晟  刘爱莲 《控制与决策》2021,36(12):3083-3090
选取合理的初始聚类中心是正确聚类的前提,针对现有的K-means算法随机选取聚类中心和无法处理离群点等问题,提出一种基于相异性度量选取初始聚类中心改进的K-means聚类算法.算法根据各数据对象之间的相异性构造相异性矩阵,定义了均值相异性和总体相异性两种度量准则;然后据此准则来确定初始聚类中心,并利用各簇中数据点的中位数代替均值以进行后续聚类中心的迭代,消除离群点对聚类准确率的影响.此外,所提出的算法每次运行结果保持一致,在初始化和处理离群点方面具有较好的鲁棒性.最后,在人工合成数据集和UCI数据集上进行实验,与3种经典聚类算法和两种优化初始聚类中心改进的K-means算法相比,所提出的算法具有较好的聚类性能.  相似文献   

2.
针对离群点检测算法LOF在高维离散分布数据集中检测精度较低及参数敏感性较高的问题,提出了基于邻域系统密度差异度量的离群点检测NSD(neighborhood system density difference)算法。相较于传统基于密度的离群点检测方法,NSD算法引入了截取距离的概念。首先计算数据集中对象在截取距离内的邻居点个数;其次计算对象的邻域系统密度;然后将对象的密度与它邻居的密度进行比较,判定目标对象与其邻居趋向于同一簇的程度;最后输出最可能是离群点的对象。将NSD算法与LOF、LDOF、CBOF算法在真实数据集与合成数据集中对比实验发现,NSD算法具有较高的检测准确率和执行效率以及较低的参数敏感性,证明了NSD算法是有效可行的。  相似文献   

3.
离群点检测是数据挖掘领域的重要研究方向之一,可以从大量数据中发现少量与多数数据有明显区别的数据对象。在诸如网络入侵、无线传感器网络异常事件等检测应用中,离群点检测是一项具有很高应用价值的技术。为了提高离群点检测准确度,文中在局部离群测度(SLOM)算法的基础上,作了一些改进,提出了一种基于密度的局部离群点检测算法ESLOM。引入信息熵确定数据对象的离群属性,并对对象距离采用加权距离,以提高离群点检测准确度。理论分析和实验表明该算法是可行有效的。  相似文献   

4.
粗糙K-means算法中下近似和边界区域权重系数的设置对算法的聚类效果有着重要的影响。传统的粗糙K-means算法及很多改进的粗糙K-means算法对所有类簇的下近似和边界区域设置固定的权重,忽视了簇内数据对象分布差异性的影响。针对这个问题,根据下近似和边界区域的数据对象相对于类簇中心的空间分布情况,提出一种新的基于空间距离自适应权重度量的粗糙K-means算法。该算法在每次迭代过程中,根据每个类簇的下近似和边界区域的数据对象相对于类簇中心的平均距离,综合度量下近似和边界区域对于类簇中心迭代计算的不同重要程度,动态地计算下近似和边界区域的相对权重系数。通过实例验证及实验仿真证明了所提算法的有效性。  相似文献   

5.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
本文提出了一种带离群点数据过滤的K-means改进算法。该算法根据离群点数据特征制定了离群点数据的发现规则,并在原算法中加入了离群点数据的发现和处理步骤。通过对给定的具有普遍意义的数据实验表明,改进后算法能较为稳定的发现数据集中存在的离群点数据,这些离群点数据符合离群点数据特征;同时在剔除这些极少数离群点数据后,显著提高了聚类结果簇的凝聚度,从而有效克服了离群点数据对K-means算法的影响,使聚类效果得以显著提高。  相似文献   

6.
基于图像重建出的三维点云模型通常会包含许多离群点,这些离群点可能孤立存在或密集聚集在一起形成点簇,也可能分布在模型周围甚至附着在模型表面。通过一种检测方法很难有效滤除多种分布状态的离群点,因此,提出了综合的离群点监测算法。首先通过空间距离剔除与模型主体较远的离群点,并通过构建空间拓扑关系加快离群点搜索速度;然后利用边界匹配法,将较小点簇分别与最大点簇进行对比,滤除模型周围离群点簇;最后采用改进的K-means算法,根据RGB颜色值特征对点云数据进行聚簇分类,结合已识别的离群点,检测和滤除附着在模型表面的离群点。仿真实验结果表明,此方法能够有效滤除点云模型中多种分布状态的离群点。  相似文献   

7.
K-means算法所使用的聚类准则函数是将数据集中各个簇的误差平方值直接相加而得到的,不能有效处理簇的密度不均且大小差异较大的数据集。为此,将K-means算法的聚类准则函数定义为加权的簇内标准差之和,权重为簇内数据对象数占总数目的比例。同时,调整了传统K-means算法将数据对象重新分配给簇的方法,采用一个数据对象到中心点的加权距离代替传统K-means算法中的距离,将数据对象分配给使加权距离最小的中心点所在的簇。实验结果表明,针对模拟数据集的聚类,改进K-means算法可以明显减少大而稀的簇中数据对象被错误地分配到相邻的小而密簇的可能性,改善了聚类的质量;针对UCI数据集的聚类,改进算法使得各个簇更为紧凑,从而验证了改进K-means算法的有效性。  相似文献   

8.
为适应数据集分布形状多样性以及克服数据集密度问题,针对已有算法对离群簇检测效果欠佳的现状,提出了一种基于K-近邻树的离群检测算法KNMOD(outlier detection based on K-nearest neighborhood MST).算法结合密度与方向因素,提出一种基于K-近邻的不相似性度量,然后带约束切割基于此度量构建的最小生成树从而获得离群点.算法可以有效地检测出局部离群点以及局部离群簇,与LOF、COF、KNN及INFLO算法的对比结果也证实了算法的优越性能.  相似文献   

9.
古凌岚  彭利民 《计算机科学》2016,43(12):213-217
针对传统的基于欧氏距离的相似性度量不能完全反映复杂结构的数据分布特性的问题,提出了一种基于相对密度和流形上k近邻的聚类算法。基于能描述全局一致性信息的流形距离,及可体现局部相似性和紧密度的k近邻概念,通过流形上k近邻相似度度量数据对象间的相似性,采用k近邻的相对紧密度发现不同密度下的类簇,设计近邻点对约束规则搜寻k近邻点对构成的近邻链,归类数据对象及识别离群点。与标准k-means算法、流形距离改进的k-means算法进行了性能比较,在人工数据集和UCI数据集上的仿真实验结果均表明,该算法能有效地处理复杂结构的数据聚类问题,且聚类效果更好。  相似文献   

10.
粗糙集中的距离度量与离群点检测   总被引:1,自引:0,他引:1  
针对传统的基于距离的离群点检测方法不能有效地处理具有离散型属性数据集的问题,将基于距离的离群点检测方法引入粗糙集理论,利用粗糙集解决离散型属性的处理问题.首先,在粗糙集的框架中提出3种面向离散型属性的距离度量;然后,针对这3种距离度量分别设计出相应的离群点检测算法,用于从包含离散型属性的数据集中检测离群点;最后,通过在2个包含离散型属性的UCI数据集上的实验,验证了这些算法的可行性和有效性.  相似文献   

11.
针对数据流中离群点挖掘问题,在K-means聚类算法基础上,提出了基于距离的准则进行数据间离群点判断的离群点检测DOKM算法。根据数据流概念漂移检测结果来自适应地调整滑动窗口大小,从而实现对数据流的离群点检测,与其他离群点算法的一系列实验验证和对比结果表明,DOKM算法在人工数据集和真实数据集中均可以实现对离群点的有效检测。  相似文献   

12.
袁钟  冯山 《计算机应用》2018,38(7):1905-1909
针对离群点检测中传统距离法不能有效处理符号型属性和经典粗糙集方法不能有效处理数值型属性的问题,利用邻域粗糙集的粒化特征提出了改进的邻域值差异度量(NVDM)方法进行离群点检测。首先,将属性取值归一化并以混合欧氏重叠度量(HEOM)和具有自适应特征的邻域半径构建邻域信息系统(NIS);其次,以NVDM构造对象的邻域离群因子(NOF);最后,设计并实现了基于邻域值差异度量的离群点检测(NVDMOD)算法,该算法在计算单属性邻域覆盖(SANC)的方式上充分利用有序二分和近邻搜索思想改进了传统的无序逐一计算模式。在UCI标准数据集上与现有离群点检测算法——邻域离群点检测(NED)算法、基于距离的离群点检测(DIS)算法和K最近邻(KNN)算法进行了实验对比、分析。实验结果表明,NVDMOD算法具有更好的适应性和有效性,为混合型属性数据集的离群点检测提供了一条更有效的新途径。  相似文献   

13.
针对基于距离的离群点检测算法受全局阈值的限制, 只能检测全局离群点, 提出了基于聚类划分的两阶段离群点检测算法挖掘局部离群点。首先基于凝聚层次聚类迭代出K-means所需的k值, 然后再利用K-means的方法将数据集划分成若干个微聚类; 其次为了提高挖掘效率, 提出基于信息熵的聚类过滤机制, 判定微聚类中是否包含离群点; 最后从包含离群点的微聚类中利用基于距离的方法挖掘出相应的局部离群点。实验结果表明, 该算法效率高、检测精度高、时间复杂度低。  相似文献   

14.
针对现有层次聚类算法难以处理不完备数据集,同时考虑样本与类簇之间的不确定关系,提出一种面向不完备数据的集对粒层次聚类算法-SPGCURE.首先,采用集对信息粒的知识对缺失值进行处理,不同于以往算法中将缺失属性删除或者填充,用集对联系度中的差异度来表示缺失属性值,提出一种改进的集对信息距离度量方法,用于考量不完备数据样本间的紧密程度;其次,基于改进后的集对距离度量,给出各个类簇的类内平均距离的定义,形成以正同域Cs(样本一定属于类簇)、边界域Cu(样本可能属于类簇)和负反域Co(样本不属于类簇)表示的集对粒层次聚类;SPGCURE算法在完备和不完备数据都适用,最后,选用5个经典的UCI数据集,与常用的经典及改进聚类算法进行实验评价,结果表明,SPGCURE算法在准确度、F-measure、调整兰德系数和标准互信息等指标上均具有不错的聚类性能.  相似文献   

15.
离群点检测问题中的数据可被看作是正常点与异常点在空间中的高度混合,在减少正常点损失的前提下,离群点通常包含在离聚类中心最远的样本集中。受这种思想启发,提出一种针对高维稀疏数据的基于插值的离群点检测方法,该方法在K-means基础上应用遗传算法对原始数据进行插值处理,解决了K-means聚类中稀疏数据容易被合并的问题。实验结果表明,对比基于传统K-means聚类的离群点检测方法以及几种典型的基于改进K-means的检测方法,本文 方法损失的正常点更少,提高了检测的准确率和精确率。  相似文献   

16.
一种基于密度的局部离群点检测算法DLOF   总被引:3,自引:0,他引:3  
离群点可分为全局离群点和局部离群点.在很多情况下,局部离群点的挖掘比全局离群点的挖掘更有意义.提出了一种基于密度的局部离群点检测算法DLOF.该方法通过引入信息熵用于确定各对象的离群属性,在计算各对象之间的距离时采用加权距离,并给离群属性较大的权重,从而提高离群点检测的准确度.另外,该算法在计算离群因子时,采用了两步优化技术,并对采用这两步优化技术后算法的时间复杂度进行了详细分析.理论分析和实验结果表明了该方法是有效可行的.  相似文献   

17.
针对现有的 Neural-Gas 算法进行改进,提出了一种新的聚类算法。改进之处在于:一个点对一个簇的质心的影响程度取决于该点到其他更近的簇的质心的距离值,而不仅仅是点与簇质心间距离值按大小排列次序的序号。在几个数据集上的实验结果表明,该算法在熵、纯度、F1值、rand index、规范化互信息 NMI 等五个指标上优于 K-means 算法、Neural-Gas 算法等其他几种聚类算法,该算法是一种较好较快的算法。  相似文献   

18.
针对现有的Neural-Gas算法进行改进,提出了一种新的聚类算法。改进之处在于:一个点对一个簇的质心的影响程度取决于该点到其他更近的簇的质心的距离值,而不仅仅是点与簇质心间距离值按大小排列次序的序号。在几个数据集上的实验结果表明,该算法在熵、纯度、F1值、rand index、规范化互信息NMI等五个指标上优于K-means算法、Neural-Gas算法等其他几种聚类算法,该算法是一种较好较快的算法。  相似文献   

19.
粗糙K-means聚类算法是一种有效的处理聚类边界模糊问题的算法,但大多数算法对簇的下近似集和边界中的对象使用统一的权值,忽略了簇内对象之间的差异性。针对这一问题提出一种新的改进算法,通过对簇内的每个对象加入簇内不平衡度量,以区分不同对象对簇的贡献程度,使得聚类结果簇内更紧凑、簇间更疏远。不同数据集的仿真实验结果表明,所提出算法可以有效提高聚类结果的精度。  相似文献   

20.
离群数据挖掘是为了找出隐含在海量数据中相对稀疏而孤立的异常数据模式,但传统的离群数据挖掘方法受人为因素影响较大.通过引入基于信息熵的离群度量因子,给出一种离群数据挖掘新算法.该算法先利用信息熵计算每个数据对象的离群度量因子,然后通过离群度量因子来衡量每个对象的离群程度,进而检测离群数据,有效地消除了人为主观因素对离群检测的影响,并能很好地解释离群点的含义.最后,采用UCI和恒星光谱数据作为实验数据,通过对实验的分析,验证了该算法的可行性和有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号