首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 304 毫秒
1.
针对传统的BIRCH算法用直径来控制聚类的边界,对非球形聚类效果不佳,甚至会把非球状的簇分割为不同簇这一缺点,对BIRCH算法进行改进,改进算法首先建立多棵CF树,每棵CF树代表一个簇,并结合DBSCAN算法的密度可达的思想。该算法能对任意形状的簇进行准确的聚类。实验表明,算法能通过一次扫描进行有效聚类,时间复杂度与BIRCH算法相同,对大规模数据集具有较高的处理速度,实现了动态聚类,并可以准确地对任意形状的簇进行聚类并发现噪声点。  相似文献   

2.
一种改进的BIRCH聚类算法   总被引:6,自引:0,他引:6  
蒋盛益  李霞 《计算机应用》2009,29(1):293-296
BIRCH算法是一种适应于大规模数据集的聚类算法,通过对所有叶节点设定统一阈值T来构建聚类特征(CF)树,并在各阶段采取不同的阈值来重建树,但没有给出一个合理设定阈值初值T及如何在各阶段提升阈值大小的具体方法。另外BIRCH算法只能处理数值型数据,这使其应用受到限制。针对以上不足,对BIRCH算法做了以下改进:1)改进原BIRCH算法的CF结构,使其可以处理混合型属性数据集; 2)启发式为BIRCH算法选择初始阈值T并给出了第二阶段提升阈值的具体操作方法; 3)对BIRCH算法的参数B和L做了探讨,指出当参数B=L时算法性能相近,并提出为获得较好聚类效果时B值的取值范围。实验结果表明,改进后的BIRCH算法具有较好的性能。  相似文献   

3.
樊仲欣  王兴  苗春生 《计算机应用》2019,39(4):1027-1031
为解决利用层次方法的平衡迭代规约和聚类(BIRCH)算法聚类结果依赖于数据对象的添加顺序,且对非球状的簇聚类效果不好以及受簇直径阈值的限制每个簇只能包含数量相近的数据对象的问题,提出一种改进的BIRCH算法。该算法用描述数据对象个体间连通性的连通距离和连通强度阈值替代簇直径阈值,还将簇合并的步骤加入到聚类特征树的生成过程中。在自定义及iris、wine、pendigits数据集上的实验结果表明,该算法比多阈值BIRCH、密度改进BIRCH等现有改进算法的聚类准确率更高,尤其在大数据集上比密度改进BIRCH准确率提高6个百分点,耗时降低61%。说明该算法能够适用于在线实时增量数据,可以识别非球形簇和体积不均匀簇,具有去噪功能,且时间和空间复杂度明显降低。  相似文献   

4.
多代表点特征树与空间聚类算法   总被引:1,自引:0,他引:1  
空间数据具有海量、复杂、连续、空间自相关、存在缺损与误差等的特点,要求空间聚类算法具有高效率,能处理各种复杂形状的簇,聚类结果与数据空间分布顺序无关,并且对离群点是健壮的等性能,已有的算法难以同时满足要求。本文提出了一个适合处理海量复杂空间数据的数据结构一多代表点特征树。基于多代表点特征树提出了适合挖掘海量复杂空间数据聚类算法CAMFT,该算法利用多代表点特征树对海量的数据进行压缩,结合随机采样的方法进一步增强算法处理海量数据的能力;同时,多代表点特征树能够保存复杂形状的聚类特征,适合处理复杂空间数据。实验表明了算法CAMFT能够快速处理带有离群点的复杂形状聚类的空间数据,结果与对象空间分布顺序无关,并且效率优于已有的同类聚类算法BLRCH与CURE。  相似文献   

5.
多阈值BIRCH聚类算法及其应用   总被引:8,自引:0,他引:8  
BIRCH算法是针对大规模数据集的聚类算法。文章针对该算法在聚类精度和效率方面存在的不足,在原有算法的基础上进行了改进,提出了可变多阈值聚类特征树方法,实现了基于该方法的聚类分析器,最后将该算法应用于图像分割技术当中,验证算法的有效性。  相似文献   

6.
K-means算法是通过计算数据与聚类中心的距离来更新聚类中心的一种无监督的机器学习算法,在距离已知的情况下,BIRCH算法是一种典型的基于距离特征数的类别判断对数据信息进行汇总的方法,是一种平衡迭代规约和聚类的方法。论文结合K-means算法和BIRCH算法优缺点,在数据处理中用K-means处理对离群点干扰较大的数据,BIRCH处理时间复杂度较低的数据的原则构建核心树;以子类的初始中点为叶节点,以欧式距离为依据判断节点间的相似性,并对判别类别进行划分得到核心数据,BIRCH以K类的中点为核心树的叶节点,以叶节点为基础构造核心树,并对核心树的各种特征数据进行完善。实验证明改进K-means算法比原始K-means算法在养老服务护理推荐时用时更短。  相似文献   

7.
文章首先对基于机器学习算法的流特征分类方法研究现状进行了总结,对相关背景知识做了介绍。在特征集选择方面,依据选取的基础特征集所表达特点的不同采用独立的归一化度量准则。在聚类算法方面,根据DBSCAN和BIRCH算法的特性,提出了一种结合DBSCAN和BIRCH算法的改进算法;实验结果表明,与使用原始特征集分类相比,基于归一化特征集的分类处理时间缩短、全局准确率提高,而且改进的算法比传统BIRCH算法的精确率和召回率都明显提高。  相似文献   

8.
针对BIRCH算法过分依赖内存且无法高效处理新增数据的问题,提出一种BIRCH算法的可继承性处理模型。该模型利用XML技术存储聚类特征树,并通过解析XML文档来还原聚类特征树,增强了BIRCH算法的灵活性,解决了BIRCH算法中处理新增数据的效率问题。实验结果表明,该模型是有效的。  相似文献   

9.
基于浮动阈值分类器组合的多标签分类算法   总被引:1,自引:0,他引:1  
针对目标可以同时属于多个类别的多标签分类问题,提出了一种基于浮动阈值分类器组合的多标签分类算法.首先,分析探讨了基于浮动阈值分类器的AdaBoost算法(AdaBoost.FT)的原理及错误率估计,证明了该算法能克服固定分段阈值分类器对分类边界附近点分类不稳定的缺点从而提高分类准确率;然后,采用二分类(BR)方法将该单标签学习算法应用于多标签分类问题,得到基于浮动阈值分类器组合的多标签分类方法,即多标签AdaBoost.FT.实验结果表明,所提算法的平均分类精度在Emotions数据集上比AdaBoost.MH、ML-kNN、RankSVM这3种算法分别提高约4%、8%、11%;在Scene、Yeast数据集上仅比RankSVM低约3%、1%.由实验分析可知,在不同类别标记之间基本没有关联关系或标签数目较少的数据集上,该算法均能得到较好的分类效果.  相似文献   

10.
为提高聚类算法的准确性,通过先对数据集抽样,再对样本数据进行K-means聚类,选出聚类中心,然后为整个数据集中的每个簇单独设置一个阈值的方法对传统的BIRCH算法进行改进。实验表明,在同等条件下,改进后的算法相比传统的BIRCH算法精确度更高,耗时更少。  相似文献   

11.
廖中平  刘科  向雨  蔡晨光 《计算机应用》2016,36(7):1933-1937
针对基于切片技术的点云数据重建算法需要提取切片内点云边界点,及现有算法效率低、提取效果不好等问题,提出一种多阈值提取平面点云边界点的算法。通过选取判断点的k个近邻点,计算相邻两点与判断点连线间夹角,由于边界点必存在最大夹角,通过判断最大夹角是否超过设定阈值,从而快速提取边界点。通过对阈值设值分析,不同点云数据的边界提取实验及几种方法间比较,该方法不受点云形状影响,均能较好提取边界点,且优于其他3种算法。结果表明该方法在保证原始点云特征信息的前提下,可较好提取边界点,提高后续点云重建速度与效率。  相似文献   

12.
当存在噪声和离群点时,k-medoids算法具有较好的鲁棒性,但是对于大数据集,算法的计算代价比较高。CF树是Birch算法中常用的一种结构,对于大数据集的聚类有较好的可伸缩性,但是对于非球形的数据,聚类结果较差。因此,在两种算法的基础上,提出一种基于CF树的k-medoids算法,先用数据集构建CF树,形成微簇,改进了欧式距离计算式,最后使用k-medoids算法对微簇进行聚类。当数据点较多时,改进算法比k-medoids算法运行速度快了近2倍。实验表明,改进算法具有较高的性能和可伸缩性。  相似文献   

13.
基于数据流的BIRCH改进聚类算法   总被引:2,自引:0,他引:2  
数据流管理作为一种新兴课题正在逐渐受到国内外广大研究学者的重视,数据流聚类是其中的一个重要研究领域。论文基于BIRCH聚类算法,提出了一种M-BIRCH聚类算法,克服了BIRCH算法对非球形的聚类效果不佳等缺点。实验结果证明,M-BIRCH聚类算法在聚类质量上比BIRCH有较大提高。  相似文献   

14.
机器学习中的隐私保护问题是目前信息安全领域的研究热点之一。针对隐私保护下的分类问题,该文提出一种基于差分隐私保护的AdaBoost集成分类算法:CART-DPsAdaBoost (CART-Differential Privacy structure of AdaBoost)。算法在Boosting过程中结合Bagging的基本思想以增加采样本的多样性,在基于随机子空间算法的特征扰动中利用指数机制选择连续特征分裂点,利用Gini指数选择最佳离散特征,构造CART提升树作为集成学习的基分类器,并根据Laplace机制添加噪声。在整个算法过程中合理分配隐私预算以满足差分隐私保护需求。在实验中分析不同树深度下隐私水平对集成分类模型的影响并得出最优树深值和隐私预算域。相比同类算法,该方法无需对数据进行离散化预处理,用Adult、Census Income两个数据集实验结果表明,模型在兼顾隐私性和可用性的同时具有较好的分类准确率。此外,样本扰动和特征扰动两类随机性方案的引入能有效处理大规模、高维度数据分类问题。  相似文献   

15.
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法--NIBoost(New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。  相似文献   

16.
数据挖掘以发现常规模式为主体,但离群数据在欺诈分析及安全领域具有重要分析价值,离群数据检测已成为数据挖掘的重要内容。对聚类与分类以及关联规则分析中典型的常规数据挖掘算法如何处理离群数据进行全面分析与总结,讨论了BIRCH、CURE、Chameleon、DBSCAN以及基于共享最近邻的聚类算法以及基于不平衡分类和基于非频繁模式的离群检测技术,给出了一种利用K-最近邻算法的离群数据检测方法,并报告了测试结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号