首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 76 毫秒
1.
一种基于密度的快速聚类算法   总被引:52,自引:0,他引:52  
聚类是数据挖掘领域中的一个重要研究方向,聚类技术在统计数据分析、模式识别、图像处理等领域有广泛应用,迄今为止人们提出了许多用于大规模数据库的聚类算法。基于密度的聚类算法DBSCAN就是一个典型代表。以DBSCAN为基础,提出了一种基于密度的快速聚类算法。新算法以核心对象领域中所有对象的代表对象为种子对象来扩展类,从而减少区域查询次数,降低I/O开销,实现快速聚类,对二维空间数据测试表明:快速算法能够有效地对大规模数据库进行聚类,速度上数倍于已有DBSCAN算法。  相似文献   

2.
密度峰值聚类算法综述   总被引:1,自引:0,他引:1  
密度峰值聚类(density peak, DPeak)算法是一种简单有效的聚类算法,它可将任意维度数据映射成2维,在降维后的空间中建构出数据之间的层次关系,可以非常容易地从中挑选出密度高、且与其他密度更高区域相隔较远的数据点.这些点被称为密度峰值点,可以用来作为聚类中心.根据建构好的层次关系,该算法提供了2种不同的方式完成最后聚类:一种是与用户交互的决策图,另一种是自动化方式.跟踪了DPeak近年来的发展与应用动态,对该算法的各种改进或变种从以下3方面进行了总结和梳理:首先,介绍了DPeak算法原理,对其在聚类算法分类体系中的位置进行了讨论.将其与5个主要的聚类算法做了比较之后,发现DPeak与均值漂移聚类算法(mean shift)有诸多相似之处,因而认为其可能为mean shift的一个特殊变种.其次,讨论了DPeak的几个不足之处,如复杂度较高、自适应性不足、精度低和高维数据适用性差等,将针对这些缺点进行改进的相关算法做了分类讨论.此外,梳理了DPeak算法在不同领域中的应用,如自然语言处理、生物医学应用、光学应用等.最后,探讨了密度峰值聚类算法所存在的问题及挑战,同时对进一步的工作进行展望.  相似文献   

3.
针对密度峰值快速聚类(CFSFDP)算法对不同数据集聚类效果的差异,利用谱聚类对密度峰值快速聚类算法加以改进,提出了一种基于谱分析的密度峰值快速聚类算法CFSFDP-SA。首先,将高维非线性的数据集映射到低维子空间上实现降维处理,将聚类问题转化为图的最优划分问题以增强算法对数据全局结构的适应性;然后,利用CFSFDP算法对处理后的数据集进行聚类。结合这两种聚类算法各自的优势,能进一步提升聚类算法的性能。在5个人工合成数据集(2个线性数据集和3个非线性数据集)与4个UCI数据库中真实数据集上的聚类结果显示,相比CFSFDP算法,CFSFDP-SA算法的聚类精度有一定提升,在高维数据集的聚类精度上最多提高了14%,对原始数据集的适应性更强。  相似文献   

4.
在分类教育资源时,由于缺乏对资源关联关系的分析,导致分类结果的可靠性较低,为此提出基于密度聚类算法的大学英语教学资源分类方法。首先,充分考虑相邻网格之间资源之间的关联性,为每个资源分区构建加权网格;其次,对应的权重以资源关联性为基础进行设置,计算得到网格单元的密度参数后,采用COMCORE-MR算法判断Key-value参数值范围;最后,当Key-value参数值在网格单元给定的密度阈值参量范围内时,划分对应的教育资源与中心目标网格对象为同类资源。测试结果表明,设计方法的分类结果准确率稳定在79.40%以上,与对照组相比有明显优势。  相似文献   

5.
一种基于密度的快速聚类方法   总被引:2,自引:1,他引:1  
具有噪声的基于密度的聚类方法(Density based spatial clustering of applications with noise, DBSCAN)在数据规模上的扩展性较差。本文在其基础 上提出一种改进算法——具有噪声的基于密度的快速聚类方法(Fast density based spat ial clustering of applications with noise, F DBSCAN),对核心对象邻域中的对象只 作标记,不再进行扩展检查,通过判断核心对象邻域中是否存在已标记对象来实现簇合并,对 边界对象判断其邻域中是否存在核心对象来确认是否为噪声。此方法避免了原始算法中对重叠区域 的重复操作,在不需创建空间索引的前提下,其时间复杂度为O(nlogn)。通过实验数据集和 真实数据集,验证其聚类效果及算法效率。实验表明F DBSCAN算法不仅保证了有良好的聚 类效果及算法效率,并且在数据规模上具有良好的扩展性。  相似文献   

6.
针对非结构化大数据难以实现安全存储和易遭受安全攻击的问题,提出可撤销属性加密结合快速密度聚类算法的非结构化大数据安全存储方法.利用可撤销属性方法为非结构化大数据提供安全的存储结构,通过区分安全攻击和传输错误来防止大数据的误传和避免安全攻击;利用霍夫曼压缩技术对数据进行快速压缩,节省非结构化大数据处理过程中的时间开销;利...  相似文献   

7.
提出一种基于谱聚类欠取样的不均衡数据支持向量机(SVM)分类算法.该算法首先在核空间中对多数类样本进行谱聚类;然后在每个聚类中根据聚类大小和该聚类与少数类样本间的距离,选择具有代表意义的信息点;最终实现训练样本间的数目均衡.实验中将该算法同其他不均衡数据预处理方法相比较,结果表明该算法不仅能有效提高SVM算法对少数类的分类性能,而且总体分类性能及运行效率都有明显提高.  相似文献   

8.
邱保志  唐雅敏 《计算机应用》2017,37(12):3482-3486
针对如何快速寻找密度骨架、提高高维数据聚类准确性的问题,提出一种快速识别高密度骨架的聚类(ECLUB)算法。首先,在定义了对象局部密度的基础上,根据互k近邻一致性及近邻点局部密度关系,快速识别出高密度骨架;然后,对未分配的低密度点依据邻近关系进行划分,得到最终聚类。人工合成数据集及真实数据集上的实验验证了所提算法的有效性,在Olivetti Face数据集上的聚类结果显示,ECLUB算法的调整兰德系数(ARI)和归一化互信息(NMI)分别为0.8779和0.9622。与经典的基于密度的聚类算法(DBSCAN)、密度中心聚类算法(CFDP)以及密度骨架聚类算法(CLUB)相比,所提ECLUB算法效率更高,且对于高维数据聚类准确率更高。  相似文献   

9.
基于扩展和网格的多密度聚类算法   总被引:6,自引:1,他引:6  
邱保志  沈钧毅 《控制与决策》2006,21(9):1011-1014
提出了网格密度可达的聚类概念和边界处理技术,并在此基础上提出一种基于扩展的多密度网格聚类算法。该算法使用网格技术提高聚类的速度,使用边界处理技术提高聚类的精度,每次聚类均从最高的密度单元开始逐步向周围扩展形成聚类.实验结果表明,该算法能有效地对多密度数据集和均匀密度数据集进行聚类,具有聚类精度高等优点.  相似文献   

10.
现有的针对分类数据的算法需要多次扫描数据库,对于数据开采经常处理的大容量数据,多遍I/O操作是一项沉重的系统开销.CACD(clustering algorithm for categoricaldata)是针对分类属性数据的聚类算法,该算法采用压缩技术缩小需要处理的数据量以提高效率,同时算法提出了一种新的基于压缩数据结构的标准用于衡量分类数据的相似度.CACD只需扫描数据库一遍,算法理论分析和实验分析都表明该算法比同类针对分类数据的聚类算法效率要高,并且压缩技术对聚类结果的质量影响不大.  相似文献   

11.
针对传统支持向量机(SVM)多分类一对多算法存在的运算量大、耗时长、数据偏斜以及对最优超平面附近点分类易出错问题,提出了一种改进方法。将数据空间分为密集区和稀疏区,各类中密集点归于密集区,其余归于稀疏区。将每类中密集点连同它附近的点用于训练得到相应的SVM分类器。在测试阶段,对密集区的待测样本用传统的一对多判别准则来做类别预测;对稀疏区的待测样本则采用K近邻(KNN)算法。数值实验结果表明,改进的算法在耗时和分类精度上都优于原算法,对解决一对多算法存在的问题有较好的成效。  相似文献   

12.
支持向量机分类器遥感图像分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
SVM分类器核函数的选择以及参数的设置直接影响系统的泛化能力和运行速度。引入交叉验证技术和栅格搜索技术,对径向基核、多项式核和Sigmoid核函数应用于图像多类别分类的性能进行理论推导、测试及分析,求得三种核函数应用于SVM分类器的性能,并证明了栅格搜索寻找最优参数的有效性。最后通过对TM 6波段BSQ格式遥感图像进行分类对比证明了SVM分类器核函数用于TM图像分类的可行性及高效性。  相似文献   

13.
针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法剔除非边界样本,获得最终的类别边界区域样本,参与SVM模型训练。在标准数据集上的实验结果表明,算法在保持传统支持向量机的分类泛化能力的同时,显著降低了模型训练时间。  相似文献   

14.
提出了一种改进的SVM(支持向量机)主动学习方法,通过多次迭代提供给用户信息量最大的样本并将其加入训练集,可以大大减少人工标记样本所耗费的代价。为了评估分类器的性能,实验中对包含了五种音乐流派类别(舞曲、抒情、爵士、民乐、摇滚)的801首音乐样本进行了分类,并在分类准确率的收敛速度和达到同等准确率下需要标注的样本数目两个方面验证了提出的SVM主动学习方法的有效性。  相似文献   

15.
付燕  鲜艳明 《计算机工程》2011,37(21):196-198
现有图像分类方法不能充分利用图像各单一特征之间的优势互补特性,提取的特征中存在大量冗余信息,从而导致图像分类精度不高。为此,提出一种基于多特征和改进支持向量机(SVM)集成的图像分类方法。该方法能提取全面描述图像内容的综合特征,采用主成分分析对所提取的特征进行变换,去除冗余信息,使用支持向量机的集成分类器RBaggSVM进行分类。仿真实验结果表明,与同类图像分类方法相比,该方法具有更高的图像分类精度和更快的分类速度。  相似文献   

16.
针对数据挖掘中文本自动分类问题,提出了一种基于k-means聚类算法和支持向量机相结合的文本分类方法。该方法先将文本大致聚为k类,然后对每一类用支持向量机进行细分。构造了可用于多个模式类识别的多层SVM模型,该模型可完成对多个模式的分类识别。给出了该模型的构造及应用的方法,并验证了该方法的有效性。  相似文献   

17.
基于神经网络的支持向量机学习方法研究   总被引:4,自引:0,他引:4       下载免费PDF全文
针对支持向量机(Support Vector Machine,SVM)对大规模样本分类效率低下的问题,提出了基于自适应共振理论(Adaptive Resonance Theory,ART)神经网络与自组织特征映射(Self-Organizing feature Map,SOM)神经网络的SVM训练算法,分别称为ART-SVM算法与SOM-SVM算法。这两种算法通过聚类压缩数据集,使SVM训练的速度大大提高,同时可获得令人满意的泛化能力。  相似文献   

18.
与蓝色牌照的固定格式相比,白色牌照的字符排列方式呈现多变的特点。如果能够对白色车牌的字符进行准确分割及分类,就可以提高整个系统的识别正确率。首先根据车牌内字符间的排列方式使用支持向量机进行分类,然后根据该类车牌的标准排列模型,即可实现对车牌字符的准确分割及分类。实验结果表明,该方法正确率较高,稳定性好。  相似文献   

19.
对支持向量机的多类分类问题进行研究,提出了一种基于核聚类的多类分类方法。利用核聚类方法将原始样本特征映射到高维特征进行聚类分组,对每一组使用一个支持向量机二值分类器进行分类,并用这些二值分类器组成决策树的节点,构成了一个决策分类树。给出决策树的生成算法,提出了利用交叠系数来控制交叠,从而克服错分积累,提高分类准确率。实验结果表明,采用该方法,手写体汉字识别速度和正确率都达到了实用的要求。  相似文献   

20.
张永  浮盼盼  张玉婷 《计算机应用》2013,33(10):2801-2803
针对大规模数据的分类问题,将监督学习与无监督学习结合起来,提出了一种基于分层聚类和重采样技术的支持向量机(SVM)分类方法。该方法首先利用无监督学习算法中的k-means聚类分析技术将数据集划分成不同的子集,然后对各个子集进行逐类聚类,分别选出各类中心邻域内的样本点,构成最终的训练集,最后利用支持向量机对所选择的最具代表样本点进行训练建模。实验表明,所提方法可以大幅度降低支持向量机的学习代价,其分类精度比随机欠采样更优,而且可以达到采用完整数据集训练所得的结果  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号