首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
虽然现有的很多聚类算法能发现任意形状、任意大小的类,但用于多密度的数据集时却难以取得令人满意的结果。为提高对多密度数据集的聚类效果,提出了一种基于网格和信息熵的多密度聚类算法,它通过不同密度的网格所携带的信息熵,自动计算出密度阈值,找出在多密度数据集中不同的类。实验证明,该算法能有效的去处噪声,发现多密度的类,具有较好的聚类效果。  相似文献   

2.
针对具有噪声的基于密度的空间聚类(DBSCAN)算法使用固定参数Eps和Minpts,导致多密度的数据聚类效果不理想的问题,提出了一种适合多密度的DBSCAN改进算法.对数据进行预处理,识别出每个数据对象周围的密度,据此自动生成适合本区域密度的密度阈值.聚类结束前,采用密度阈值进行扩展聚类;进行下一个簇的聚类时自动生成适合本区域的密度阈值,依次进行,直到达到聚类停止条件.大量实验表明:所提算法能有效地对多密度,任意形状的数据进行聚类.  相似文献   

3.
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种经典的基于密度的聚类算法,它通过两个全局参数即半径Eps和最少点数MinPts,能够对任意形状的数据进行聚类,并自动确定类个数。但是,使用全局半径的DBSCAN对于密度不均匀数据集的聚类效果较差,且无法对重叠数据集进行聚类。因此,定义了密度递减原则和局部半径,并根据k-近邻距离自动确定局部半径,从而提出了基于局部半径的DBSCAN算法(LE-DBSCAN);然后,通过考虑近邻的标签,对二支聚类结果的临界点和噪声点进行重新划分,从而提出了基于局部半径的三支DBSCAN算法(LE3W-DBSCAN)。将LE-DBSCAN和LE3W-DBSCAN与该领域的相关算法在UCI数据集和人工数据集上进行对比,实验结果表明,所提算法在常用的硬聚类指标和软聚类指标上都具有较好的表现。  相似文献   

4.
传统的分类算法在对不平衡数据进行分类时,容易导致少数类被错分。为了提高少数类样本的分类准确度,提出了一种基于改进密度峰值聚类的采样算法IDP-SMOTE。首先,采用Box-Cox变换和σ准则对密度峰值聚类算法进行改进,实现了聚类中心和离群点的自动判别;然后,将改进的密度峰值聚类算法与SMOTE升采样算法相结合,去除噪声数据,并基于少数类样本的局部密度和邻近距离,在子类的范围内合成采样数据。该算法有效避免了升采样导致的边界模糊,改善了类内不平衡及边界样本难以学习的问题,同时实现了自动聚类和重采样,防止了人为因素干扰。通过实验对比,验证了提出算法的有效性和自适应性。  相似文献   

5.
结合密度聚类和模糊聚类的特点,提出一种基于密度的模糊代表点聚类算法.首先利用密度对数据点成为候选聚类中心点的可能性进行处理,密度越高的点成为聚类中心点的可能性越大;然后利用模糊方法对聚类中心点进行确定;最后通过合并聚类中心点确定最终的聚类中心.所提出算法具有很好的自适应性,能够处理不同形状的聚类问题,无需提前规定聚类个数,能够自动确定真实存在的聚类中心点,可解释性好.通过结合不同聚类方法的优点,最终实现对数据的有效划分.此外,所提出的算法对于聚类数和初始化、处理不同形状的聚类问题以及应对异常值等方面具有较好的鲁棒性.通过在人工数据集和UCI真实数据集上进行实验,表明所提出算法具有较好的聚类性能和广泛的适用性.  相似文献   

6.
吴昊  周建涛  祁瑞东 《计算机与数字工程》2021,49(12):2444-2449,2461
聚类是一种无监督分类,常用于机器视觉、图像处理等领域.针对密度峰值聚类算法初始聚类中心需要人工手动选择问题,提出一种自动选择聚类中心算法,通过使用最小二乘法结合决策图进行簇中心选择,并提出改进选点策略进一步减少算法所需时间开销.实验中使用Matlab实现算法,并使用6种UCI常用数据集测试,实验结果表明它的性能优于现有的方法,在无需人为干预的情况下获得较好的聚类效果,对数据集内部规律和噪声点都有较好的识别能力.  相似文献   

7.
VDBSCAN:变密度聚类算法   总被引:5,自引:0,他引:5       下载免费PDF全文
传统的密度聚类算法不能识别并聚类多个不同密度的簇。对此提出了变密度聚类算法VDBSCAN,针对密度不稳定的数据集,可有效识别并同时聚类不同密度的簇,避免合并和遗漏。VDBSCAN算法的基本思想是:根据k-dist图和DK分析,对数据集中的不同密度层次自动选择一组Eps值,分别调用DBSCAN算法。不同的Eps值,能够找到不同密度的簇。4个二维数据集实验验证了VDB-SCAN算法的有效性,表明VDBSCAN算法可以有效地聚类密度不均匀的数据集,且参数Eps的自动选择方法也是有效的和健壮的。  相似文献   

8.
针对传统次胜者受罚竞争学习(RPCL)算法忽略数据集几何结构对节点权值调整的影响,以及魏立梅等提出的新RPCL算法(魏立梅,谢维信.聚类分析中竞争学习的一种新算法.电子科学学刊,2000,22(1):13-18)引入密度来对节点的权值进行调整时,密度定义的主观性,提出基于样本空间分布密度的改进RPCL算法。该算法根据数据集样本自然分布定义样本密度,将此密度引入RPCL节点权值调整;使用UCI机器学习数据库数据集以及随机生成的带有噪声点的人工模拟数据集对算法进行实验测试,对算法确定数据集类簇数目的准确率、运行时间、聚类误差平方和、聚类结果的Rand指数、Jaccard系数以及Adjust Rand index参数进行分析比较。各项实验结果显示:所提算法优于原始RPCL算法和魏立梅算法,具有更好的聚类效果,对噪声数据有很强的抗干扰性能。所提算法不仅能根据样本的自然分布确定数据集的合理类簇数目,而且能确定合适的类簇中心,提高聚类的准确性,使聚类结果尽可能快地收敛到全局最优解。  相似文献   

9.
周欢欢  郑伯川  张征  张琦 《计算机应用》2022,42(5):1464-1471
针对基于共享最近邻的密度峰聚类算法中的近邻参数需要人为设定的问题,提出了一种基于自适应近邻参数的密度峰聚类算法。首先,利用所提出的近邻参数搜索算法自动获得近邻参数;然后,通过决策图选取聚类中心;最后,根据所提出的代表点分配策略,先分配代表点,后分配非代表点,从而实现所有样本点的聚类。将所提出的算法与基于共享最近邻的快速密度峰搜索聚类(SNN?DPC)、基于密度峰值的聚类(DPC)、近邻传播聚类(AP)、对点排序来确定聚类结构(OPTICS)、基于密度的噪声应用空间聚类(DBSCAN)和K-means这6种算法在合成数据集以及UCI数据集上进行聚类结果对比。实验结果表明,所提出的算法在调整互信息(AMI)、调整兰德系数(ARI)和FM指数(FMI)等评价指标上整体优于其他6种算法。所提算法能自动获得有效的近邻参数,且能较好地分配簇边缘区域的样本点。  相似文献   

10.
邱保志  程栾 《计算机应用》2018,38(9):2511-2514
针对聚类算法的聚类中心选取需要人工参与的问题,提出了一种基于拉普拉斯中心性和密度峰值的无参数聚类算法(ALPC)。首先,使用拉普拉斯中心性度量对象的中心性;然后,使用正态分布概率统计方法确定聚类中心对象;最后,依据对象到各个中心的距离将各个对象分配到相应聚类中心实现聚类。所提算法克服了算法需要凭借经验参数和人工选取聚类中心的缺点。在人工数据集和真实数据集上的实验结果表明,与经典的具有噪声的基于密度的聚类方法(DBSCAN)、密度峰值聚类(DPC)算法以及拉普拉斯中心峰聚类(LPC)算法相比,ALPC具有自动确定聚类中心、无参数的特点,且具有较高的聚类精度。  相似文献   

11.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

12.
周世波  徐维祥 《控制与决策》2018,33(11):1921-1930
聚类是数据挖掘领域的一个重要研究方向,针对复杂数据集中存在的簇间密度不均匀、聚类形态多样、聚类中心的识别等问题,引入样本点k近邻信息计算样本点的相对密度,借鉴快速搜索和发现密度峰值聚类(CFSFDP)算法的簇中心点识别方法,提出一种基于相对密度和决策图的聚类算法,实现对任意分布形态数据集聚类中心快速、准确地识别和有效聚类.在7类典型测试数据集上的实验结果表明,所提出的聚类算法具有较好的适用性,与经典的DBSCAN算法和CFSFDP等算法相比,在没有显著提高时间复杂度的基础上,聚类效果更好,对不同类型数据集的适应性也更广.  相似文献   

13.
针对各种扩散模式数据点分布的聚类问题,提出了一种基于密度变化的聚类算法(CDD)。CDD采用基于密度的典型聚类算法(DBSCAN)寻找核心点,通过分析数据样本及其周围点密度的扩散规律,计算密度扩散的方向、速度和加速度,对数据样本进行聚类。实验结果表明:与DBSCAN相比,能准确对扩散模式数据进行聚类,对非扩散模式数据具有抗噪声干扰能力强,参数较易确定的优点。  相似文献   

14.
为了减小模糊集及其诱导的经典阴影集之间存在的较大的不确定性差异,文中基于模糊熵提出阴影集模型——区间阴影集.由此提出基于区间阴影集的密度峰值聚类算法,优化经典密度峰值聚类算法的噪声检测策略.改进算法在原二支聚类结果的基础上摒弃原有检测策略,引入区间阴影集模型,并转化为三支聚类结果,达到噪声检测的目的.在经典人工数据集、UCI数据集上的对比实验表明,文中算法能将数据集中对象更合理地分配到相应类簇,对噪声数据具有良好的鲁棒性.  相似文献   

15.
密度峰值聚类算法具有简单高效、无需迭代计算和提前设定类簇数的优势,但是在划分非类中心样本时容易产生“多米诺骨牌”效应,并且不能准确划分重叠区域的样本和噪声。为了解决以上问题,提出了不确定数据信任密度峰值聚类算法。首先,该算法在密度峰值聚类算法获取类中心样本的基础上,利用非类中心样本的K近邻求出样本属于不同类的信任值,将...  相似文献   

16.
针对传统k均值算法易受初始聚类中心和异常数据的影响等缺陷,利用萤火虫优化算法全局搜索能力强、收敛速度快的优势,对k均值算法的初始聚类中心进行优化,并通过引用一种加权的欧氏距离,减少异常数据等不确定因素带来的不良影响,提出了一种基于萤火虫优化的加权k均值算法。该算法在提升聚类性能的同时,有效增强了算法的收敛速度。在实验阶段,通过UCI数据集中的几组数据对该算法进行了分类实验及有效性测试,实验结果充分表明了该算法的有效性及优越性。  相似文献   

17.
针对现有聚类算法处理噪声能力差和速度较慢的问题,提出了一种基于密度的统计合并聚类算法(DSMC)。该算法将数据点的每一个特征看作一组独立随机变量,根据独立有限差分不等式得出统计合并判定准则;同时,结合数据点的密度信息,把密度从大到小的排序作为凝聚过程中的合并顺序,实现了各类数据点的统计合并。人工数据集和真实数据集的实验结果表明,DSMC算法不仅可以处理凸状数据集,对于非凸、重叠、加入噪声的数据集也有良好的聚类效果,充分表明了该算法的适用性和有效性。  相似文献   

18.
针对基于网格的聚类算法存在簇边缘网格中包含噪声点、利用网格相对密度差进行网格合并时不能区分密度均匀变化的网格等问题。提出一种利用区域划分的多密度快速聚类算法MFCBR。算法把数据空间划分成密度不同的网格,利用网格索引表和网格中心密度差合并网格形成簇,然后分别计算每个簇的边界网格质心、边界网格和最近簇网格中心位置,利用三者之间的关系来排除簇边界网格数据中包含的噪声点。实验表明,该算法在降低噪声数据对聚类干扰的同时,且对密度均匀变化的多密度数据集也有较优的处理效果。  相似文献   

19.
密度峰值聚类(DPC)算法在对密度分布差异较大的数据进行聚类时效果不佳,聚类结果受局部密度及其相对距离影响,且需要手动选取聚类中心,从而降低了算法的准确性与稳定性。为此,提出一种基于加权共享近邻与累加序列的密度峰值算法DPC-WSNN。基于加权共享近邻重新定义局部密度的计算方式,以避免截断距离选取不当对聚类效果的影响,同时有效处理不同类簇数据集分布不均的问题。在原有DPC算法决策值的基础上,生成一组累加序列,将累加序列的均值作为聚类中心和非聚类中心的临界点从而实现聚类中心的自动选取。利用人工合成数据集与UCI上的真实数据集测试与评估DPC-WSNN算法,并将其与FKNN-DPC、DPC、DBSCAN等算法进行比较,结果表明,DPC-WSNN算法具有更好的聚类表现,聚类准确率较高,鲁棒性较强。  相似文献   

20.
A particle swarm optimization based simultaneous learning framework for clustering and classification (PSOSLCC) is proposed in this paper. Firstly, an improved particle swarm optimization (PSO) is used to partition the training samples, the number of clusters must be given in advance, an automatic clustering algorithm rather than the trial and error is adopted to find the proper number of clusters, and a set of clustering centers is obtained to form classification mechanism. Secondly, in order to exploit more useful local information and get a better optimizing result, a global factor is introduced to the update strategy update strategy of particle in PSO. PSOSLCC has been extensively compared with fuzzy relational classifier (FRC), vector quantization and learning vector quantization (VQ+LVQ3), and radial basis function neural network (RBFNN), a simultaneous learning framework for clustering and classification (SCC) over several real-life datasets, the experimental results indicate that the proposed algorithm not only greatly reduces the time complexity, but also obtains better classification accuracy for most datasets used in this paper. Moreover, PSOSLCC is applied to a real world application, namely texture image segmentation with a good performance obtained, which shows that the proposed algorithm has a potential of classifying the problems with large scale.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号