首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 276 毫秒
1.
基于不均匀密度的自动聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法。该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据。实验结果表明,该算法是有效的。  相似文献   

2.
《计算机科学与探索》2016,(10):1439-1450
针对现有数据竞争聚类算法在处理密度不均匀数据集时聚类效果不理想的问题,提出了一种密度自适应的数据竞争聚类算法。首先,定义了一种局部密度自适应线段;然后,根据局部密度自适应线段计算出密度自适应相似度,密度自适应相似度不仅反映了数据的整体空间分布信息,还反映了数据点的局部信息,更加符合数据的实际分布;最后,将密度自适应相似度用于数据竞争聚类算法中。在人工和真实数据集上的仿真实验结果表明,新算法比现有的数据竞争聚类算法在处理密度不均匀数据集时,具有更高的聚类性能。  相似文献   

3.
密度峰值聚类算法是一种新颖的密度聚类算法,但是原算法仅仅考虑了数据的全局结构,在对分布不均匀的数据集进行聚类时效果不理想,并且原算法仅仅依据决策图上各点的分布情况来选取聚类中心,缺乏可靠的选取标准。针对上述问题,提出了一种基于加权K近邻的改进密度峰值聚类算法,将最近邻算法的思想引入密度峰值聚类算法,重新定义并计算了各数据点的局部密度,并通过权值斜率变化趋势来判别聚类中心临界点。通过在人工数据集上与UCI真实数据集上的实验,将该改进算法与原密度峰值聚类、K-means及DBSCAN算法进行了对比,证明了改进算法能够在密度不均匀数据集上有效完成聚类,能够发现任意形状簇,且在三个聚类性能指标上普遍高于另外三种算法。  相似文献   

4.
刘娟  万静 《计算机科学与探索》2021,15(10):1888-1899
密度峰值聚类算法是一种基于密度的聚类算法.针对密度峰值聚类算法存在的参数敏感和对复杂流形数据得到的聚类结果较差的缺陷,提出一种新的密度峰值聚类算法,该算法基于自然反向最近邻结构.首先,该算法引入反向最近邻计算数据对象的局部密度;其次,通过代表点和密度相结合的方式选取初始聚类中心;然后,应用密度自适应距离计算初始聚类中心之间的距离,利用基于反向最近邻计算出的局部密度和密度自适应距离在初始聚类中心上构建决策图,并通过决策图选择最终的聚类中心;最后,将剩余的数据对象分配到距离其最近的初始聚类中心所在的簇中.实验结果表明,该算法在合成数据集和UCI真实数据集上与实验对比算法相比较,具有较好的聚类效果和准确性,并且在处理复杂流形数据上的优越性较强.  相似文献   

5.
在分析常用聚类算法的特点和适应性基础上提出一种基于密度与划分方法的聚类算法。该算法根据数据对象密度分布状态来自动确定聚类簇密度吸引中心点和聚类簇的初始划分;然后利用划分的方法,根据密度可达定义来寻找密度可达数据对象簇,从而完成数据对象簇的最终聚类。实验证明该算法能够很好地处理具有任意形状和大小的簇,能够有效地屏蔽噪声和离群点的影响和发现孤立点;同时也减小了输入参数对领域知识的依赖性。  相似文献   

6.
针对密度峰值聚类算法存在数据集密度差异较大时,低密度区域聚类中心难以检测和参数敏感的问题,提出了一种新型密度极值算法。引入自然邻居概念寻找数据对象自然近邻,定义椭圆模型计算自然稳定状态下数据局部密度;计算数据对象余弦相似性值,用余弦相似性值来更新数据对象连通值,采用连通值划分高低密度区域和离群点;构造密度极值函数找到高低密度不同区域聚类中心点;将不同区域非聚类中心点归并到离其最近的聚类中心所在簇中。通过在合成数据集和UCI公共数据集实验分析:该算法比其他对比算法在处理密度分布差异较大数据集上取得了更好的结果。  相似文献   

7.
一种改进的带障碍的基于密度和网格的聚类算法   总被引:3,自引:0,他引:3  
提出了一个改进的带障碍的网格弥散聚类算法DCellO1:以网格为基础,将基于密度的聚类算法与图形学种子填充算法相结合。该算法能进行任意形状的带障碍聚类,并且在对象分布不均匀时也能获得较好的聚类结果。实验证明了该算法的有效性与优越性。  相似文献   

8.
基于密度复杂簇聚类算法研究与实现   总被引:3,自引:2,他引:1       下载免费PDF全文
聚类算法在模式识别、数据分析、图像处理、以及市场研究的应用中,需要解决的关键技术是如何有效地聚类各种复杂的数据对象簇。在分析与研究现有聚类算法的基础上,提出了一种基于密度和自适应密度可达的改进算法。实验证明,该算法能够有效聚类任意分布形状、不同密度、不同尺度的簇;同时,算法的计算复杂度与传统基于密度的聚类算法相比有明显的降低。  相似文献   

9.
针对数据竞争聚类算法在处理复杂结构数据集时聚类性能不佳的问题,提出了一种密度敏感的数据竞争聚类算法。首先,在密度敏感距离测度的基础上定义了局部距离,以描述数据分布的局部一致性;其次,在局部距离的基础上计算出数据间的全局距离,用来描述数据分布的全局一致性,挖掘数据的空间分布信息,以弥补欧氏距离描述数据分布全局一致性能力不佳的缺陷;最后,将全局距离用于数据竞争聚类算法中。将新算法与基于欧氏距离的数据竞争聚类算法进行性能比较,在人工数据集和真实数据集上的实验结果表明,该算法克服了数据竞争聚类算法难以处理复杂结构数据的缺点,聚类结果具有更高的准确率。  相似文献   

10.
密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部密度计算方法并计算相对密度。在绘制决策图确定聚类中心后,基于对簇间密度差异的考虑,提出密度因子计算各个簇的聚类距离,根据聚类距离对剩余样本点进行划分,实现不同形状、不同密度数据集的聚类。在合成数据集和真实数据集上进行实验,结果表明,该算法的FMI、ARI和NMI指标较经典的密度峰值聚类算法和其他3种聚类算法分别平均提高约14、26和21个百分点,并且在簇间密度相差较大的数据集上能够准确识别聚类中心和分配剩余的样本点。  相似文献   

11.
许敏  王士同  顾鑫  俞林 《控制与决策》2013,28(1):125-130
同一应用领域不同时间、地点或设备,采集的样本数据可能存在扰动、噪音或缺失,如何对样本数据集进行有效的预处理是其进一步应用的前提.针对上述问题,提出一种新的基于压缩集密度估计(RSDE)算法的领域自适应概率密度估计方法 A-RSDE,通过学习源域(训练域)知识,使目标域(测试域)概率密度估计更接近真实概率密度分布,并用基于近似最小包含球的核心集快速算法求解 A-RSDE,将其应用于大数据集密度估计. Benchmark 和 UCI 数据集上的实验表明,该算法具有较好的性能.  相似文献   

12.
传统的基于密度的带噪声空间数据聚类算法主要存在以下问题:聚类只对具有数值属性的数据有效,而对具有非数值属性的数据失效;参数设置困难且聚类结果对参数较为敏感;聚类的度量以绝对密度值为标准,无法发现密度等级不同的聚类结果.针对以上问题,提出一种面向混合属性数据的、基于相对密度的聚类算法 RDBC M,同时提出解决这类问题的增量式聚类算法,并从理论和仿真实验两方面分析、验证了算法的有效性和加速效果.  相似文献   

13.
为了提高新闻话题聚类精度,论文提出一种基于Word2Vec的改进密度峰值聚类算法。首先基于Word2Vec提出一种新闻文本的向量表示方法,然后针对密度峰值聚类算法存在的问题,提出一种基于KNN改进的密度峰值聚类算法。该算法首先基于KNN计算样本的局部密度,然后通过最小二乘法线性拟合选取初始聚类中心并对剩余样本进行指派形成聚类结果。在搜狐新闻数据集上的实验结果验证了该算法的有效性。  相似文献   

14.
钱晓山  阳春华 《控制与决策》2012,27(12):1800-1804
针对氧化铝蒸发过程出口浓度在线检测问题,提出一种基于灰色关联分析和核模糊聚类相结合的多支持向量机蒸发过程建模方法.该方法采用灰色关联分析提取影响出口浓度较大的变量,再用核模糊聚类算法将样本划分成不同的子类,并对各子类构建的支持向量机模型的输出综合加权得到最终输出.对蒸发过程生产数据进行实验,并与核模糊聚类最小二乘支持向量机(KFCM-LSSVM)相比较,结果表明新模型鲁棒性较强、精度较高、泛化性更好,可以用于蒸发过程的优化控制.  相似文献   

15.
提出一种基于谱聚类欠取样的不均衡数据支持向量机(SVM)分类算法.该算法首先在核空间中对多数类样本进行谱聚类;然后在每个聚类中根据聚类大小和该聚类与少数类样本间的距离,选择具有代表意义的信息点;最终实现训练样本间的数目均衡.实验中将该算法同其他不均衡数据预处理方法相比较,结果表明该算法不仅能有效提高SVM算法对少数类的分类性能,而且总体分类性能及运行效率都有明显提高.  相似文献   

16.
张清华  周靖鹏  代永杨  王国胤 《软件学报》2023,34(12):5629-5648
密度峰值聚类(density peaks clustering, DPC)是一种基于密度的聚类算法,该算法可以直观地确定类簇数量,识别任意形状的类簇,并且自动检测、排除异常点.然而, DPC仍存在些许不足:一方面, DPC算法仅考虑全局分布,在类簇密度差距较大的数据集聚类效果较差;另一方面, DPC中点的分配策略容易导致“多米诺效应”.为此,基于代表点(representative points)与K近邻(K-nearest neighbors, KNN)提出了RKNN-DPC算法.首先,构造了K近邻密度,再引入代表点刻画样本的全局分布,提出了新的局部密度;然后,利用样本的K近邻信息,提出一种加权的K近邻分配策略以缓解“多米诺效应”;最后,在人工数据集和真实数据集上与5种聚类算法进行了对比实验,实验结果表明,所提出的RKNN-DPC可以更准确地识别类簇中心并且获得更好的聚类结果.  相似文献   

17.
一种基于局部密度的核K-means算法*   总被引:1,自引:0,他引:1  
针对核K-means算法初始聚类中心点难以确定等问题,提出了一种基于局部密度的核K-means算法,该方法利用每个样本的局部相对密度来选择具有高密度且低相似性的样本来生成初始类中心点。实验结果表明,该算法能够很好地排除类边缘点和噪声点的影响,并且能够适应数据集中各个实际类别密度分布不平衡的情况,最终可以生成质量较高且波动性较小的聚类。  相似文献   

18.
高斯混合粒子PHD 滤波被动测角多目标跟踪   总被引:2,自引:0,他引:2  
为解决目标数未知或随时间变化的多目标跟踪问题,通常将多目标状态和观测数据表示成随机集形式,并通过递推计算目标状态联合分布的概率假设密度(PHD)来完成.然而,对于被动测角的非线性跟踪问题,PHD无法获得闭合解,为此提出一种新的高斯混合粒子PHD算法.该算法利用高斯混合近似PHD,以避免用聚类确定目标状态,并采用拟蒙特卡罗(QMC)积分方法计算目标状态的预测和更新分布.仿真结果验证了所提出算法的有效性.  相似文献   

19.
章曼  张正军  冯俊淇  严涛 《计算机应用》2022,42(6):1914-1921
针对基于快速搜索和发现密度峰值的聚类(CFSFDP)算法中截断距离需要人工选取,以及最近邻分配带来的误差导致的在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类(ARD-DPC)算法。该算法利用非参数核密度估计方法计算点的局部密度,根据决策图选取聚类中心,并利用自适应可达距离分配数据点,从而得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法ARD-DPC与基于快速搜索和发现密度峰值的聚类(CFSFDP)、基于密度的噪声应用空间聚类(DBSCAN)、基于密度自适应距离的密度峰聚类(DADPC)算法进行了比较,实验结果表明,相比其他三种算法,ARD-DPC算法在7个数据集上的标准化互信息(NMI)、兰德指数(RI)和F1-measure取得了最大值,在2个数据集分别取得F1-measure和NMI的最大值,只对模糊度较高、聚类特征不明显的Pima数据集聚类效果不佳;同时,ARD-DPC算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号