首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,对噪声不敏感.而现有的该类算法对于空间数据分布不均匀的情况聚类效果不佳.鉴于此,文中提出一种改进的基于密度的聚类算法,保持了基于密度的聚类算法的优点,并且可以有效地处理分布不均的数据集,减少了时间复杂度,适用于对大规模数据库的挖掘与分析.  相似文献   

2.
基于不均匀密度的自动聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法。该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据。实验结果表明,该算法是有效的。  相似文献   

3.
一种改进的基于密度的聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,但处理大数据集时效果不佳,为此提出了一种改进的算法M-DBSCAN,保留了基于密度聚类算法的优点,同时克服了以往算法不能处理大数据集的缺点。实验结果证明,M-DBSCAN聚类算法在聚类质量及速度上都比原DBSCAN有较大提高。  相似文献   

4.
康大伟  陈天滋 《计算机应用》2007,27(11):2760-2762
分析了密度聚类算法(DBSCAN)的局限性,在此基础上提出了一种基于密度的面向线段的聚类方法,将DBSCAN中聚类的对象由点转变为线段。在对点聚类的基础上,研究了线段聚类的特点。该算法可以有效处理分布不均匀的线段对象集,发现分布密度不同的各种簇。通过试验证明了该方法的可行性与有效性。  相似文献   

5.
基于密度的最小生成树聚类算法,将最小生成树理论与基于密度的方法相结合,不仅体现了基于密度聚类方法的优点,而且聚类结果不依赖于用户参数的选择,聚类结果更合理,特别是对大数据集,算法非常有效。因此,本文在基于密度的MST聚类的基础上,通过减少数据集扫描次数以提高离群检测的效率。理论分析表明,检测算法可以有效地处理分布不均的数据集,适用于大规模数据集的挖掘。  相似文献   

6.
基于密度梯度的聚类算法研究   总被引:1,自引:0,他引:1  
陈治平  王雷  李志成 《计算机应用》2006,26(10):2389-2392
针对聚类中不规格形状数据点分布的处理难题,提出了一种基于密度梯度的聚类算法(CDG)。算法通过分析数据样本及其周边的点密度变化情况,选择沿密度变化大的方向寻找不动点,从而获取原始聚类中心,再利用类间边界点的分布情况对小类进行合并。实验结果表明,新算法较基于密度的带噪声数据应用的空间聚类方法(DBSCAN)具有更好的聚类性能。  相似文献   

7.
一种基于参考点和密度的快速聚类算法   总被引:55,自引:0,他引:55       下载免费PDF全文
马帅  王腾蛟  唐世渭  杨冬青  高军 《软件学报》2003,14(6):1089-1095
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering using references and density)聚类算法,其创新点在于,通过参考点来准确地反映数据的空间几何特征,然后基于参考点对数据进行分析处理.CURD算法保持了基于密度的聚类算法的上述优点,而且CURD算法具有近似线性的时间复杂性,因此CURD算法适合对大规模数据的挖掘.理论分析和实验结果也证明了CURD算法具有处理任意形状的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的基于R*-树的DBSCAN算法.  相似文献   

8.
基于城市居民出行的随机性和出租车行驶的机动性,对出租车轨迹数据进行载客热点区域的挖掘,得到城市居民出行规律。由于出租车轨迹数据密度分布不均匀,应用一般的聚类方法效果不佳,因此提出一种基于密度分区的聚类算法。该算法通过求取每个出租车上车点位置数据的局部密度,得到密度峰值点作为簇中心,实现对轨迹数据集基于密度的快速划分,得到不同密度的轨迹数据集,在此基础上进行二次聚类。实验结果表明,该算法可以有效识别不同密度的出租车载客热点区域,提高聚类结果的精确度。  相似文献   

9.
本论文在对各种算法深入分析的基础上,尤其在对基于密度的聚类算法he基于层次的聚类算法深入研究的基础上,提出了一种全新的基于密度和层次的快速聚类算法。该算法保持了基于密度聚类算法发现任意形状簇的优点,而且具有近似线性的时间复杂性,因此该算法适合对大规模数据的挖掘。理论分析和实验结果也证明了基于密度和层次的聚类算法具有处理任意形状簇的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的DBSCAN算法。  相似文献   

10.
基于密度的最小生成树聚类算法研究   总被引:2,自引:0,他引:2  
基于密度的方法是一种相当有效的聚类方法,能够发现任意形状的聚类,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。针对其存在的问题,将最小生成树理论与基于密度的方法相结合,提出了一种基于密度的最小生成树聚类算法。通过构造、分割最小生成树得到确定样本空间划分的最小生成子树;根据子树特性,产生局部密度参数;并对生成子树进行局部密度聚类。理论分析和应用结果表明。该算法不仅体现了基于密度聚类方法的优点,聚类结果不依赖于用户参数的选择,使数据聚类更合理,特别是对大型数据库非常有效;也体现了数据分区的思想,使其可以并行执行,进一步提高了信息处理的时空效率和性能。  相似文献   

11.
一种光照不变人脸识别的预处理算法   总被引:3,自引:0,他引:3       下载免费PDF全文
提出了一种新的光照不变人脸识别的图像预处理算法称为分段局部归一化方法(SLN)。其思想是对图像像素分段,使得每段中各像素对应的物体表面点具有相近的表面法向量分布,因而对光源具有相似的灰度响应,然后局部归一化在各段中进行以削弱光照影响。该算法首先建立物体的朗伯(Lambert)表面反射模型,用奇异值分解方法估计出人脸形状的平均表面法向量分布矩阵,根据法向量方向利用聚类算法对像素进行分段,然后在各段中进行局部的像素归一化处理,最后传统的人脸识别算法如PCA在归一化后的图像中进行。在Harvard和YaleB人脸图像库中的识别试验表明,该算法能有效地提高在非均匀光照条件下的人脸识别率。  相似文献   

12.
针对模糊C-均值聚类算法过度依赖初始聚类中心的选取,从而易受孤立点和样本分布不均衡的影响而陷入局部最优状态的不足,提出一种基于自适应权重的模糊C-均值聚类算法。该算法采用高斯距离比例表示权重,在每一次迭代过程中,根据当前数据的聚类划分情况,动态计算每个样本对于类的权重,降低了算法对初始聚类中心的依赖,减弱了孤立点和样本分布不均衡的影响。实验结果表明,该算法是一种较优的聚类算法,具有更好的健壮性和聚类效果。  相似文献   

13.
关联规则在肿瘤诊断中的应用   总被引:6,自引:0,他引:6  
挖掘肿瘤诊断数据库中的关联规则,能为肿瘤诊断提供有用的信息。肿瘤诊断数据库中的属性常为数量型属性,因此如何将数量型属性离散化是挖掘关联规则的难点。竞争聚集算法综合了分层聚类与划分聚类的优点,它能够有效地体现数据的实际分布情况并得到优化的聚类个数,因此能将数量型属性离散化成若干个优化的区间。  相似文献   

14.
为提高分析含大量数据的动态心电时的准确性和分析效率,提出了一种基于改进的K均值聚类生成心搏模板的匹配方法.使用K均值聚类和波形反混淆技术进行循环纠错,生成可变宽心搏模板、并建立心搏模板库.利用可变宽心搏模板和相关系数相结合的策略,对动态心电中心搏进行快速准确分类.实验方法经心率失常数据库MIT-BIT和ANMA/ANSI标准验证,分类结果总体准确率达98.06%,达到了心搏分类目标.  相似文献   

15.
以LEACH为代表的成簇算法,极大地提高无线传感器网络寿命等性能。但这些算法存在一些问题,导致其影响网络性能的进一步提高。在现有研究的基础上,将非均匀成簇策略成功运用于簇头直接向sink发送数据的简单路由环境,通过理论计算得到距离sink不同位置簇头的覆盖半径。提出基于能量耗散比的成簇算法,该算法能够保证当选簇头为局部最优,簇头分布更为合理,并结合分均匀分簇策略提出簇形成算法。通过模拟仿真实验验证该算法的有效性,较LEACH将网络寿命提高50%以上,能够保证网络中簇头个数稳定,并且不同位置簇头节点能耗均匀。  相似文献   

16.
余莉  甘淑  袁希平  李佳田 《计算机应用》2016,36(5):1267-1272
空间聚类是空间数据挖掘和知识发现领域的主要研究方向之一,但点目标空间分布密度的不均匀、分布形状的多样化,以及"多桥"链接问题的存在,使得基于距离和密度的聚类算法不能高效且有效地识别聚集性高的点目标。提出了基于空间邻近的点目标聚类方法,通过Voronoi建模识别点目标间的空间邻近关系,并以Voronoi势力范围来定义相似度准则,最终构建树结构以实现点目标的聚集模式识别。实验将所提算法与K-means、具有噪声的基于密度的聚类(DBSCAN)算法进行比较分析,结果表明算法能够发现密度不均且任意形状分布的点目标集群,同时准确划分"桥"链接的簇,适用于空间点目标异质分布下的聚集模式识别。  相似文献   

17.
空间数据聚类是一种很重要的数据挖掘技术,它可以从大量的空间数据中提取到知识,并且有着广泛的用途,空间数据库里的数据分布对聚类结果的影响很大,很少有算法在聚类时考虑到了空间数据的分布.在本文中,提出了一种新的自适应基于密度的取样聚类算法ADBSC(adaptive density-based sampling clustering),它可以根据空间数据的分布,对一个中心点自适应的选取近邻,并对这些近邻点进行取样,扩展,有效提高了聚类分析的准确性和效率.本文结尾部分,时模拟数据进行了一系列的实验,对其和DBSCAN算法做了比较,证明了ADBSC的优越性.  相似文献   

18.
密度分布不均数据是指类簇间样本分布疏密程度不同的数据.密度峰值聚类(DPC)算法在处理密度分布不均数据时,倾向于在密度较高区域内找到类簇中心,并易将稀疏类簇的样本分配给密集类簇.为避免上述缺陷,提出一种面向密度分布不均数据的近邻优化密度峰值聚类(DPC-NNO)算法.DPC-NNO算法结合逆近邻和k近邻定义新的局部密度,提高稀疏样本的局部密度,使算法能更准确地找到类簇中心;定义分配策略时引入共享近邻,计算样本间相似性,构造相似矩阵,使同一类簇样本联系更紧密,避免错误分配样本.将所提出的DPC-NNO算法与IDPC-FA、DPCSA、FNDPC、FKNN-DPC、DPC算法进行对比,实验结果表明,DPC-NNO算法在处理密度分布不均数据时能获得优异的聚类效果,对于复杂数据集和UCI数据集,DPC-NNO算法的综合性能优于对比算法.  相似文献   

19.
密度峰值聚类算法的局部密度定义未考虑密度分布不均数据类簇间的样本密度差异影响, 易导致误选类簇中心; 其分配策略依据欧氏距离通过密度峰值进行链式分配, 而流形数据通常有较多样本距离其密度峰值较远, 导致大量本应属于同一个类簇的样本被错误分配给其他类簇, 致使聚类精度不高. 鉴于此, 本文提出了一种K近邻和加权相似性的密度峰值聚类算法. 该算法基于样本的K近邻信息重新定义了样本局部密度, 此定义方式可以调节样本局部密度的大小, 能够准确找到密度峰值; 采用样本的共享最近邻及自然最近邻信息定义样本间的相似性, 摒弃了欧氏距离对分配策略的影响, 避免了样本分配策略产生的错误连带效应. 流形及密度分布不均数据集上的对比实验表明, 本文算法能准确找到疏密程度相差较大数据集的密度峰值, 避免了流形数据的分配错误连带效应, 得到了满意的聚类效果; 同时在真实数据集上的聚类效果也十分优秀.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号