首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 81 毫秒
1.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统D...  相似文献   

2.
郑涛  张帆 《现代计算机》2006,(6):19-21,36
CLARA是k-中心值聚类的一种算法,在处理大型数据集的聚类问题时,比PAM(围绕中心点的划分)更具有良好的伸缩性,但CLARA算法随机抽样中存在采样不准确的缺点.本文针对这一不足,使用了数据场的概念对CLARA聚类算法进行了有益的改进,提高了采样的准确性,使其更适合于对大型多维数据集的处理,提高了挖掘结果的质量.  相似文献   

3.
基于数据场改进的PAM聚类算法   总被引:4,自引:0,他引:4  
余建桥  张帆 《计算机科学》2005,32(1):165-167
PAM是基于κ-中心值聚类的一种算法,在处理数据集的聚类问题时,具有良好的准确性和伸缩性。但PAM算法在随机选取初始中心点时存在不足,而且在处理存在孤立点或哚声的数据时算法不是很健壮。本文针对这两点不足,使用了数据场的概念对PAM聚类算法进行了有益的改进,提高了算法的准确性和处理孤立点或噪声的能力,使其更适合于对数据集的处理,提高了挖掘结果的质量。  相似文献   

4.
基于改进DBSCAN算法的文本聚类   总被引:1,自引:0,他引:1       下载免费PDF全文
蔡岳  袁津生 《计算机工程》2011,37(12):50-52
目前多数聚类算法不能很好地适应文本聚类的快速自适应需求。为此,论述DBSCAN算法的基本原理和实现过程,提出一种基于改进DBSCAN算法的文本聚类算法,利用最小二乘法降低文本向量的维度,并创建一种应用于DBSCAN算法的簇关系树结构。实验结果表明,该算法能自适应地进行文本聚类,且与DBSCAN相比,准确率较高。  相似文献   

5.
蔡永旺  杨炳儒 《计算机工程》2008,34(10):190-192
提出一种适用于公交站点聚类的DBSCAN改进算法,缩小搜索半径ε,从而提高聚类正确度,同时通过共享对象判定连接簇的合并,防止簇的过分割,减少噪声点,有效地屏蔽了算法对输入参数的敏感性,提高聚类结果的质量,减少密度差距对聚类结果的影响。保持DBSCAN算法的高执行效率,并应用在智能公交换乘查询引擎中公交站点聚类,聚类准确率提高了16%,验证了新算法的有效性。  相似文献   

6.
目前犯罪组织的严密性和隐蔽性日益增强,电子邮件的广泛应用更为犯罪分子的分散隐匿提供了便利条件.为了解决重点监控对象选择问题,设计了电子邮件地址聚类系统.系统根据电子邮件地址之间的收发关系,构建出电子邮件地址的相似度测量属性,利用基于密度聚类方法中的DBSCAN算法,对电子邮件地址关系紧密程度进行划分,找出较为活跃的电子邮件地址,缩小了电子邮件地址查阅范围,提高了电子邮件信息分析处理的针对性和有效性.  相似文献   

7.
8.
针对传统DBSCAN算法需要人工输入[Eps]和[MinPts]参数,且参数选择不合理导致聚类准确率低的问题,提出了一种改进的自适应参数密度聚类算法。采用核密度估计确定[Eps]和[MinPts]参数的合理区间,通过分析数据局部密度特点确定簇数,根据合理区间内的参数值进行聚类,计算满足簇数条件时的轮廓系数,最大轮廓系数对应的参数即为最优参数。在4种经典数据集上进行对比实验,结果表明,该算法能够自动选择最优的[Eps]和[MinPts]参数,准确率平均提高6.1%。  相似文献   

9.
一个基于DBSCAN聚类算法的实现   总被引:4,自引:0,他引:4  
谭勇  荣秋生 《计算机工程》2004,30(13):119-121
高密度聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类。分析了传统的聚类算法及局限性,讨论了一个基于高密度聚类算法的实现过程,使得算法可自动发现高维子空间,处理高维数据表格,得到较快的聚类速度和最佳的聚类效果。  相似文献   

10.
一种改进的基于密度的聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,但处理大数据集时效果不佳,为此提出了一种改进的算法M-DBSCAN,保留了基于密度聚类算法的优点,同时克服了以往算法不能处理大数据集的缺点。实验结果证明,M-DBSCAN聚类算法在聚类质量及速度上都比原DBSCAN有较大提高。  相似文献   

11.
随着我国汽车工业的飞速发展,汽车消费迅速膨胀,汽车市场竞争日益加剧.合理选择汽车销售及售后区域对汽车厂家有着十分重要的影响,对重卡车辆生产厂家的影响更加明显.采用车载GPS技术和改进的DBSCAN算法将陕重汽的不同类型车辆的行驶GPS数据进行空间聚类分析,最终得到不同车辆的活动热点地区分布数据;分析得到的数据对今后车辆的设计、销售及售后的相关决策问题有着重要的参考价值.  相似文献   

12.
FCM算法对初始聚类中心敏感,对噪声和孤立点敏感,容易受到数据分布的影响。本文的改进算法引入物理学上的数据场理论,用势函数来描述数据的分布,优化初始聚类中心;同时采用冗余聚类中心的方法,即将大簇分割成多个小类,再用分离度作为评估函数进行类合并。仿真实验结果表明,改进算法能够克服FCM算法的一些缺陷,对数据分布不规则的数据集进行有效聚类,聚类效果良好。  相似文献   

13.
基于DBSCAN聚类算法的研究与实现   总被引:18,自引:0,他引:18  
高密度聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类。文中分析了传统的聚类算法及局限性,讨论了一个基于高密度聚类算法的实现过程,使得算法可自动发现高维子空间,处理高维数据表格,得到较快的聚类速度和最佳的聚类效果。  相似文献   

14.
连续属性离散化是数据分析中重要的预处理过程,而基于粗糙集理论的数据分析要求离散化的结果能够最大程度地保持原信息系统的分辨关系。论文提出了一种新的离散化算法,此算法以决策信息系统中决策属性对条件属性集合的依赖度作为评价函数动态调整DBSCAN聚类算法的参数,直至离散化决策属性对条件属性集合的依赖度达到预先指定的阈值为止。算法分析和实验证明,算法是切实可行的。  相似文献   

15.
于亚飞  周爱武 《微机发展》2011,(2):30-33,38
DBSCAN算法是一种基于密度的聚类算法,算法存在许多优点,也存在一些不足。比如对输入参数Eps敏感,DB-SCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响。文中主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀。实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确。  相似文献   

16.
基于改进演化算法的空间数据聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
分析空间数据的特点和用常规方法进行空间数据聚类分析的难点与不足,提出一种基于改进的演化算法空间数据聚类方法——SDCEA。解决用传统方法进行空间数据聚类分析时存在的问题,增强聚类分析方法的灵活性和有效性。实验结果表明,对于空间数据的聚类分析问题,该算法具有很好的性能。  相似文献   

17.
针对如何更准确地分析校园无线网络数据中隐藏的社交关系亲密度, 本文提出了改进DBSCAN时空聚类算法. 首先, 通过采集校园无线网络数据, 在根据学生连接WiFi的地点, 时间等信息形成时空轨迹. 运用改进的算法对时空轨迹聚类. 其次, 对聚类结果进行特征轨迹提取, 运用LCSS算法进行相似性对比, 轨迹间相似度越高说明关系比较亲密; 相似度越低, 可能是较孤僻的学生, 老师需要进一步排查和引导教育. 最后, 运用FinBI对轨迹聚类结果可视化展示. 实验结果表明, 该算法提高了聚类结果的准确性和有效性, 为解决其他相似性问题提供思路.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号