共查询到17条相似文献,搜索用时 81 毫秒
1.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统D... 相似文献
2.
CLARA是k-中心值聚类的一种算法,在处理大型数据集的聚类问题时,比PAM(围绕中心点的划分)更具有良好的伸缩性,但CLARA算法随机抽样中存在采样不准确的缺点.本文针对这一不足,使用了数据场的概念对CLARA聚类算法进行了有益的改进,提高了采样的准确性,使其更适合于对大型多维数据集的处理,提高了挖掘结果的质量. 相似文献
3.
基于数据场改进的PAM聚类算法 总被引:4,自引:0,他引:4
PAM是基于κ-中心值聚类的一种算法,在处理数据集的聚类问题时,具有良好的准确性和伸缩性。但PAM算法在随机选取初始中心点时存在不足,而且在处理存在孤立点或哚声的数据时算法不是很健壮。本文针对这两点不足,使用了数据场的概念对PAM聚类算法进行了有益的改进,提高了算法的准确性和处理孤立点或噪声的能力,使其更适合于对数据集的处理,提高了挖掘结果的质量。 相似文献
4.
5.
6.
目前犯罪组织的严密性和隐蔽性日益增强,电子邮件的广泛应用更为犯罪分子的分散隐匿提供了便利条件.为了解决重点监控对象选择问题,设计了电子邮件地址聚类系统.系统根据电子邮件地址之间的收发关系,构建出电子邮件地址的相似度测量属性,利用基于密度聚类方法中的DBSCAN算法,对电子邮件地址关系紧密程度进行划分,找出较为活跃的电子邮件地址,缩小了电子邮件地址查阅范围,提高了电子邮件信息分析处理的针对性和有效性. 相似文献
8.
针对传统DBSCAN算法需要人工输入[Eps]和[MinPts]参数,且参数选择不合理导致聚类准确率低的问题,提出了一种改进的自适应参数密度聚类算法。采用核密度估计确定[Eps]和[MinPts]参数的合理区间,通过分析数据局部密度特点确定簇数,根据合理区间内的参数值进行聚类,计算满足簇数条件时的轮廓系数,最大轮廓系数对应的参数即为最优参数。在4种经典数据集上进行对比实验,结果表明,该算法能够自动选择最优的[Eps]和[MinPts]参数,准确率平均提高6.1%。 相似文献
9.
一个基于DBSCAN聚类算法的实现 总被引:4,自引:0,他引:4
高密度聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类。分析了传统的聚类算法及局限性,讨论了一个基于高密度聚类算法的实现过程,使得算法可自动发现高维子空间,处理高维数据表格,得到较快的聚类速度和最佳的聚类效果。 相似文献
10.
11.
12.
FCM算法对初始聚类中心敏感,对噪声和孤立点敏感,容易受到数据分布的影响。本文的改进算法引入物理学上的数据场理论,用势函数来描述数据的分布,优化初始聚类中心;同时采用冗余聚类中心的方法,即将大簇分割成多个小类,再用分离度作为评估函数进行类合并。仿真实验结果表明,改进算法能够克服FCM算法的一些缺陷,对数据分布不规则的数据集进行有效聚类,聚类效果良好。 相似文献
13.
14.
连续属性离散化是数据分析中重要的预处理过程,而基于粗糙集理论的数据分析要求离散化的结果能够最大程度地保持原信息系统的分辨关系。论文提出了一种新的离散化算法,此算法以决策信息系统中决策属性对条件属性集合的依赖度作为评价函数动态调整DBSCAN聚类算法的参数,直至离散化决策属性对条件属性集合的依赖度达到预先指定的阈值为止。算法分析和实验证明,算法是切实可行的。 相似文献
15.
DBSCAN算法是一种基于密度的聚类算法,算法存在许多优点,也存在一些不足。比如对输入参数Eps敏感,DB-SCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响。文中主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀。实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确。 相似文献
16.
17.
针对如何更准确地分析校园无线网络数据中隐藏的社交关系亲密度, 本文提出了改进DBSCAN时空聚类算法. 首先, 通过采集校园无线网络数据, 在根据学生连接WiFi的地点, 时间等信息形成时空轨迹. 运用改进的算法对时空轨迹聚类. 其次, 对聚类结果进行特征轨迹提取, 运用LCSS算法进行相似性对比, 轨迹间相似度越高说明关系比较亲密; 相似度越低, 可能是较孤僻的学生, 老师需要进一步排查和引导教育. 最后, 运用FinBI对轨迹聚类结果可视化展示. 实验结果表明, 该算法提高了聚类结果的准确性和有效性, 为解决其他相似性问题提供思路. 相似文献