首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
一种改进的基于密度的聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类是聚类算法中的一种,其主要优点是可以发现任意形状的簇,但处理大数据集时效果不佳,为此提出了一种改进的算法M-DBSCAN,保留了基于密度聚类算法的优点,同时克服了以往算法不能处理大数据集的缺点。实验结果证明,M-DBSCAN聚类算法在聚类质量及速度上都比原DBSCAN有较大提高。  相似文献   

2.
基于密度的聚类算法(DBSCAN)是最有效的轨迹数据挖掘方法之一,但基于密度的聚类算法往往受到输入参数选择的限制。在轨迹数据挖掘中,聚类结果不仅受到类内距离和类间距离的影响,还受到聚类中坐标点个数的影响。因此,提出了一种新的基于内外占空比的集群有效性指标来平衡这三个因素,该指标可以自动选择密度聚类的输入参数,并在不同的数据集上形成有效的聚类,优化后的聚类方法可应用于出行者行为轨迹的深度分析和挖掘。实验结果证明,与传统的有效性指标相比,提出的基于占空比的评价指标能够优化输入参数,获得较好的出行者位置信息聚类结果。  相似文献   

3.
基于聚类算法的个性化搜索研究   总被引:1,自引:0,他引:1  
搜索引擎的出现使得用户从信息爆炸性增长的互联网上获取所需的信息成为可能,个性化搜索引擎的研究使搜索结果尽可能满足不同用户的信息需求。文中提出了一种基于改进的DBSCAN算法的个性化搜索方法,在全文搜索包lucene与开源搜索引擎Nutch的基础上,实验证明该方法改善了聚类的结果,提高了用户搜索的准确率。  相似文献   

4.
针对基于密度的空间聚类及其变种提出了拓扑的概念。给出了聚类拓扑结构的定义,把簇定义为多种拓扑连通集合。此外,运用全新的拓扑思想改进典型的算法,提出了一种拓扑聚类的新算法。实例证明此算法有效。  相似文献   

5.
聚类法是最重要的空间数据分析方法之一。在大多数真实的应用中,对受限于网络空间的数据访问和分析更有意义(如道路网络上对象的分析)。目前已有一些道路网络聚类方法,但都是基于理想的抽象空间,没有考虑现实存在的约束条件(如交通限制信息),因此不能直接应用到现实环境中。本文提出了带约束条件的道路网络模型,扩展了已有的聚类算法。算法的实验结果表明,算法对真实的道路网络中的对象聚类是高效的。  相似文献   

6.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统D...  相似文献   

7.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

8.
基于有向带权图的页面聚类算法研究   总被引:1,自引:0,他引:1  
聚类算法是数据挖掘中的一个重要的分析工具.Web使用挖掘中的聚类分析一般分为用户聚类和页面聚类.其中页面聚类是指导网站结构离线优化的重要方法.利用有向带权图表示用户的访问会话记录,对建立的有向带权图模型运用聚类算法实现页面聚类.选取真实数据对典型的聚类算法K-means算法、DBSCAN算法和COBWEB算法进行实验.实验结果表明,在选取的数据集范围内,COBWEB算法准确率要高于K-means算法和DBSCAN算法,时间性能与用户访问频率矩阵大小有密切关系.  相似文献   

9.
目前犯罪组织的严密性和隐蔽性日益增强,电子邮件的广泛应用更为犯罪分子的分散隐匿提供了便利条件.为了解决重点监控对象选择问题,设计了电子邮件地址聚类系统.系统根据电子邮件地址之间的收发关系,构建出电子邮件地址的相似度测量属性,利用基于密度聚类方法中的DBSCAN算法,对电子邮件地址关系紧密程度进行划分,找出较为活跃的电子邮件地址,缩小了电子邮件地址查阅范围,提高了电子邮件信息分析处理的针对性和有效性.  相似文献   

10.
一种基于密度的快速聚类方法   总被引:2,自引:1,他引:1  
具有噪声的基于密度的聚类方法(Density based spatial clustering of applications with noise, DBSCAN)在数据规模上的扩展性较差。本文在其基础 上提出一种改进算法——具有噪声的基于密度的快速聚类方法(Fast density based spat ial clustering of applications with noise, F DBSCAN),对核心对象邻域中的对象只 作标记,不再进行扩展检查,通过判断核心对象邻域中是否存在已标记对象来实现簇合并,对 边界对象判断其邻域中是否存在核心对象来确认是否为噪声。此方法避免了原始算法中对重叠区域 的重复操作,在不需创建空间索引的前提下,其时间复杂度为O(nlogn)。通过实验数据集和 真实数据集,验证其聚类效果及算法效率。实验表明F DBSCAN算法不仅保证了有良好的聚 类效果及算法效率,并且在数据规模上具有良好的扩展性。  相似文献   

11.
高效的混合聚类算法及其在异常检测中的应用   总被引:1,自引:0,他引:1  
李建国  胡学钢 《计算机应用》2010,30(7):1916-1918
将聚类算法应用于异常检测,算法的有效性是关键。为了提高异常检测能力,提出了一种新的聚类算法,该算法运用窗口管理机制对网络数据采用分批实时处理的方法,同时对算法中运用到的DBSCAN算法和K-means算法进行改进并组合,实验证明该算法可以提高异常检测的检测率,降低误报率并增强系统的实时响应能力。  相似文献   

12.
康大伟  陈天滋 《计算机应用》2007,27(11):2760-2762
分析了密度聚类算法(DBSCAN)的局限性,在此基础上提出了一种基于密度的面向线段的聚类方法,将DBSCAN中聚类的对象由点转变为线段。在对点聚类的基础上,研究了线段聚类的特点。该算法可以有效处理分布不均匀的线段对象集,发现分布密度不同的各种簇。通过试验证明了该方法的可行性与有效性。  相似文献   

13.
基于密度的DBSCAN聚类算法的研究及应用   总被引:3,自引:0,他引:3       下载免费PDF全文
首先对DBSCAN(Density Based Spatial Clustering of Applications with Noise)聚类算法进行了深入研究,分析了它的特点、存在的问题及改进思想,提出了基于DBSCAN方法的交通事故多发点段的排查方法及其改进思路,并且给出了实例以说明处理过程及可行性。实验结果表明本文提出的方法可以大大提高交通事故黑点排查效率。  相似文献   

14.
现有的大多数孤立点检测算法都需要预先设定孤立点个数,并且还缺乏对不均匀数据集的检测能力。针对以上问题,提出了基于聚类的两段式孤立点检测算法,该算法首先用DBSCAN聚类算法产生可疑孤立点集合,然后利用剪枝策略对数据集进行剪枝,并用基于改进距离的孤立点检测算法产生最可能孤立点排序集合,最终由两个集合的交集确定孤立点集合。该算法不必预先设定孤立点个数,具有较高的准确率与检测效率,并且对数据集的分布状况不敏感。数据集上的实验结果表明,该算法能够高效、准确地识别孤立点。  相似文献   

15.
基于相对距离的密度聚类算法*   总被引:1,自引:0,他引:1  
首先介绍传统距离计算方法在聚类应用中的不足,并针对这点提出一种基于权重向量的相对距离计算方法。在应用DBSCAN算法的基础上,融入相对距离的计算及k-d树的范围查找的应用。该算法不仅能得到很好的聚类效果,而且消除了数据的度量单位对聚类结果的影响。  相似文献   

16.
为有效地弥补全文搜索引擎的不足,提出了一种动态求解的最优密度聚类算法并加以实现.该算法构造了一颗簇关系树,将两种典型聚类算法:密度聚类算法DBSCAN和层次聚类算法BIRCH进行有效结合,对聚类参数ε进行动态求解,以达到参数ε的最优.与其它文本聚类算法相比,该算法的查询结果与用户感兴趣的主题相关度较大,对具有二义性的关键词有较高的查准率,能有效提升搜索引擎的查询效率,加快用户搜索信息的速度.  相似文献   

17.
针对数字PCR系统的配套软件缺少多重实验液滴分类功能的不足,提出了一种网格区域化DBSCAN聚类算法.首先对数据进行网格映射,建立网格索引;然后计算网格间权值并进行深度搜索扩张;最后将网格空间的聚类结果映射回数据空间.人工数据集的仿真实验表明,所提算法能够有效识别簇边缘区域且具有优良的运行效率.在此基础上,提出了基于网格区域化DBSCAN聚类的数字PCR液滴分类方法,经由对比实验及有效性测试,结果表明所提方法能够便捷、准确地进行液滴分类.可见所提方法适用于数字PCR液滴分类.  相似文献   

18.
微博空间存在大量的广告内容,这些信息严重影响着普通用户的用户体验和相关的研究工作。现有研究多使用支持向量机(SVM)或随机森林等分类算法对广告微博进行处理,然而分类方法中人工标注大数据量训练集存在困难,因此提出基于聚类分析的微博广告发布者识别方法:对于用户维度,针对微博广告发布者通过发布大量普通微博来稀释其广告内容的现象,提出核心微博的概念,通过提取核心微博主题及其对应的微博序列,计算用户特征和对应微博的文本特征,并使用聚类算法对特征进行聚类,从而识别微博广告发布者。实验结果显示,所提方法准确率为92%,召回率为97%,F值为95%,证明所提方法在广告内容被人为稀释的情况下能准确地识别微博广告发布者,可以为微博垃圾信息识别、清理等工作提供理论支持和实用方法。  相似文献   

19.
一种基于网格索引的数据聚类算法   总被引:1,自引:0,他引:1  
为了提高基于密度聚类算法的效率,避免算法在执行过程中的多余搜索,提出了一种基于DBSCAN算法的改进的空间数据聚类算法。该算法采用对象邻域空间进行划分的方法,将网格索引结构应用于该算法。在核心对象的邻域内选择八个方向上未标记且距离核心对象最边缘的对象来扩展种子对象,减少查询次数,降低聚类的时间复杂度。在实验中,利用海量数据集对算法进行测试,测试结果证明新算法在保证聚类精度的情况下时间效率显著高于DBSCAN算法。  相似文献   

20.
针对局部空间信息的模糊C-均值算法(WFLICM)中空间影响因子容易受到噪声影响出现错误标识的问题,提出一种融合局部和非局部空间信息的模糊C-均值聚类图像分割算法(NLWFLICM),在WFLICM算法的模糊影响因子中引入非局部空间信息,根据噪声程度自适应地设置局部和非局部信息权重,并重新标记中心点的模糊影响因子。实验结果表明,NLWFLICM算法具有比WFLICM算法更强的鲁棒性和自适应性,并在一定程度上提高了WFLICM算法对含有大量噪声图像进行分割的鲁棒性,同时保留了图像的纹理。为了提高算法的聚类性能和收敛速度,结合Canopy算法能够快速对数据进行粗聚类的优点,提出基于Canopy聚类与非局部空间信息的FCM图像分割改进算法(Canopy-NLWFLICM),可以在NLWFLICM算法聚类前,对聚类中心进行预处理,从而提高收敛速度和图像分割精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号