共查询到19条相似文献,搜索用时 78 毫秒
1.
一种改进的DBSCAN密度算法 总被引:1,自引:0,他引:1
DBSCAN算法是一种基于密度的聚类算法,算法存在许多优点,也存在一些不足.比如对输入参数Eps敏感,DB-SCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响.文中主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀.实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确. 相似文献
2.
DBSCAN算法是一种基于密度的聚类算法,算法存在许多优点,也存在一些不足。比如对输入参数Eps敏感,DB-SCAN由于采用全局Eps值,所以在数据密度不均匀和类间距离相差比较大的情况下,聚类质量会受到很大影响。文中主要针对算法输入参数Eps以及数据密度不均匀问题加以改进,提出了一种新的数据分区方法,通过对k-dist图纵坐标距离值单维度聚类,然后对比横坐标实现分区,使每个分区的数据尽可能均匀。实验证明,改进算法明显缓解了全局Eps导致的聚类质量恶化问题,聚类结果更加准确。 相似文献
3.
基于数据分区的DBSCAN算法 总被引:33,自引:1,他引:33
数据聚类在数据挖掘、模式识别、图像处理和数据压缩等领域有着广泛的应用。DBSCAN是一种基于密度的空间聚类算法,在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点,但由于直接对数据库进行操作,在数据量大的时间就需要较多的内存和I/O开销;此外,当数据密度和聚类间的距离不均匀时聚类质量较差,为此,在分析DBSCAN算法不足的基础上,提出了一个基于数据分区的DBSCAN算法,测试结果表 相似文献
4.
基于数据场的改进DBSCAN聚类算法 总被引:1,自引:0,他引:1
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。 相似文献
5.
基于数据取样的DBSCAN算法 总被引:13,自引:1,他引:13
取类是数据挖掘领域中的一个重要研究课题。聚类技术在许多领域有着广泛的应用,基于密度的聚类算法DBSCAN是一种有效的空间聚类算法,它能够发现任意形状的类并且有效地处理噪声,用户只需输入一个参数就可以进行聚类分析,但是,DBSCAN算法在对大规模空间数据库进行聚类分析时需要较大的内存支持和I/O消耗。本文在分析DBSCAN算法不足的基础上,提出一种基于数据取样的DBSCAN算法,使之能够有效地处理大规模空间数据库。二维空间数据测试结果表明本文算法是可行、有效的。 相似文献
6.
一种改进的DBSCAN算法及其应用 总被引:2,自引:0,他引:2
对网络流量等大规模数据,基于密度的DBSCAN聚类算法收敛时间过长、对某些流量聚类效果欠佳。在基于隐马尔科夫模型(Hidden Markov Model,HMM)的流量识别研究背景下,提出一种改进的DBSCAN算法,从减少每次区域查询次数及查询时间两方面提高算法的时间效率和准确率。并创新性地采用分治策略将新算法应用于自动构建网络协议的HMM模型。实验结果表明,改进的DBSCAN算法在保证聚类准确率的同时大大提高了时间效率,并能通过对网络流数据包进行聚类,正确完成网络协议HMM模型的自动建模。 相似文献
7.
DBSCAN算法作为一种经典的聚类算法被广泛地应用于各领域,但由于其参数的自适应性较差,应用效果完全取决于参数的设置。基于此,提出了基于改进和声搜索的自适应DBSCAN算法,以提高DBSCAN算法的自适应性。算法采用K-平均最近邻算法优化初始种群,从而改善初始种群质量,为后续的进化计算提供优质解;设计了基于双差分的更新算子,提升算法的搜索能力;采用两种更新策略结构避免算法过早收敛,提高和声搜索算法的寻优能力进而全面提升DBSCAN算法的自适应性。采用多种数据集并设计对比实验验证提出的算法。实验结果表明,提出的算法具有更佳的识别能力和自适应性。 相似文献
8.
重要位置是指人们在日常生活中的主要活动地点,比如居住地和工作地.智能手机的不断发展与普及为人们的日常生活带来了极大的便利.除了通话、上网等传统应用之外,手机连接基站自动生成的日志记录也是用于用户行为模式挖掘的重要数据来源,例如重要位置发现.然而,相关工作面临着诸多挑战,包括轨迹数据规模庞大、位置精度低以及手机用户的多样性.为此,本文提出了一个通用解决框架以提高轨迹数据可用性.该框架包含一个基于状态的过滤模块,提高了数据的可用性,以及一个重要位置挖掘模块.基于此框架设计了两种分布式挖掘算法:GPMA(Grid-based Parallel Mining Algorithm)和SPMA(Station-based Parallel Mining Algorithm).进一步地,为提高挖掘结果的准确性和精确度,从三个方面进行优化:1)使用多元数据的融合技术,提高结果的准确性;2)提出了无工作地人群的发现算法;3)提出了夜间工作人群的发现算法.理论分析和实验结果表明本文算法具有较高的执行效率、可扩展性,并具有更高的精度. 相似文献
9.
基于数据分区的并行DBSCAN算法 总被引:1,自引:0,他引:1
DBSCAN是基于密度的聚类算法的一个典型代表算法,它对空间数据库聚类有很好的性能.然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销.随着高性能计算机的发展,特别是集群式计算机出现,给我们提供了一种解决DBSCAN算法缺陷的方法,本文提出一种建立在集群式高性能计算机上基于数据分区并行DBSCAN算法.测试结果表明,它极大地降低了DBSCAN对时间和空间的需要. 相似文献
10.
基于数据交叠分区的并行DBSCAN算法 总被引:3,自引:0,他引:3
DBSCAN是基于密度的聚类算法的一个典型代表,它对空间数据库聚类有很好的性能。然而,在对大规模数据库聚类时,DBSCAN需要大量内存支持并伴随着I/O开销。随着高性能计算机的发展,特别是集群式计算机的出现,提供了一种解决DBSCAN算法缺陷的方法。测试表明,它极大地降低了DBSCAN对时间和空间的需要。 相似文献
11.
首先对DBSCAN(Density Based Spatial Clustering of Applications with Noise)聚类算法进行了深入研究,分析了它的特点、存在的问题及改进思想,提出了基于DBSCAN方法的交通事故多发点段的排查方法及其改进思路,并且给出了实例以说明处理过程及可行性。实验结果表明本文提出的方法可以大大提高交通事故黑点排查效率。 相似文献
12.
针对现有地图匹配算法(如基于经典隐马尔可夫及其变体、先进算法等)对于低频轨迹数据匹配效果不甚理想的问题,提出一种基于海量公交历史轨迹数据的轨迹数据挖掘方法。首先,以公交站点为序列骨架,从大量低频轨迹中挖掘、提取轨迹点数据,进行重组、排序形成高质量高频轨迹数据序列;然后,将高质量高频轨迹数据序列应用基于经典隐马尔可夫模型地图匹配算法,得到公交路线地图匹配结果。与未经过挖掘算法处理的低频轨迹数据的匹配方法相比,所提方法在匹配误差上平均下降6.3%,匹配所需的数据规模、时间大幅缩减;且该方法对于低频、不稳定的噪声数据具有鲁棒性,适用于所有公交路线的地图匹配问题。 相似文献
13.
拼车是一种环保节能的出行方式,合理的拼车策略可以缓解交通压力,优化乘客体验,减少碳排放等。针对拼车问题,提出了两阶段的拼车匹配策略。第一阶段匹配过程是利用基于改进Hausdorff距离的乘客分配算法,将拼车需求分配到具体车辆,从而将多车辆问题转化为单车辆问题;第二阶段匹配过程,采用基于匹配度的聚类筛选出与车辆最为匹配的拼车需求。实验结果表明该算法和流程能分别应用于单车次、多车次接力换乘的拼车方案推荐,匹配简单准确。 相似文献
14.
传统的数据挖掘模式和方法已经不能适应如今数据的快速增长,分析了将传统数据挖掘算法与云计算技术相结合的实现过程。通过研究云计算环境下海量数据挖掘的三层模型,发现该模型最大的优点是数据挖掘速度快、可靠性高,而且随着数据量的增加,该模型的优势也愈发明显。 相似文献
15.
16.
吴新玲 《计算机工程与设计》2006,27(9):1557-1559
将不完全数据分为了两类:属性值残缺和属性值隐含.对基于这两类不完全数据的数据挖掘方法分别进行了探讨,给出了相应的处理方法,并对这些方法及其应用进行了讨论.属性值残缺的处理主要采用一系列"补漏"的方法,使数据成为完全数据集;属性值隐含的处理则通过EM算法来优化模型的参数,弥补数据的不完全性. 相似文献
17.
18.
在Ant-Miner算法框架中通过对信息素更新和路径选择概率等策略的改进,并结合乒乓球技战术分析的特点,建立了基于改进蚁群算法的乒乓球技战术分类挖掘模型,并进行了实例分析,与乒乓球技战术关联规则挖掘相比较,该算法在挖掘效果和规则质量方面有很大的优势,并已应用于国家乒乓球队比赛和训练中,效果良好。 相似文献