首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
针对现有的空间向量模型在进行文本表示时忽略词条的位置和词条间关系的问题,提出了一种基于相对密度的多耦合文本聚类算法。该算法在基于相对密度的聚类方法基础上,根据相对密度越小本文相似性越小这一事实,将相对密度转化为文本相似度,融入了传统DBSCAN密度算法,并对核心对象的选取进行了优化,。实验结果表明,与改进的K-means文本聚类和改进的DBSCAN文本聚类算法相比,本算法在文本聚类中更高效、聚类质量更优。  相似文献   

2.
在基于聚类的DBSCAN离群点检测算法中,存在参数Eps的不确定性和全局统一性问题.因此,本文首先提出了一种基于多目标优化的自适应DBSCAN离群点检测算法,根据不同数据集的特点,通过NSGA-Ⅱ优化算法为数据集中的每个数据自适应地求解一个最优Eps,不仅避免了人为经验设置参数的不足,还解决了全局参数带来的聚类不精确问...  相似文献   

3.
传统DBSCAN算法不能正确聚类密度不均匀的数据集,聚类结果受邻域阈值和密度阈值参数的影响较大。提出一种新的优化初始点和自适应半径的密度聚类算法。利用反向最近邻和相似度矩阵发现当前全局密度最大的数据样本,分析该样本周围密度的分布情况,采用自适应的方法计算当前簇的邻域阈值,并利用DBSCAN算法进行聚类。在人工数据集和UCI数据集上进行测试的结果表明,与经典的DBSCAN、OPTICS、RNN-DBSCAN算法相比,优化初始点和自适应半径的密度聚类算法在ARI、NMI、Homogeneity、Completeness和V-measure 5个评价指标上整体取得最优值,其中在Compound、Jain等数据集上达到1.0,具有较高的聚类效率和准确度。  相似文献   

4.
针对基于密度的DBSCAN算法对于输入参数敏感、无法聚类多密度数据集等问题,提出了一种贪心的DBSCAN改进算法(Greedy DBSCAN)。算法仅需输入一个参数MinPts,采用贪心策略自适应地寻找Eps半径参数进行簇发现,利用相对稠密度识别和判定噪声数据,在随机寻找核对象过程中使用邻域查询方式提升算法效率,最终通过簇的合并产生最终的聚类结果。实验结果表明,改进后的算法能有效地分离噪声数据,识别多密度簇,聚类准确度较高。  相似文献   

5.
基于Web-Log Mining的Web文档聚类   总被引:22,自引:0,他引:22  
苏中  马少平  杨强  张宏江 《软件学报》2002,13(1):99-104
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.  相似文献   

6.
袁夏  赵春霞 《机器人》2011,33(1):90-96
提出一种适用于机器人导航和环境理解的聚类算法,该算法用来处理各向异性分布的点云数据.算法的基本思想是基于点云的密度分布变化和空间位置分布的不同进行聚类,将信息聚类思想触入传统的DBSCAN算法,既保留了DBSCAN算法抗噪声能力强的优点,又结合点云的空间概率分布改善了聚类结果.算法采用自适应的实时参数估计方法克服全局参...  相似文献   

7.
针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径。实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,本文算法的文本聚类精度更高、聚类效果更优。  相似文献   

8.
针对密度聚类DBSCAN算法存在的聚类效果对输入参数敏感的问题,提出了一种基于k-means改进算法确定DBSCAN算法参数的方案来提高聚类质量。将改进k-means算法与DBSCAN算法相结合应用于入侵检测系统,实验结果表明,新方法较好地解决了传统DBSCAN聚类算法中参数选择的敏感问题,相比于李娜等人提出的算法,结合算法使检测率提高了3.32%,误报率降低了1.83%。  相似文献   

9.
基于自适应蜂群优化的DBSCAN聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统的DBSCAN(Density-Based Spatial Clustering of Application with Noise,DBSCAN)聚类算法全局参数设置不合理、参数选取困难、无法识别重叠模块的问题,以及人工蜂群优化算法(Artificial Bees Colony,ABC)后期收敛速度慢、易陷入局部最优等缺陷进行了研究,提出一种基于自适应人工蜂群优化DBSCAN的聚类算法IABC-DBSCAN。该算法将截断选择机制与锦标赛选择机制相结合,提出一种截断-锦标赛选择机制(Truncation-Championship Selection Mechanism,TCSM),以增强种群多样性、避免跟随蜂选择蜜源陷入局部最优的缺陷;提出一种自适应步长策略(Adaptive Step Strategy,ASS)动态调整跟随蜂的搜索方式,以提高算法局部搜索能力和聚类速度;根据改进的IABC算法动态调节DBSCAN算法中的最优参数,将蜜源位置对应[ε]邻域,蜜源的适应度大小对应DBSCAN的聚类效果,并在多种测试函数和数据集上进行验证。实验结果表明,该算法不仅有效克服ABC和DBSCAN算法的缺陷,且正确率和召回率均有较大提高。  相似文献   

10.
在经典DBSCAN聚类算法中距离度量直接影响到聚类的结果,为了使观测数据的偏差不影响到距离度量,在研究观测数据预处理过程及经典DBSCAN聚类算法基础上,提出了一种DBSCAN距离度量的改进算法,指出了观测数据偏差修正的基本思想及改进算法的处理流程.仿真结果表明,改进算法能很好地修正观测数据的偏差,最终得到较好的聚类结果.  相似文献   

11.
FDBSCAN:一种快速 DBSCAN算法   总被引:19,自引:0,他引:19  
聚类分析是一门重要的技术 ,在数据挖掘、统计数据分析、模式匹配和图象处理等领域具有广泛的应用前景 .目前 ,人们已经提出了许多聚类算法 .其中 ,DBSCAN是一种性能优越的基于密度的空间聚类算法 .利用基于密度的聚类概念 ,用户只需输入一个参数 ,DBSCAN算法就能够发现任意形状的类 ,并可以有效地处理噪声 .文章提出了一种加快 DBSCAN算法的方法 .新算法以核心对象邻域中所有对象的代表对象为种子对象来扩展类 ,从而减少区域查询次数 ,降低 I/ O开销 .实验结果表明 ,FDBSCAN能够有效地  相似文献   

12.
In this paper we propose a new density based clustering algorithm via using the Mahalanobis metric. This is motivated by the current state-of-the-art density clustering algorithm DBSCAN and some fuzzy clustering algorithms. There are two novelties for the proposed algorithm: One is to adopt the Mahalanobis metric as distance measurement instead of the Euclidean distance in DBSCAN and the other is its effective merging approach for leaders and followers defined in this paper. This Mahalanobis metric is closely associated with dataset distribution. In order to overcome the unique density issue in DBSCAN, we propose an approach to merge the sub-clusters by using the local sub-cluster density information. Eventually we show how to automatically and efficiently extract not only ‘traditional’ clustering information, such as representative points, but also the intrinsic clustering structure. Extensive experiments on some synthetic datasets show the validity of the proposed algorithm. Further the segmentation results on some typical images by using the proposed algorithm and DBSCAN are presented in this paper and they are shown that the proposed algorithm can produce much better visual results in image segmentation.  相似文献   

13.
Approaches for scaling DBSCAN algorithm to large spatial databases   总被引:7,自引:0,他引:7       下载免费PDF全文
The huge amount of information stored in datablases owned by coporations(e.g.retail,financial,telecom) has spurred a tremendous interest in the area of knowledge discovery and data mining.Clustering.in data mining,is a useful technique for discovering intersting data distributions and patterns in the underlying data,and has many application fields,such as statistical data analysis,pattern recognition,image processsing,and other business application,s Although researchers have been working on clustering algorithms for decades,and a lot of algorithms for clustering have been developed,there is still no efficient algorithm for clustering very large databases and high dimensional data,As an outstanding representative of clustering algorithms,DBSCAN algorithm shows good performance in spatial data clustering.However,for large spatial databases,DBSCAN requires large volume of memory supprot and could incur substatial I/O costs because it operates directly on the entrie database,In this paper,several approaches are proposed to scale DBSCAN algorithm to large spatial databases.To begin with,a fast DBSCAN algorithm is developed.which considerably speeeds up the original DBSCAN algorithm,Then a sampling based DBSCAN algorithm,a partitioning-based DBSCAN algorithm,and a parallel DBSCAN algorithm are introduced consecutively.Following that ,based on the above-proposed algorithms,a synthetic algorithm is also given,Finally,some experimental results are given to demonstrate the effectiveness and efficiency of these algorithms.  相似文献   

14.
基于DBSCAN聚类算法的研究与实现   总被引:18,自引:0,他引:18  
高密度聚类作为数据挖掘中聚类算法的一种分析方法,它能找到样本比较密集的部分,并且概括出样本相对比较集中的类。文中分析了传统的聚类算法及局限性,讨论了一个基于高密度聚类算法的实现过程,使得算法可自动发现高维子空间,处理高维数据表格,得到较快的聚类速度和最佳的聚类效果。  相似文献   

15.
为降低DBSCAN算法的运行时间,结合MCMC(Markov chain Monte Carlo,马尔可夫链蒙特卡洛)采样方法对DBSCAN进行改进,提出一种聚类算法,称为DBSCAN++。其基本思想是优先扩展拓展能力较强的核心对象。通过实验将DBSCAN++与DBSCAN和OPTICS进行对比,实验结果表明,从算法运行时间看,DBSCAN++比DBSCAN平均降低了60.7%,比OPTICS平均降低了70.2%;从聚类准确性角度看,DBSCAN++与DBSCAN和OPTICS相当。在没有影响聚类准确性的情况下,DBSCAN++具有更低的运行时间,是一种有效的聚类算法。  相似文献   

16.
基于煤矿瓦斯监测系统在煤炭生产过程中的监测信息数据库,提出了采用基于DBSCAN算法的聚类分析方法挖掘瓦斯事故信息特征的方案;指出了DBSCAN算法在实际应用中的不足,提出了基于数据划分思想改进DBSCAN算法的方案,介绍了具体的改进方法;应用基于改进DBSCAN算法的聚类分析方法对瓦斯监测信息进行聚类分析、特征提取,结果表明该方法行之有效;最后指出了该方法进一步的研究方向。  相似文献   

17.
一种结合主动学习的半监督文档聚类算法   总被引:1,自引:0,他引:1  
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法.  相似文献   

18.
基于密度的DBSCAN聚类算法的研究及应用   总被引:3,自引:0,他引:3       下载免费PDF全文
首先对DBSCAN(Density Based Spatial Clustering of Applications with Noise)聚类算法进行了深入研究,分析了它的特点、存在的问题及改进思想,提出了基于DBSCAN方法的交通事故多发点段的排查方法及其改进思路,并且给出了实例以说明处理过程及可行性。实验结果表明本文提出的方法可以大大提高交通事故黑点排查效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号