首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
针对大规模日志数据的聚类问题,提出了DBk-means算法。该算法使用Hadoop对原始日志数据进行预处理,并结合了k-means和DBSCAN聚类算法各自的优势。实验结果表明,相比k-means算法进行聚类分析,文中使用DBk-means算法进行聚类,能够取得更好的聚类效果,正确率可以达到83%以上。  相似文献   

2.
针对k-means算法的聚类结果对初始聚类中心的选取较为敏感、选择聚类数目存在一定的主观性以及离群数据影响的问题,提出了一种结合孤立森林和鲸鱼优化算法的三支k-means算法(iF-W-TWKM)。首先利用孤立森林算法对数据集进行清洗,将数据集划分为两个子集:正常数据子集和异常数据子集。使用正常数据子集进行后续算法步骤,待算法结束后使用得到的聚类中心将异常数据子集中的样本划分到各类簇的边界域。利用鲸鱼优化算法建立以STDI为目标函数的优化问题进行全局寻优实现聚类中心的选取,避免局部最优。实验结果表明,改进后的算法在ACC、AS、DBI指标上整体优于k-means和TK-means,具有更好的聚类表现。  相似文献   

3.
一种基于高斯分布的自适应 DBSCAN 算法   总被引:1,自引:0,他引:1  
针对传统的 DBSCAN 算法只能依靠经验来设置阈值(min Pts ,Eps)和无法对多密度数据集进行有效聚类的不足,提出了一种可适用于所有密度分布特征的数据集的基于高斯分布的自适应 DBSCAN 算法.该算法根据数据集的特点寻找最大的聚类效果指数(CEI)来确定 min Pts ,通过 Distk 图的层次数确定 Eps 个数并通过高斯分布中的参数估计来确定每个密度层次 Eps 大小,最后用所求得阈值进行聚类.将该算法与传统的 DBSCAN 算法分别应用于单密度数据集和多密度数据集,结果显示该算法更有效.  相似文献   

4.
一种有效的高维分类数据聚类方法研究   总被引:1,自引:0,他引:1  
随着数据规模的不断增大,提高K-modes聚类算法或模糊K-modes聚类算法的运行效率成为了一个重要问题.为了提高其算法执行效率,提出了一种基于分治法的高维分类数据聚类方法.该方法并不是一次性对所有的数据进行聚类,而是将分类数据集分成若干个子集,对每个子集同时进行聚类,最后对聚类结果进行融合以形成最终的聚类结果.实验结果表明大多数情况下较传统的方法在聚类的速度上有显著的提高.  相似文献   

5.
聚类的根本在于对数据的划分与集合,数据可通过聚类算法对象的相似性与不同合集中对象的区别性来进行数据记录.近年来,由于数据库的信息量大量增长,在面对大规模数据集时,聚类分析的算法形式已经无法满足高内存,高CPU的时间限制,传统的数据算法正面临着"不高效"的严峻问题.本文旨在根据大规模数据集的背景,进一步分析聚类算法的优缺性,并针对其问题研究聚类新算法的设计方法.  相似文献   

6.
对雷达辐射源信号进行准确分选是电子对抗情报分析的基础性问题,聚类是进行全脉冲分选的一种有效的方法。基于密度聚类的DBSCAN算法具有抗噪声性能好,能处理任意形状和大小的数据的优点,适合全脉冲信号的数据特征。文章应用DBSCAN算法对雷达全脉冲信号分选进行了研究,仿真结果证明该方法简单有效。  相似文献   

7.
基于labels集开展的大规模数据集聚类别,采用SSLOK算法并结合labels集调节聚类过程,这样以来,在有限的主存空间内调换半监督聚类,确保整个数据集聚类工作的实现。本文则对大规模数据集聚类方法和应用进行分析。  相似文献   

8.
膜蛋白在细胞膜上的时空分布形式决定了其活性状态及功能,在调控细胞生命活动过程中起着重要作用。单分子定位超分辨成像(SMLM)技术为在纳米尺度解析膜蛋白的空间分布提供了可能,但分辨率的极大提升对图像准确聚类分割提出了更高要求。基于密度的空间聚类算法(DBSCAN)是常用的聚类方法之一,但其对于膜蛋白分布不均匀的SMLM超分辨图像的分割效果往往不太理想。本文提出了一种结合多次DBSCAN和层次聚类的混合聚类算法,该算法以DBSCAN方法为分割基础,通过进一步的面积阈值分析和层次聚类,在保持超分辨点簇图像精确聚类识别的前提下,仍能保留每个点簇内的多次定位信号。将该算法应用于模拟数据集和实验数据分割得到的轮廓系数等性能普遍优于传统DBSCAN算法。这种混合聚类方法为膜蛋白SMLM超分辨图像的聚类分割提供了新思路和新方法,有助于更精准地分析膜蛋白在纳米尺度上的空间分布信息。  相似文献   

9.
选取2020年5月3日邢台出现四个超级单体的强对流过程,以6分钟的间隔对三维闪电数据进行划分,使用DBSCAN聚类算法删除离散点,使用K-means聚类算法对三维闪电数据进行聚类分析。选取轮廓系数最大的K值,并与雷达回波拼图数据进行对比,识别四个超级单体并计算聚类中心和聚类最大半径,使用趋势外推法对四个超级单体的运动轨迹进行预测。分析表明:DBSCAN聚类算法可以有效删除离散点,操作性强;四个超级单体的K-means算法聚类中心和30 dBZ以上的强回波区域一致性较好,可以获取聚类中心运动轨迹和聚类最大半径;使用临近三个时次数据进行趋势外推,MSE最小,该方法对雷电预警信号发布有参考价值。  相似文献   

10.
本文分析了数据聚类算法BIRCH的不足之处,提出了一种基于密度与动态阈值的任意形状聚类挖掘算法——DVTD算法,它结合密度和阈值双重参数,并根据数据集内在特征,动态改变阈值T,既可以控制CF树的大小,也能利用不同球形聚类逼近任意形状的数据聚类.实验结果表明,它的算法复杂度与BIRCH相当,并大大降低了CF的大小,对任意形状的聚类效果可以达到与DBSCAN相近的效果.  相似文献   

11.
未知雷达辐射源信号识别一直是雷达对抗情报分析中的难题。针对基于密度的聚类算法在处理不均匀样本时识别率较低的缺陷,将该算法与亲和传递(AP)聚类算法结合,提出一种基于AP密度聚类的识别方法。该方法先利用AP聚类方法对数据样本进行初步聚类,再设定相关参数,运用基于密度的带有噪声的空间聚类(DBSCAN)算法进行二次聚类。相对于原样本,初始聚类结果分布具有一定的代表性,容易找到适合DBSCAN方法的参数值。测试表明该方法具有较高的识别率。  相似文献   

12.
一种改进的基于密度的聚类算法   总被引:1,自引:0,他引:1  
聚类是数据挖掘领域中的一个重要研究方向,在基于密度的聚类算法DBSCAN的基础上,提出了一种改进的基于密度的聚类算法,该算法在核心点的邻域扩展中不再将邻域内的点作为种子点,而是按顺序选择一个邻域外未被标记的点作为种子点,然后分不同情况进行相应的聚类扩展,此算法可以有效减少聚类中核心点邻域重叠区域查询的次数和运行的时间,实验测试结果也表明该算法聚类的效率和质量明显优于DBSCAN算法.  相似文献   

13.
改进DBSCAN算法中参数Eps值的确定   总被引:1,自引:0,他引:1  
DBSCAN算法中,参数Eps的值对聚类结果影响很大。本文把算法中确定Eps的值转换为用户对数据中噪音水平的估计,使参数的确定更加客观。实验表明,改进后的算法有较强的鲁棒性。  相似文献   

14.
基于激光雷达传感器,提出了一种道路路锥识别方法。首先,在传统DBSCAN聚类算法的基础上改进算法搜寻核心点的方式,对雷达所采集的数据进行快速地分割、聚类。接着,分析类簇,对每帧数据的类簇进行特征采样并赋予标签值。最后,通过支持向量机(SVM)训练样本数据,利用网格化搜索与交叉验证法优化SVM参数,得到类簇分类模型,用于识别路锥。实验结果表明,改进后的DBSCAN算法计算效率有了显著提升,并且对点云的聚类更具有针对性。经过多次随机数据集检测,分类模型的准确率保持在93以上,实现了对路锥的有效识别。  相似文献   

15.
针对基于密度聚类(DBSCAN)算法不能发现雷达信号密度分布不均匀的缺陷,提出了一种基于近类点和模糊点的聚类方法。该方法利用同一部雷达数据的分布特性进行聚类,通过确定近类点和模糊点以达到分选不同密度分布的雷达信号,适用于未知雷达信号的分选。算法测试表明,该方法对噪声不敏感,能够发现任意形状、大小和密度的聚类。  相似文献   

16.
结合改进DBSCAN和统计滤波的单光子去噪算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了解决光子计数激光雷达探测数据中噪声点云过多的问题,采用结合基于密度的噪声空间聚类应用算法(DBSCAN)和统计滤波算法的单光子点云去噪方法,以美国国家航空航天局提供的多波束试验激光雷达实际飞行数据为实验数据,通过k维树求取点云密度进行粗去噪,然后运用改进DBSCAN算法和统计滤波算法进行精去噪,进行了理论分析和实验...  相似文献   

17.
基于DBSCAN的单粒子激光电离质谱数据分析   总被引:1,自引:0,他引:1  
大气气溶胶飞行时间质谱仪在对气溶胶粒子的测量过程中会产生大量包含单粒子的化学成分和粒径信息的数据.介绍了DBSCAN对三种混合气溶胶单粒子质谱数据进行聚类分析的研究,同以往的质谱分析方法相比,DBSCAN利用类的高密度连通性,可以快速发现各种形状的类,更有利于质谱数据的分析.实验结果表明,DBSCAN算法可以成功地对这三类物质进行分类.  相似文献   

18.
为了满足对XML文档集合进行数据挖掘需求,本文提出了根据XML文档树的语义信息和结构信息来计算其结构相似度,通过结构相似度构造其结构相似度矩阵,在此基础上应用DBSCAN算法来对XML文档集合进行聚类.与其他聚类算法相比,其聚类的速度得到了很大的提高.  相似文献   

19.
针对当前聚类方法(例如经典的GN算法)计算复杂度过高、难以适用于大规模图的聚类问题,本文首先对大规模图的采样算法展开研究,提出了能够有效保持原始图聚类结构的图采样算法(Clustering-structure Representative Sampling,CRS),它能在采样图中产生高质量的聚类代表点,并根据相应的扩张准则进行采样扩张.此采样算法能够很好地保持原始图的内在聚类结构.其次,提出快速的整体样本聚类推断(Population Clustering Inference,PCI)算法,它利用采样子图的聚类标签对整体图的聚类结构进行推断.实验结果表明本文算法对大规模图数据具有较高的聚类质量和处理效率,能够很好地完成大规模图的聚类任务.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号