首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 92 毫秒
1.
针对在数据分布不均匀时,由于DBSCAN使用统一的全局变量,使得聚类的效果差,提出了一种基于过滤的DBSCAN算法。该算法的思想是:在调用传统的DBSCAN算法前,先对数据集进行预处理,针对所有点的k-dist数据进行一维聚类,自动计算出不同的Eps;然后再根据每个Eps分别调用传统的DBSCAN算法,从而找出非均匀数据集的各种聚类。实验结果表明,改进算法对密度不均匀的数据能够有效聚类。  相似文献   

2.
针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOTE的过采样算法DB-MCSMOTE(DBSCAN and Midpoint Centroid Synthetic Minority Over-sampling Technique)。该算法对少数类样本进行DBSCAN聚类,根据提出的簇密度分布函数,计算各个簇的簇密度和采样权重,在各个簇中利用改进的SMOTE算法(MCSMOTE)在相距较远的少数类样本点之间的连线上进行过采样,提高合成样本的多样性,得到新的类间和类内综合平衡数据集。通过对一个二维合成数据集和九个UCI数据集的实验表明,DB-MCSMOTE可以有效提高分类器对少数类样本和整体数据集的分类性能。  相似文献   

3.
系统主要应用数据挖掘方法对中药提取数据进行分析和预测。首先对数据进行集成和离散化处理,得到适合数据挖掘的数据集,然后利用k-means和DBSCAN聚类算法对质检数据进行聚类,得到工艺参数质检区间;并对Apriori算法进行了改进,在算法中加入了用户兴趣度的概念,控制了候选集指数增长,得到工艺参数和固含量的关系;并利用三层BP神经网络算法训练网络模型,得出过程参数和结果质量参数的关系,发现数据中隐含的规律,为企业优化工艺以及提高其生产效率降低成本等提供科学的分析、决策辅助工具。  相似文献   

4.
针对YOLOv3(you only look once)检测算法对小目标、遮挡目标检测时存在识别率低和识别精度不高的问题,提出一种融合DBSCAN(density-based spatial clustering of applications with noise)的改进YOLOv3目标检测算法。首先在YOLOv3网络中增加DBSCAN聚类算法,其次对检测目标进行提取,实现数据集多尺度聚类,得到初代特征图,然后通过改进[K]-means聚类算法确定锚点位置达到更好的聚类,最后在VOC2007+2012数据集和MS-COCO数据集上对改进YOLOv3算法进行训练和测试。实验结果表明改进的YOLOv3算法使检测目标在VOC数据集和MS-COCO数据集上mAP(mean average precision)分别提高了14.9个百分点和12.5个百分点。与其他深度学习目标检测算法相比,改进YOLOv3检测算法具有更好的检测效果,同时具有良好移植性和更好的鲁棒性。  相似文献   

5.
针对基于密度的噪声应用空间聚类算法(density based spatial clustering of applications with noise,DBSCAN)计算复杂度较高以及无法聚类多密度数据集等问题,提出了一种网格聚类算法和DBSCAN相结合的融合聚类算法(G_FDBSCAN)。利用网格划分技术将数据集划分为稀疏区域和密集区域,分而治之,降低计算的时间复杂度和采用全局参数引起的聚类误差;改进传统的DBSCAN聚算法得到FDBSCAN,将密集区域中网格聚类的结果作为一个整体参与后续的聚类,在网格划分基础上进行邻域检索,减少邻域检索和类扩展过程中对象的无效查询和重复查询,进一步减少时间开销。理论分析和实验测试表明,改进后的算法与DBSCAN算法、DPC算法、KMEANS算法、BIRCH算法和CBSCAN算法相比,在聚类结果接近或达到最优的情况下,聚类效率分别平均提升了24倍、11倍、2倍、3倍和1倍。  相似文献   

6.
传统DBSCAN算法不能正确聚类密度不均匀的数据集,聚类结果受邻域阈值和密度阈值参数的影响较大。提出一种新的优化初始点和自适应半径的密度聚类算法。利用反向最近邻和相似度矩阵发现当前全局密度最大的数据样本,分析该样本周围密度的分布情况,采用自适应的方法计算当前簇的邻域阈值,并利用DBSCAN算法进行聚类。在人工数据集和UCI数据集上进行测试的结果表明,与经典的DBSCAN、OPTICS、RNN-DBSCAN算法相比,优化初始点和自适应半径的密度聚类算法在ARI、NMI、Homogeneity、Completeness和V-measure 5个评价指标上整体取得最优值,其中在Compound、Jain等数据集上达到1.0,具有较高的聚类效率和准确度。  相似文献   

7.
针对极限学习机(ELM)未充分利用未标注样本、训练精度受网络权值初值影响的问题,提出一种基于协同训练与差分进化的改进ELM算法(Tri-DE-ELM)。考虑到传统的ELM模式分类技术只利用了少量标注样本而忽视大量未标注样本的问题,首先应用基于Tri-Training算法的协同训练机制构建Tri-ELM半监督分类算法,利用少量的标记样本训练三个基分类器实现对未标记样本的标注。进一步针对基分类器训练中ELM网络输入层权值随机初始化影响分类效果的问题,采用差分进化(DE)算法对网络初值进行优化,优化目标及过程同时包括网络权值和分类误差两方面的因素,以避免网络的过拟合现象。在标准数据集上的实验结果表明,Tri-DE-ELM算法能有效地利用未标注数据,具有比传统ELM更高的分类精度。  相似文献   

8.
基于改进单类支持向量机的工业控制网络入侵检测方法   总被引:2,自引:0,他引:2  
针对单类支持向量机(OCSVM)入侵检测方法无法检测内部异常点和离群点导致决策函数偏离训练样本的问题,提出了一种结合具有噪声的密度聚类(DBSCAN)方法和K-means方法的OCSVM异常入侵检测算法。首先通过DBSCAN算法,剔除训练数据中的离群点,消除离群点的影响;然后利用K-means划分数据类簇的方法筛选出内部异常点;最后利用OCSVM算法为每一个类簇建立单分类器用于检测异常数据。工控网络数据集上的实验结果表明,该组合分类器能够利用无异常数据样本检测出工控网络入侵,并且提高了OCSVM方法的检测效果。在气体管道网络数据集入侵检测实验中,所提方法的总体检测率为91.81%;而原始OCSVM算法则为80.77%。  相似文献   

9.
为有效提高传统KNN算法(K最近邻算法)在海量数据的分类效率,分析传统KNN算法的分类过程,提出基于K-Medoids聚类的改进KNN算法。利用K-Medoids算法对文本训练集进行聚类,把文本训练集分成相似度较高的簇;根据待分类文本与簇的相对位置,对文本训练集进行裁剪,解决传统KNN算法在文本训练集过大时速度慢的问题。分析与实验结果表明,该裁剪方法能够合理有效地裁剪文本训练集,提高了KNN算法的运行效率和分类能力。  相似文献   

10.
基于k-means聚类的神经网络分类器集成方法研究   总被引:2,自引:1,他引:2       下载免费PDF全文
针对差异性是集成学习的必要条件,研究了基于k-means聚类技术提高神经网络分类器集成差异性的方法。通过训练集并使用神经网络分类器学习算法训练许多分类器模型,在验证集中利用每个分类器的分类结果作为聚类的数据对象;然后应用k-means聚类方法对这些数据聚类,在聚类结果的每个簇中选择一个分类器代表模型,以此构成集成学习的成员;最后应用投票方法实验研究了这种提高集成学习差异性方法的性能,并与常用的集成学习方法bagging、adaboost进行了比较。  相似文献   

11.
将极限学习机算法与旋转森林算法相结合,提出了以ELM算法为基分类器并以旋转森林算法为框架的RF-ELM集成学习模型。在8个数据集上进行了3组预测实验,根据实验结果讨论了ELM算法中隐含层神经元个数对预测结果的影响以及单个ELM模型预测结果不稳定的缺陷;将RF-ELM模型与单ELM模型和基于Bagging算法集成的ELM模型相比较,由稳定性和预测精度的两组对比实验的实验结果表明,对ELM的集成学习可以有效地提高ELM模型的性能,且RF-ELM模型较其他两个模型具有更好的稳定性和更高的准确率,验证了RF-ELM是一种有效的ELM集成学习模型。  相似文献   

12.
传统DBSCAN算法对密度分布不均匀的不平衡数据集的聚类效果并不理想,同时传统算法的聚类结果对邻域半径(Eps)以及核心点阈值(MinPts)敏感.针对以上问题,改进了传统算法,提出了一种基于最小生成树的密度聚类算法(MST-DBSCAN).由于对象之间的距离对聚类结果影响较大,为了更好地表示对象之间的距离特性,首先使...  相似文献   

13.
鉴于传统的基因选择方法会选出大量冗余基因从而导致较低的样本预测准确率,提出一种基于聚类和微粒群优化的基因选择算法。首先采用聚类算法将基因分成固定数目的簇;然后,采用极限学习机作为分类器进行簇中的特征基因分类性能评价,得到一个备选基因库;最后,采用基于微粒群优化和极限学习机的缠绕法从备选基因库中选择具有最大分类率、最小数目的基因子集。所选出的基因具有良好的分类性能。在两个公开的微阵列数据集上的实验结果表明,相对于一些经典的方法,新方法能够以较少的基因获得更高的分类性能。  相似文献   

14.
解决好智能用电网络数据采集和传输过程中的数据缺失和噪声问题,提高其用电数据的数据质量,才能在智能用电云平台中有效的运用各种用电大数据分析与预测算法。本文在总结智能用电网络的数据采集与数据传输特点,及分析智能用电云平台对用电数据的数据质量要求的基础上,提出了智能用电网络的用电数据预处理方法。对智能用电终端采集的用电数据归一化处理后,利用聚类算法从噪声、模糊、随机数据中提取出正常数据,本文对比验证了K-均值聚类和基于密度的空间聚类两种算法的聚类效果。相比K-均值聚类算法,密度的空间聚类两种算法在检测数据噪声点的同时,可自动获取复杂形状数据集的聚类数量,更适合智能用电网络的用电数据预处理。  相似文献   

15.
翟俊海  张素芳  王聪  沈矗  刘晓萌 《计算机应用》2018,38(10):2759-2763
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明,所提算法优于基于极限学习机的主动学习算法。  相似文献   

16.
说话人识别的本质就是模式分类。传统分类器算法中参数模型方法的主要缺点是预先假定的概率分布函数形式不一定符合待分类的数据。非参数模型方法,如PNN分类器,可以有效地克服参数模型的缺点,但其巨大的内存开销与低的分类速度使得PNN作为大量和高维的数据样本分类几乎不可行。FCM虽具有良好的模糊聚类能力,但无法直接给出概率分类结果。该文提出的FCM-PNN分类器,在FCM聚类的基础上,以贝叶斯置信度为基础,利用PNN进行概率分类。它结合了FCM聚类和PNN概率分类的优势,同时克服了传统参数模型分类和FCM聚类的局限性。实验结果证实了FCM-PNN分类器具有分类精度高、速度快及揭示细节的能力。  相似文献   

17.
18.
针对DBSCAN聚类算法随着数据量增大,耗时越发非常严重的问题,提出一种基于KD树改进的DBSCAN算法(以下简称KD-DBSCAN).通过KD树对数据集进行划分,构造邻域对象集,提前区分出噪声点和核心点,避免聚类过程中对噪声的邻域集计算以及加快了核心点对象的邻域集查询速度.文中以浮动车GPS数据为实验数据,对比传统D...  相似文献   

19.
为解决入侵检测分类遇到的训练样本数量少、分类准确率低的问题,提出基于模糊支持向量机的多级分类机制。该分类机制训练模糊SVM模型将数据粗分为正常与攻击大类,采用DBSCAN算法产生细分模型进行攻击子集的自动聚类,将有关数据细分得到攻击的具体细类。在机制设计中,优化了隶属度函数的计算、设计了数据标准化与归一化等过程,并训练了高效分类器。实验表明,针对网络入侵检测数据中常见的孤立点干扰、噪声多,并且负样本占比多的网络业务数据集,新算法在保持分类准确率高的前提下,分类过程的计算时间较短。  相似文献   

20.
采样技术与ELM分类算法进行结合可提高少数类样本的分类精度,但现有的大多数结合ELM的采样方法并未考虑到样本的不平衡程度及样本内部的分布情况,采样技术过于单一,导致分类模型的效率低下,少数类样本的识别率不高。针对此问题,提出了一种基于DPC聚类的重采样技术结合ELM的不平衡数据分类算法,首先根据数据集的不平衡程度分2种情况构建一个混合采样模型来平衡数据集;然后在此模型上运用DPC聚类算法分别对多数类样本和少数类样本进行分析处理,解决数据中存在的类内不平衡和噪声问题,使得2类样本相对均衡;最后使用ELM分类算法对得到的数据集进行分类。实验结果表明,与同类型分类算法进行比较,所提算法的2个分类性能指标在实验数据集上都有明显提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号