首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对现实中交通正常运行状态远多于事件状态这一事实,提出了面向不平衡数据集的交通事件检测算法.运用SMOTE (Synthetic Minority Over-sampling Technique)算法重构训练集,使之平衡,以支持向量机(Support Vector Machine,SVM)作为分类器,对交通事件进行检测.使用美国I-880高速公路获取的交通数据进行算法的训练和性能测试.结果表明,基于SMOTE-SVM的交通事件自动检测(Automatic Incident Detection,AID)算法可以提高检测率,减少平均检测时间.  相似文献   

2.
基于数据驱动的电容式电压互感器(Capacitor Voltage Transformer,CVT)误差状态预测技术面临着数据不平衡,小样本数据不足的困境。针对该问题,整合DBSCAN聚类算法和基于径向的过采样算法(Radial-Based Oversampling,RBO),并在此基础上提出了一种引入权重分布RBO的过采样算法(Weight Distribution and Radial-Based Oversampling,WD-RBO)。该算法首先使用DBSCAN对CVT超差样本聚类,过滤数据集中的噪声;其次,通过簇密度分布函数和质心势能,计算超差样本各个簇的采样权重,确定每个簇中合成新样本的数量;最后,使用改进的RBO过采样算法合成新超差样本。实验结果表明,与SMOTE和RBO等过采样算法相比,WD-RBO使得预测模型的准确率和AUC值分别提高到0.967和0.996,且运行时长满足应用要求。WD-RBO可以有效解决类间不平衡和类内不平衡,提高模型对CVT误差状态的预测性能。  相似文献   

3.
为提高不平衡数据集中少数类的分类性能,本研究提出一种改进的AdaBoost算法(UnAdaBoost算法)来解决数据不平衡问题。该方法首先改进基分类器,使其在损失一定程度的多数类分类性能的情况下提高少数类的分类性能,而多数类分类性能的损失可通过后面的多个分类器集成弥补回来,这样既提高了少数类的分类性能又不会损失多数类的分类精度。本研究把改进的朴素贝叶斯方法作为基分类器,用改进投票权值的AdaBoost算法对基分类器进行融合。实验结果表明,与传统的Adaboost算法相比,该方法可以有效地提高不平衡数据的分类性能。  相似文献   

4.
针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法, RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上, RSBoost算法优于AdaBoost算法。  相似文献   

5.
针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法, RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上, RSBoost算法优于AdaBoost算法。  相似文献   

6.
7.
针对不平衡数据集分类,现有的过采样算法更多地解决了类间不平衡问题,而未考虑少数类的类内不平衡,未筛选进行过采样的样本及未去除噪音,且合成过程中存在样本重叠及样本分布"边缘化"等问题,提出一种基于层次聚类和改进SMOTE的过采样算法AGNES-SMOTE.该算法对多数类和少数类样本分别进行层次聚类,并根据获得的多数类簇划...  相似文献   

8.
提出了一种基于HSV(Hue-Saturation-Value)空间的Haar小波特征和多SVM(Support Vector Machine)分类器的摩托车识别算法,以解决因样本比例不平衡所导致的对摩托车识别性能差的问题.首先在HSV颜色空间基于无符号小波系数构造特征提取算法,然后对训练数据应用所提出的样本重构方法得到若干训练子集,基于各个训练子集训练相应的SVM分类器,识别时将各SVM的输出结果进行融合即可得到最终识别结果.实验结果表明:该方法识别性能高,鲁棒性好,对于受数据的不平衡性严重影响的对象识别具有较好的应用和推广价值.  相似文献   

9.
目前CT结肠镜的息肉检测分类器面临着数据集不平衡问题,数据集中的正样本(息肉)的数量远远小于负样本.针对这个问题,息肉检测分类器采用SMOTEBoost,结合SMOTE(Synthetic Minority Over-Sampling Technique)和Boosting:在数据层面,采用过采样技术SMOTE合成少数类样本,减轻数据集中两类样本的不平衡程度;在算法层面,采用Boosting方法提高弱分类器的性能,两者结合起来,既改善对少数类样本的预测能力,又保证了对整个数据集的分类精度.为了满足息肉检测对算法实时性的需求,采用MRMR(Minimum Redundancy Maximum Relevance)方法挑选最大相关、最小冗余的简单特征组成级联第1层强分类器,拒绝大多数负样本,极大地提高了分类器的处理速度.实验结果表明:设计的分类器检测直径大于5 mm息肉的敏感度达到90%,每个数据体6个假阳.  相似文献   

10.
在处理非平衡大数据集中,提出一种基于优化SMOTE方案的分类算法研究,在临近样本插值分类中引入分簇聚类的理念,具体分为安全样本、危险样本和干扰样本,并重点对安全样本做插值处理.对插值后的数据样本做区间化处理,能够改善插值后数据过于集中的状况,提高样本分布的均匀度.算法性能验证结果表明,分类算法的规模成长性更好,具有更强...  相似文献   

11.
在过抽样技术研究中,为了合成较有意义的新样本,提出一种基于聚类的过抽样算法ClusteredSMOTE-Boost。过滤小类的噪声样本,将剩余的每个小类样本作为目标样本参与合成新样本。对整个训练集聚类,根据聚类后目标样本所在簇的特点确定其权重及合成个数。将所有目标样本聚类,在目标样本所在的簇内选取K个近邻,并从中任选一个与目标样本合成新样本,使新样本与目标样本簇内的样本尽量相似,并减少由于添加样本而造成的边界复杂度。试验结果表明,ClusteredSMOTE-Boost算法在各个度量上均明显优于SMOTE-Boost、ADASYN-Boost和BorderlineSMOTE-Boost三种经典算法。  相似文献   

12.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于近邻密度改进的SVM(NDSVM)不平衡数据集分类算法.该算法先计算多数类内每个样本的近邻密度值,然后依据该密度值选出多数类中位于边界区域、靠近边界区域的与少数类数目相等的样本分别与少数类完成SVM初始分类,最后用所得的支持向量机和剩余的多数类样本完成初始分类器迭代优化.人工数据集和UCI数据集的实验结果表明,与WSVM、ALSMOTE -SVM和基本SVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能.  相似文献   

13.
针对架空输电线路弧垂在计算过程中易受测量数据(温度、风速、档距等参数)影响的问题,提出了基于数据预处理的PSO-BP神经网络弧垂预测模型.对收集数据中部分样本缺失的情况,使用合成少数过采样技术(SMOTE)对不平衡样本进行合成;构建PSO-BP神经网络用于弧垂预测,使用不同工况条件的数据训练网络,实现弧垂预测的目的,并将网络的性能与传统的BP神经网络性能进行对比.实验结果表明,与传统BP神经网络模型相比,本文提出的模型进行弧垂值预测后所得的误差绝对值显著降低.本文提出的模型可以加快训练速度、提高预测精度.  相似文献   

14.
开关电源的输入经整流滤波后电流不再是正弦波,而是畸变为较大幅度的一个尖峰,本文采用等效采样的方法对电流进行采样,用过采样对电压进行采样来提高其分辨率,最后求得输入功率,这样,可以提高输入功率测量的精度.  相似文献   

15.
针对密度聚类算法无法应用于大规模数据集的问题,提出一种基于划分网格的密度聚类算法(GDSCAN)。将大规模二维点阵图划分为若干网格,网格最短边不小于给定邻域半径,目标点所在网格中任意点的邻域范围不会超过与该网格直接连接的网格,只需在保留网格内寻找邻域点,从而减少计算量;聚类从任意无类别核心点开始,将该点的所有密度可达组成一个簇,以此类推直至所有核心点都有类别;采用提出的GDSCAN算法对不同数量级的二维路网节点进行聚类验证。结果表明,GDSCAN算法可有效解决大规模二维点阵数据集中密度聚类的效率问题,数据量越大,效果越明显,且时间复杂度明显降低。  相似文献   

16.
不平衡数据分类方法综述   总被引:9,自引:0,他引:9  
分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降,因而研究用于处理不平衡数据集的分类方法显得相当重要.为便于读者更清晰地了解数据不平衡分类问题的研究现状和未来研究的动向,本文对相关的研究进行了综述和展望.  相似文献   

17.
基于过采样的Hammerstein模型最小方根辨识算法   总被引:1,自引:0,他引:1  
针对Hammerstein模型提出了基于过采样原理的新的最小方根辨识算法。通过估计线性部分的中间输入,可以辨识出任意连续函数的未知非线性元件和线性部分传输函数。即使在非线性元件传递函数存在近似误差的情况下,线性部分的估计值也具有一致性。  相似文献   

18.
针对阵列信号自适应处理器收敛性能会由于目标类型干扰影响显著恶化的问题,提出一种采样数据选择算法,可以有效抑制干扰信号对自适应滤波器性能的影响。通过对多级维纳滤波器采用数据选择算法后,显著提高了其抗干扰能力和在非平稳、非高斯环境下的快收敛性能。最后通过实验仿真验证了此算法的有效性。  相似文献   

19.
一种面向单个正例的Fisher线性判别分类方法   总被引:1,自引:1,他引:1  
提出了一种解决不平衡数据集中少数类只有一个样本的方法,找出单个正例在负类中的k个近邻,按照一定规则依次在单个正例和它的各个近邻的连线上产生合成样本,并把这些合成样本添加到原始的正类中,用加权F isher线性分类方法对新的数据集进行训练.实验结果表明该方法可有效地提高少数类的分类性能.  相似文献   

20.
为了预测硕士研究生的就业能力,构建一种基于CatBoost算法的硕士研究生就业能力模型.首先,选取关于硕士研究生在校期间的图书阅读量、专利、技能证书等31项影响因素数据,采用SMOTE过采样方法处理数据集的不平衡问题.其次,通过机器学习方法挖掘学生个人培养数据与就业之间的关系,利用CatBoost算法构建硕士研究生就业...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号