首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 88 毫秒
1.
基于集成的非均衡数据分类主动学习算法   总被引:1,自引:0,他引:1  
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练.预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL( Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC( Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足.实验表明,提出的算法对于非均衡数据具有更高的分类精度.  相似文献   

2.
针对传统算法在非均衡交互式网络电视(Internet protocol television,IPTV)数据集下用户报障预测效果不理想的问题,本文将影响网络服务质量(Quality of service,QoS)的传统网络参数和主观反映用户体验质量(Quality of experience,QoE)的MOS评分结合来预测用户是否报障。本文在已有的ODR-BSMOTE-SVM 算法基础上,针对过采样算法产生噪声以及核参数没有进行优化的缺陷,提出了一种改进型算法。该改进算法首先采用欠采样、过采样算法及数据清洗算法对原始非均衡数据进行处理,然后通过自适应变核参数寻找近似最优值,最终实现提升分类效果。实验结果表明,较传统标准支持向量机(Support vector machine, SVM)算法和ODR-BSMOTE-SVM 算法,本文算法能获得更佳的预测效果。  相似文献   

3.
针对目前机械结构优化中建立预测模型代价较高的问题,提出了一种基于数据学习的结构静力学性能预测方法.以悬臂梁为研究对象,建立有限元仿真模型以获取位移场数据,构建边界条件-位移场代理模型,预测结果表明位移场分布趋势与实际一致,载荷为1000 N和1600 N时最大位移相对误差分别为-0.02%和-0.47%.文中讨论了均布...  相似文献   

4.
目前软件缺陷预测的研究主要是从历史数据获取来源和预测方法这两方面入手。然而,获取到的软件历史缺陷数据往往是非均衡的,传统的预测方法会给缺陷数据带来极大的误分率。针对这一问题,提出使用基于统计抽样的非均衡分类方法来预测软件缺陷。通过经验性地对比分析12种已有抽样与分类算法组合的预测性能优劣,得到Spread Subsampling和随机森林结合的方法(SP-RF)综合表现最好,但具有较高伪正率(FPR)。为了进一步提高预测性能,针对原始SP-RF方法会对原始数据带来较大的噪音及信息缺失等不足,提出一种基于SP-RF的内置均衡化抽样的自适应随机森林改进算法(IBSBA-RF)。实验表明,IBSBA-RF算法可以显著降低预测结果的FPR,并且进一步提高了预测结果的AUC和Balance值。  相似文献   

5.
针对支持向量机对噪声的敏感,以及当两类训练样本数量差别悬殊时,造成分类结果倾向较大类等弱点,通过理论分析,合理地设计隶属度函数,提出了一种新隶属度函数的模糊支持向量机。该方法既可补偿倾向性造成的不利影响,又可增加抗噪声能力,提高预测分类精度。最后通过对含噪声的非均衡数据实验表明,该方法比传统支持向量机和简单去噪模糊支持向量机都有着较高的分类能力。  相似文献   

6.
传统的分类算法大都默认所有类别的分类代价一致,导致样本数据非均衡时产生分类性能急剧下降的问题.对于非均衡数据分类问题,结合神经网络与降噪自编码器,提出一种改进的神经网络实现非均衡数据分类算法,在神经网络模型输入层与隐层之间加入一层特征受损层,致使部分冗余特征值丢失,降低数据集的不平衡度,训练模型得到最优参数后进行特征分类得到结果.选取UCI标准数据集的3组非均衡数据集进行实验,结果表明采用该算法对小数据集的分类精度有明显改善,但是数据集较大时,分类效果低于某些分类器.该算法的整体分类效果要优于其他分类器.  相似文献   

7.
简艺恒  余啸 《计算机应用》2018,38(9):2637-2643
预测软件缺陷的数目有助于软件测试人员更多地关注缺陷数量多的模块,从而合理地分配有限的测试资源。针对软件缺陷数据集不平衡的问题,提出了一种基于数据过采样和集成学习的软件缺陷数目预测方法——SMOTENDEL。首先,对原始软件缺陷数据集进行n次过采样,得到n个平衡的数据集;然后基于这n个平衡的数据集利用回归算法训练出n个个体软件缺陷数目预测模型;最后对这n个个体模型进行结合得到一个组合软件缺陷数目预测模型,利用该组合预测模型对新的软件模块的缺陷数目进行预测。实验结果表明SMOTENDEL相比原始的预测方法在性能上有较大提升,当分别利用决策树回归(DTR)、贝叶斯岭回归(BRR)和线性回归(LR)作为个体预测模型时,提升率分别为7.68%、3.31%和3.38%。  相似文献   

8.
基于杂度增益与层次聚类的数据匿名方法   总被引:2,自引:0,他引:2  
数据匿名是发布数据时对隐私信息进行保护的重要手段之一.对数据匿名的基本概念和应用模型进行了介绍,探讨了数据匿名结果应该满足的要求.为了抵制背景知识攻击,提出了一种基于杂度增益与层次聚类的数据匿名方法,该方法以杂度来度量敏感属性随机性,并以概化过程中信息损失最小、杂度增益最大的条件约束来控制聚类的合并过程,可以使数据匿名处理后的数据集在满足k-匿名模型和l-多样模型的同时,使数据概化的信息损失最小且敏感属性的取值均匀化.在实验部分,提出了一种对数据匿名结果进行评估的方法,该方法将匿名结果和原始数据进行对比,并从平均信息损失和平均杂度2个方面来评估数据匿名的质量.实验结果验证了以上方法的有效性.  相似文献   

9.
10.
刘晓华  刘静 《控制与决策》2006,21(4):470-472
讨论了一种非均衡蛛网模型,应用预测控制理论,使系统稳定运行,保证供求差平稳跟踪预先给定的目标.定义了供求变化模式,研究了该模式中参数的选择对系统动态特性和鲁棒性的影响.仿真结果表明了该算法的优异性能,  相似文献   

11.
This paper describes the result of our study on neural learning to solve the classification problems in which data is unbalanced and noisy. We conducted the study on three different neural network architectures, multi-layered Back Propagation, Radial Basis Function, and Fuzzy ARTMAP using three different training methods, duplicating minority class examples, Snowball technique and multidimensional Gaussian modeling of data noise. Three major issues are addressed: neural learning from unbalanced data examples, neural learning from noisy data, and making intentional biased decisions. We argue that by properly generated extra training data examples around the noise densities, we can train a neural network that has a stronger capability of generalization and better control of the classification error of the trained neural network. In particular, we focus on problems that require a neural network to make favorable classification to a particular class such as classifying normal(pass)/abnormal(fail) vehicles in an assembly plant. In addition, we present three methods that quantitatively measure the noise level of a given data set. All experiments were conducted using data examples downloaded directly from test sites of an automobile assembly plant. The experimental results showed that the proposed multidimensional Gaussian noise modeling algorithm was very effective in generating extra data examples that can be used to train a neural network to make favorable decisions for the minority class and to have increased generalization capability.  相似文献   

12.
近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流.但是当不同类别的训练数据不均衡时,训练得到的神经网络模型会由多数类所主导,分类结果往往倾向多数类,极大影响了分类效果.针对这种情况,本文在卷积神经网络训练过程中,损失函数引入类别标签权重,强化少数类对模型参数的影响.在复旦大学文本分类数据集上进行测试,实验表明本文提出的方法相比于基线系统宏平均F1值提高了4. 49%,较好地解决数据不平衡分类问题.  相似文献   

13.
为解决不平衡数据内在固有性引发的分类结果受强势类影响较大的问题,研究基于KL距离的不平衡数据渐进学习算法,精准地辨识出不平衡数据中的弱势类样本,提高算法分类性能.在深入分析KL距离和欠抽样法的基础上,使用欠抽样法平衡化处理不平衡数据集,采用基于KL距离的不平衡数据半监督学习算法,以渐进模式,通过寻找可靠正例、可靠反例,实现处理后数据集的最终分类.实验结果表明,上述算法的G-mean值始终较高,可极大地提高算法分类性能;所提算法使用后的F-measure值在任何抽样比例下都高于使用前的F-measure值,且在抽样比例较大时,F-measure值呈缓慢上升趋势,能很好地分类出不平衡数据集中的弱势类样本.  相似文献   

14.
中国在扶贫工作取得决定性成就的同时,仍有一些脱贫人口存在返贫风险。本文基于不平衡数据集,利用SMOTE模型对返贫类别样本进行过采样处理,处理后的返贫与未返贫样本数据比例为3:1;接着建立基于Stacking集成学习的返贫预测模型,利用网格搜索对各个模型超参数进行寻优,结合10折交叉验证提高模型的泛化能力。本文使用4种不同的融合模型对脱贫户是否返贫进行预测。实验结果表明,与单一模型相比,模型融合后的分类效果要优于单独的分类器,其中最优融合模型的Acc为0.962,F1-score为0.946。  相似文献   

15.
由于连续帧之间数据关联的不确定性和所提取外观特征的鉴别力不足,多目标跟踪容易受目标外观变化、运动状态变化、相似目标以及目标消失再出现等干扰因素的影响,出现轨迹ID变换的问题,从而限制基于轨迹分析的行为检测、姿态识别等研究的性能.为了提高数据关联的可靠性从而减少轨迹ID变换,提出了一种基于轨迹置信度的分层数据关联方式.同...  相似文献   

16.
对医疗数据库中存在的离散数据进行检测时,由于缺少数据过滤等过程而导致检测执行时间较长、检测效率低、离散点检测率低等问题,为此提出基于层次化深度学习的医疗数据库离散数据检测算法.首先,采用动态网格划分法划分空间中的稀疏区域和稠密区域,降低数据检测的规模,缩短检测执行时间;然后,通过层次化深度学习过程融合专家知识和数据的属性取值分布信息,实现医疗数据库中离散数据的检测.实验结果表明,该算法可以在较短的时间内准确完成医疗数据库中离散数据的检测,且相较于传统算法来说更具有应用优势.  相似文献   

17.
《软件》2019,(4):7-10
K-means型算法在处理类不平衡数据时趋向于形成大小相同的簇,是"均匀效应"。针对这一问题诸多研究者提出了不同的聚类算法,这些方法针对簇样本数量不平衡特性,存在精度和效率问题。本文以卡方距离为基础提出了一种类平衡数据的聚类算法,利用均值消除受簇均值水平影响的特性度量样本相似性,解决类不平衡数据中"均匀效应"问题,给出了聚类目标函数,形成一种EM型聚类优化算法。在UCI实际数据集上进行了实验,结果表明本文所提出的算法提高了类不平衡数据的聚类精度,降低了"均匀效应"对聚类结果的影响。  相似文献   

18.
针对不平衡数据集下,传统的模糊支持向量机(Fussy support vector machine,FSVM)算法分类效果不够明显,引入的参数未做优化等缺点,本文提出一种基于粒子群算法(Particle swarm optimization,PSO)优化的改进模糊支持向量机算法,即PSO-DEC-IFSVM算法。该算法首先综合考虑训练样本到其类中心的间距、样本周围的紧密度以及样本的信息量设计模糊隶属度函数,然后将此改进的模糊支持向量机与不同惩罚因子(Different error costs, DEC)算法相结合得到DEC-IFSVM算法,最后利用粒子群算法对DEC-IFSVM算法引入的参数进行优化。实验证明:对于UCI公共数据集中的Pima等6种不平衡数据集,相比已有的FSVM及其改进算法,PSO-DEC-IFSVM算法具有更好的正负类分类效果以及更强的鲁棒性。  相似文献   

19.
针对不平衡数据集分类结果偏向多数类的问题,重采样技术是解决此问题的有效方法之一。而传统过采样算法易合成无效样本,欠采样方法易剔除重要样本信息。基于此提出一种基于SVM的不平衡数据过采样方法SVMOM(Oversampling Method Based on SVM)。SVMOM通过迭代合成样本。在迭代过程中,通过SVM得到分类超平面;根据每个少数类样本到分类超平面的距离赋予样本距离权重;同时考虑少数类样本的类内平衡,根据样本的分布计算样本的密度,赋予样本密度权重;依据样本的距离权重和密度权重计算每个少数类样本的选择权重,根据样本的选择权重选择样本运用SMOTE合成新样本,达到平衡数据集的目的。实验结果表明,提出的算法在一定程度上解决了分类结果偏向多数类的问题,验证了算法的有效性。  相似文献   

20.
过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector machine),旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。该算法首先利用SVM算法得到分类超平面。然后迭代进行混合采样,主要包括:(1)删除离分类超平面较远的一些多数类样本;(2)对靠近真实类边界的少数类样本用SMOTE(synthetic minority oversampling technique)过采样,使分类超平面向着真实类边界方向偏移。实验结果表明相比其他相关算法,该算法的F-value值和G-mean值均有较大提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号