首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 274 毫秒
1.
针对软件缺陷预测中不平衡数据的分类问题,提出了一种基于过采样和集成学习的类不平衡软件缺陷预测模型XG-AJCC(AJCC-Ram+XGBoost).在预处理阶段,提出了AJCC-Ram(Adaptive Judgment Cure Clustering Random Sampling)多层次过采样方法.该方法基于改进的ADASYN自适应过采样和CURE-SMOTE过采样分别在类边缘和类中心层面生成新样本,通过CLNI方法对样本生成后的数据集进行噪声过滤及清理.在模型构建阶段,与集成算法XGBoost(eXtreme Gradient Boosting)相结合形成最终的不平衡数据缺陷预测模型.本文在AEEEM数据集和NASA数据集中进行了验证,实验结果表明:较于经典的采样方法和采样集成预测模型,在F1指标上AJCC-Ram过采样方法及XG-AJCC采样集成算法模型均能够取得有效的预测结果.  相似文献   

2.
针对传统社交网络异常用户检测算法应用于现实中非平衡数据集时存在召回率低、运行效率低等问题,对社交网络数据集提取用户内容、行为、属性、关系特征,应用梯度增强集成分类器XGBoost算法进行特征选择,建立分类模型,构造非平衡数据集并识别三类垃圾广告发送账号。实验结果表明,该方法与随机森林等传统分类方法相比,对平衡及非平衡数据集进行异常用户检测均实现召回率和◢F▼◣▽1值的有效提升;同时其选取少量特征同样可达到较高检测水平,证明了方法的有效性。  相似文献   

3.
近年来,随着在线信贷的飞速发展,贷款总量不断加大,违约概率不断提升。因此对贷款风险进行深入研究,对在线信贷企业预防互联网金融风险是非常具有现实意义的。针对贷款数据非平衡分布、大量噪声、维度高的问题,本文提出一种基于SMOTE和XGBoost的贷款风险预测方法。通过特征工程对数据进行降维和去噪;针对数据的非平衡问题,使用SMOTE算法进行过采样,平衡正负样本数目;基于以上工作,构建XGBoost分类模型,与一些传统分类算法进行对比,然后对比在不同正负样本比例时,预测结果的有效性。实验表明,相比于传统分类模型,XGBoost算法在贷款风险预测模型中具有更好的效果,通过SMOTE算法增加少数类样本的比例可以提高预测结果的有效性。  相似文献   

4.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题.  相似文献   

5.
针对人体姿态监测传感器所返回数据的不平衡性特点影响分类性能的问题,提出一种基于不平衡数据分类的人体姿态分类算法。根据姿态监测传感器所返回数据的特点,基于K-means的思想,提出一种噪声样本识别算法。针对样本集的不平衡性问题,本文通过引入经典的过采样算法SMOTE,对少数类样本集进行操作。利用Adaboost学习框架的优势,对平衡后的样本集进行训练,获得最终分类模型。选择G-mean、F-value及AUC为分类模型的评价指标,通过在ARe Mr人体姿态数据集上与三种经典的不平衡分类模型CUS-Boost、SMOTEBoost以及RUS-Boost算法相对比。验证了本文所提出的基于不平衡数据分类的人体姿态分类算法有效性、精准性。  相似文献   

6.
为提高分类算法在信贷风险领域不平衡数据的预测性能,提出一种基于高斯混合模型(Gaussian mixture model,GMM)的欠采样算法,将其应用在信贷不平衡数据领域中。采用高斯混合模型对多数类样本进行聚类欠采样(under-sampling),消除样本间的不平衡问题。实验比较该算法与传统的欠采样方法,进行该算法的抗噪鲁棒性分析,实验结果表明,该算法能够有效提升分类器的性能,其对信贷数据集具有较强的鲁棒性。  相似文献   

7.
传统的过采样方法是解决非平衡数据分类问题的有效方法之一。基于SMOTE的过采样方法在数据集出现类别重叠(class-overlapping)和小析取项(small-disjuncts)问题时将降低采样的效果,针对该问题提出了一种基于样本局部密度的过采样算法MOLAD。在此基础上,为了解决非平衡数据的分类问题,提出了一种在采样阶段将MOLAD算法和基于Bagging的集成学习结合的算法LADBMOTE。LADBMOTE首先根据MOLAD计算每个少数类样本的K近邻,然后选择所有的K近邻进行采样,生成K个平衡数据集,最后利用基于Bagging的集成学习方法将K个平衡数据集训练得到的分类器集成。在KEEL公开的20个非平衡数据集上,将提出的LADBMOTE算法与当前流行的7个处理非平衡数据的算法对比,实验结果表明LADBMOTE在不同的分类器上的分类性能更好,鲁棒性更强。  相似文献   

8.
异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。  相似文献   

9.
为解决在数据不平衡条件下使用XGBoost框架处理二分类问题时算法对少数类样本的识别能力下降的问题,提出了基于代价敏感激活函数的XGBoost算法(Cost-sensitive Activation Function XGBoost,CSAF-XGBoost).在XGBoost框架构建决策树时,数据不平衡会影响分裂点的...  相似文献   

10.
随着金融机构信用卡业务的快速发展,信用卡欺诈行为成为金融机构面临的严峻问题。针对金融机构信用卡数据分布不均衡问题,本文采用过采样、降采样、SMOTE+ENN、SMOTE+Tomeklin、改进的SMOTE+Tomeklin和改进的SMOTE+ENN混合采样这6种不同采样方法对不平衡数据进行平衡处理,然后将平衡数据集输入到多种分类算法模型中进行实验比对,最后提出一种基于改进的SMOTE+ENN混合采样和XGBoost算法的信用卡欺诈行为检测模型。通过5种评价指标验证该检测方法不仅提高了信用卡欺诈行为不平衡数据的区分度,同时提高了信用卡欺诈行为检测的准确性和可行性。  相似文献   

11.
基于多层集成学习的岩性识别方法   总被引:1,自引:0,他引:1  
岩性识别是油藏地质解释中的关键问题和难点问题,人工智能特别是机器学习技术的发展和应用为岩性识别问题解决提供了新的技术途径。本文利用支持向量机(Support vector machine,SVM)、多粒度级联森林(Multi-grained cascade forest,GCForest)、随机森林(Random forest,RF)以及XGBoost(eXtreme gradient boosting)等机器学习模型建立一个异构多层集成学习模型,该集成学习模型克服了单一模型对数据集要求高、泛化能力差以及识别精度低等缺点。本文分别利用集成模型和单一模型进行了岩性识别实验。实验结果表明,本文集成模型在岩性分类测试集上平均精度达到96.66%,高于SVM的平均精度75.53%、GCForest的平均精度96.21%、随机森林的平均精度95.06%和XGBoost的平均精度95.77%。该集成模型能有效地用于油藏地质分析中的岩性识别和分类任务,适应性强,识别精度高。  相似文献   

12.
随着移动设备的快速发展和应用激增,其产生的移动流量也迅猛增加且众多操作系统皆存在着巨大的安全风险,能够从巨大的网络流量中有效地区分出来自移动端的流量并识别其操作系统对后续的移动安全的分析有着重大的安全意义。基于传统特征的流量分析技术存在着因过分依赖特征选择而导致无法稳定有效地分类移动流量的问题,提出了一种基于图像特征的移动流量分类方法。该方法将流量样本进行可视化转换成灰度图像,从而提取其图像的GLCM特征进行分类。实验结果表明,该方法较传统方法精确率最高提升22.4%,有效地解决了传统方法的特征选择以及没有良好的扩展性等问题。此外,研究了流量研究粒度(flow到stream)、分类粒度(二分类到多分类)和数据集的均衡性(均衡与不均衡)对移动流量检测方法的影响,结果表明分类粒度对分类准确率的影响影响极小,准确率最大降低2.6%。该实验结果进一步说明了提出方法的扩展性,能够有效地用于后续的移动流量的安全研究。  相似文献   

13.
恶意加密流量识别公开数据集中存在的类不平衡问题,严重影响着恶意流量预测的性能。本文提出使用深度生成对抗网络DGAN中的生成器和鉴别器,模拟真实数据集生成并扩展小样本数据,形成平衡数据集。此外,针对传统机器学习方法依赖人工特征提取导致分类准确度下降等问题,提出一种基于双向门控循环单元BiGRU与注意力机制相融合的恶意流量识别模型,由深度学习算法自动获取数据集不同时序的重要特征向量,进行恶意流量得识别。实验表明,与常用恶意流量识别算法相比,该模型在精度、召回率、F1等指标上都有较好的提升,能有效实现恶意加密流量的识别。  相似文献   

14.
如何有效评价训练数据集的可用性,一直是困扰智能分类系统应用的难点问题。针对机器学习领域的数据分类问题,提出了一种基于区间分析和信息粒化的数据集分类可用性的评估方法,用于评价数据集的可分程度。该方法将待评估的数据集定义为分类信息系统,提出了分类置信区间的概念,通过区间分析进行信息粒化。在此信息粒化策略下,定义分类可用性的数学模型,并进一步给出单个属性以及整体数据集的分类可用性的计算方法。选择18个UCI标准数据集作为评估对象,给出了部分数据集分类可用性的评估结果,并且选取3种分类器对所选数据集进行分类实验,最终通过对上述实验结果的分析证明了该评估方法的有效性和可行性。  相似文献   

15.
针对传统窃电行为的识别方法难以有效解决窃电技术提升带来的高频窃电问题,研究了电力企业已有数据现状,提出半监督分类模型识别窃电用户。通过深入分析业务并设计特征指标,围绕广东电网高压用户的海量用电行为数据,开展半监督三训方法的窃电用户识别研究与应用。研究结果发现,半监督分类模型预测提升度超过1.5,对比最优的有监督学习模型,效率提升7.3%,有效提升窃电用户识别效率为电网企业的反窃电工作提供有力的支撑。  相似文献   

16.
近年来,集成学习(Ensemble Learning,EL)分类方法成为土地覆被分类的研究热点,尤其是Boosting集成分类方法具有分类精度高、泛化能力强,在土地覆被分类中得到了显著的应用。但是,Boosting集成分类方法对噪声很敏感,如果训练样本含有噪声时,Boosting算法可能会失效,这是该方法的局限性。为了解决Boosting集成方法在土地覆被分类中存在的问题,有效克服噪声的影响,减少分类结果中的“椒盐”现象和提高分类精度,提出了基于双树复小波分解的Boosting集成学习分类方法。该方法对影像的光谱波段进行一层双树复小波分解,降低图像的噪声,将分解后的各波段作为Boosting集成学习的输入,得到最终的分类结果。实验先后比较了GBDT、XGBoost、LightGBM 3种Boosting集成学习算法在SPOT 6和Sentinel-2A影像上的分类效果。结果表明:①在SPOT 6影像上,3种Boosting集成算法总体分类精度均高于90%;DTCWT-LightGBM分类总体精度最高,达到94.73%,Kappa系数为0.93,比LightGBM总体精度提高了1.1%,Kappa系数提高了0.01;LightGBM分类总体精度比XGBoost分类总体精度提高了1.99%,Kappa系数提高了0.03,比GBDT分类总体精度提高了2.9%,Kappa系数提高了0.04;②在Sentinel-2A影像上,DTCWT-LightGBM分类总体精度最高,达到93.25%,Kappa系数为0.91,比LightGBM分类总体精度提高了1.53%,Kappa系数提高了0.01;LightGBM分类总体精度比XGBoost分类总体精度提高了1.14%,Kappa系数提高了0.02,比GBDT分类总体精度提高了2.53%,Kappa系数提高了0.03;③基于双树复小波分解的Boosting集成学习分类方法,降低了影像的噪音,减少了分类结果中存在的“椒盐”现象,区域一致性更强,提高了分类精度。  相似文献   

17.
针对药品销售行业传统低效营销方式的缺点,将药店睡眠会员是否容易被唤醒的问题抽象为二分类问题,提出了一种面向药店平台的预测睡眠会员唤醒算法,来解决现有睡眠会员唤醒模型应用于药店睡眠会员用户唤醒的局限性且预测用户到店消费精度不高的问题。从会员的行为、属性、动态三个维度提出多种传统营销特征属性,在多视角的基础上,设计出药品营销的独有特征属性构建出特征集合,将特征集合代入到支持向量机SVM以及XGBoost算法模型并使用Soft Voting方法进行模型融合。通过实验表明,相对于使用传统特征的单一模型,使用集成学习提取的特征集合所训练的融合模型的precision高出4%左右,recall高出5%左右,AUC值提升了15%左右,由此可知,基于特征选择与模型融合的睡眠会员唤醒算法具有更好的唤醒效果。  相似文献   

18.
大多数非均衡数据集的研究集中于纯重构数据集或者纯代价敏感学习,本文针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,提出了一种以最小误分类代价为目标的基于混合重取样的代价敏感学习算法。该算法将两种不同类型解决方案有机地融合在一起,先用样本类空间重构的方法使原始数据集的两类数据达到基本均衡,然后再引入代价敏感学习算法进行分类,能提高少数类分类精度,同时有效降低总的误分类代价。实验结果验证了该算法在处理非均衡类问题时比传统算法要优越。  相似文献   

19.
基于卡尔曼滤波SVM图像鉴别方法研究   总被引:1,自引:0,他引:1  
周立波  刘合安 《计算机仿真》2012,29(3):316-318,322
研究如何区分自然图像和计算机图形判别图像问题。由于人眼难以判别真伪图像,针对传统的图像鉴别方法由于参数的设置而造成识别准确率低,从而无法准确的区分自然图像和计算机图形。提出了一种卡尔曼滤波和支持向量机分类算法相结合的高性能图像真伪鉴别方法。算法首先采用卡尔曼滤波器提取图像的各个级别的分量,求解出各级分量和判别的误差值并作为特征数据,然后采用支持向量机分类算法对特征数据进行训练判别。仿真结果表明,提出的算法可以有效的判别图像的真伪,可以有效的识别出原始自然图像和合成图像,识别率高达99%以上,同时算法的稳定性较高,具有一定的实际应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号