首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
目前基于随机森林算法的特征选择方法多以优化总体分类精度为目标。然而,信用风险评价过程中错分代价不对等的不平衡数据广泛存在。此时,用精度作分类性能评价指标不合适。采用ROC曲线下面积AUC值作二分类算法的分类性能指标,构造一个基于随机森林算法的特征选择算法AUCRF,并对UCI机器学习库中的澳大利亚信用数据进行实证分析。结果表明,基于AUCRF算法的模型能以较小的特征子集获得较高的分类性能,AUC=0.934 6。因此,AUCRF算法可用于错分代价不对等的信用风险特征选择。  相似文献   

2.
郝晓丽  张靖 《计算机科学》2014,41(6):260-263
针对传统径向基函数神经网络构造的网络分类器通常存在分类精度不高、训练时间长等缺陷,首先提出了一种改进的自适应聚类算法,用于确定分类器的隐含层节点。该算法通过筛选基于轮廓系数的优秀样本群,来寻找最佳初始聚类中心,避免了传统K-means算法易受初始聚类中心点影响,导致最终的分类效果严重偏离全局等情况的发生。其次,将该改进算法用于构造径向基函数神经网络分类器和快速有效地确定隐含层节点径向基函数中心及函数的宽度。最后,通过大量UCI数据集的实验和仿真,验证了改进算法在聚类时间、聚类轮廓系数及聚类正确率等方面具有优越性。同时,大量的仿真实验也证明了基于改进算法构造的RBF分类器具有更高的分类精度。  相似文献   

3.
Bagging组合的不平衡数据分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
秦姣龙  王蔚 《计算机工程》2011,37(14):178-179
提出一种基于Bagging组合的不平衡数据分类方法CombineBagging,采用少数类过抽样算法SMOTE进行数据预处理,在此基础上利用C-SVM、径向基函数神经网络、Random Forests 3种不同的基分类器学习算法,分别对采样后的数据样本进行Bagging集成学习,通过投票规则集成学习结果。实验结果表明,该方法能够提高少数类的分类准确率,有效处理不平衡数据分类问题。  相似文献   

4.
罗庚合 《计算机应用》2013,33(7):1942-1945
针对极限学习机(ELM)算法随机选择输入层权值的问题,借鉴第2类型可拓神经网络(ENN-2)聚类的思想,提出了一种基于可拓聚类的ELM(EC-ELM)神经网络。该神经网络是以隐含层神经元的径向基中心向量作为输入层权值,采用可拓聚类算法动态调整隐含层节点数目和径向基中心,并根据所确定的输入层权值,利用Moore-Penrose广义逆快速完成输出层权值的求解。同时,对标准的Friedman#1回归数据集和Wine分类数据集进行测试,结果表明,EC-ELM提供了一种简便的神经网络结构和参数学习方法,并且比基于可拓理论的径向基函数(ERBF)、ELM神经网络具有更高的建模精度和更快的学习速度,为复杂过程的建模提供了新思路。  相似文献   

5.
改进的RBFNN在运动员竞技状态预测中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种改进的径向基函数(RBF)神经网络,该神经网络以模糊系统模型为基础。首先利用减法聚类算法确定径向基函数的中心数,然后通过模糊C均值聚类算法优化基函数中心与宽度,最后依据样本数据的聚类结果设计RBF神经网络并进行训练。将该神经网络应用于网球队运动员的竞技状态的预测。仿真结果表明:该算法先进有效、具有较高的精度,用其建立的模型具有较强的实用性。  相似文献   

6.
基于广义径向基函数的神经网络分类预测   总被引:1,自引:0,他引:1  
径向基函数网络是神经网络中一种广泛使用的设计方法.它把神经网络的设计看作是一个高维空间的曲线逼近问题.相对于其他的神经网络方法.径向基函数神经网络除了具有一般神经网络的优点,如多维非线性映射能力、泛化能力、并行信息处理能力等,还具有很强的聚类分析能力,学习算法简单方便等优点.针对一个实际分类问题,利用广义径向基函数网络的思想训练一个网络并实现对测试数据集的分类预测.本算法采用k-均值聚类算法训练广义径向基函数网络中心,使用奇异值分解计算输出层权值.对该网络的实现细节及待改进之处进行简要分析.实验表明广义径向基函数神经网络的思想具有很强的聚类分析能力,学习算法简单方便等优点.  相似文献   

7.
《软件》2016,(7):75-79
不平衡数据集的分类问题是现今机器学习的一个热点问题。传统分类学习器以提高分类精度为准则导致对少数类识别准确率下降。本文首先综合描述了不平衡数据集分类问题的研究难点和研究进展,论述了对分类算法的评价指标,进而提出一种新的基于二次随机森林的不平衡数据分类算法。首先,用随机森林算法对训练样本学习找到模糊边界,将误判的多数类样本去除,改变原训练样本数据集结构,形成新的训练样本。然后再次使用随机森林对新训练样本数据进行训练。通过对UCI数据集进行实验分析表明新算法在处理不平衡数据集上在少数类的召回率和F值上有提高。  相似文献   

8.
针对复杂的非线性污水生物处理过程,开发了径向基函数的人工神经网络模型,并用实测污水厂进、出水数据进行模拟.采用最近邻聚类学习算法确定径向基函数的宽度、聚类中心和权值.其中神经网络的输入为进水水质和控制参数等5个影响因子,网络输出为COD或TN.结果表明,用径向基函数神经网络模拟污水生物处理拟合性好,出水COD和TN达到预期的模拟精度.  相似文献   

9.
高锋  黄海燕 《计算机科学》2017,44(8):225-229
不平衡数据严重影响了传统分类算法的性能,导致少数类的识别率降低。提出一种基于邻域特征的混合抽样技术,该技术根据样本邻域中的类别分布特征来确定采样权重,进而采用混合抽样的方法来获得平衡的数据集;然后采用一种基于局部置信度的动态集成方法,通过分类学习生成基分类器,对于每个检验的样本,根据局部分类精度动态地选择最优的基分类器进行组合。通过UCI标准数据集上的实验表明,该方法能够同时提高不平衡数据中少数类和多数类的分类精度。  相似文献   

10.
不平衡数据集分类为机器学习热点研究问题之一,近年来研究人员提出很多理论和算法以改进传统分类技术在不平衡数据集上的性能,其中用阈值判定标准确定神经网络中的阈值是重要的方法之一。常用的阈值判定标准存在一定缺点,如不能使少数类及多数类分类精度同时取得最好、过于偏好多数类的精度等。为此提出一种新的阈值判定标准,依据该标准能够使少数类及多数类分类精度同时取得最好而不受样例类别比例的影响。以神经网络与遗传算法相结合训练分类器,作为阈值选择条件和分类器的评价标准,新标准能够得到较好的结果。  相似文献   

11.
田臣  周丽娟 《计算机应用》2019,39(6):1707-1712
针对信用评估中最为常见的不均衡数据集问题以及单个分类器在不平衡数据上分类效果有限的问题,提出了一种基于带多数类权重的少数类过采样技术和随机森林(MWMOTE-RF)结合的信用评估方法。首先,在数据预处理过程中利用MWMOTE技术增加少数类别样本的样本数;然后,在预处理后的较平衡的新数据集上利用监督式机器学习算法中的随机森林算法对数据进行分类预测。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在UCI机器学习数据库中的德国信用卡数据集和某公司的汽车违约贷款数据集上的仿真实验表明,在相同数据集上,MWMOTE-RF方法与随机森林方法和朴素贝叶斯方法相比,AUC值分别提高了18%和20%。与此同时,随机森林方法分别与合成少数类过采样技术(SMOTE)方法和自适应综合过采样(ADASYN)方法结合,MWMOTE-RF方法与它们相比,AUC值分别提高了1.47%和2.34%,从而验证了所提方法的有效性及其对分类器性能的优化。  相似文献   

12.
传统的机器学习方法在解决不平衡分类问题时,得到的分类器具有很大的偏向性,表现为少数类识别率远低于多数类。为此,在旋转森林分类方法的基础上,提出一种改进的不平衡数据处理方法——偏转森林。通过对少数类进行过抽样改变训练数据的分布以减小数据的不平衡,采用随机抽取的方式确保生成偏转矩阵的样本间存在差异,从而提高集成分类器的分类精度。实验结果表明,该方法能取得较好的分类性能,具有较高的少数类识别正确率和较低的多数类识别错误率。  相似文献   

13.
在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练.由此提出基于聚类的弱平衡代价敏感随机森林算法,不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小.实验表明,文中算法在处理高度不平衡数据集时性能较优.  相似文献   

14.
随机森林(random forest,RF)算法虽应用广泛且分类准确度很高,但在面对特征维度高且不平衡的数据时,算法分类性能被严重削弱。高维数据通常包含大量的无关和冗余的特征,针对这个问题,结合权重排序和递归特征筛选的思想提出了一种改进的随机森林算法RW_RF(ReliefF&wrapper random forest)。首先引用ReliefF算法对数据集的所有特征按正负类分类能力赋予不同的权值,再递归地删除冗余的低权值特征,得到分类性能最佳的特征子集来构造随机森林;同时改进ReliefF的抽样方式,以减轻不平衡数据对分类模型的影响。实验结果显示,在特征数目很多的数据集中,改进算法的各评价指标均高于原算法,证明提出的RW_RF算法有效精简了特征子集,减轻了冗余特征对模型分类精度的影响,同时也证明了改进算法对处理不平衡数据起到了一定的效果。  相似文献   

15.
作为人类基因组重要的表观遗传现象,DNA甲基化对基因的表达发挥着重要的调控作用,与癌症的关系密切。针对癌症基因组图谱(TCGA)庞大数据的类不平衡和高维度,致使假阴率大幅增加的问题,提出了一种混合采样的不平衡数据集成分类算法,使用合成少数过采样(SMOTE)算法生成新的少数类样本,得到扩充后的数据集,通过Tomek Link算法剔除样本扩充过程中引入的噪声,得到相对平衡的数据集。在此基础上,利用深度森林(gcForest)算法的级联森林结构,每一层选取两种随机森林结构,以增强模型的泛化能力,得到最终的分类模型。对6种癌症的DNA甲基化数据实验表明混合采样的不平衡数据集成分类算法在保证多数类分类精度的前提下,有效地提高了对于少数类的灵敏度。  相似文献   

16.
为解决互联网时代线上贷款业务量庞大带来的困扰,优化快速迭代的数据模型,从线上贷款业务的特点出发,以Spark分布式计算引擎为核心设计并实现了能够并行处理非平衡数据的加权随机森林算法.该算法从特征切分点抽样统计、特征分箱、逐层训练三个角度对加权随机森林算法进行并行化优化.该算法有效提高了随机森林算法的分类准确率,同时有效降低了决策过程中出现的平局现象.对非平衡数据,该文章通过SMOTE算法对数据进行重构,较好的保留了原有数据集信息.实验表明,该算法能够有效提高放贷效率性与及时性,极大的提高了生产力.  相似文献   

17.
赵煜  邵必林  边根庆  宋丹 《计算机应用》2015,35(7):1959-1964
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。  相似文献   

18.
随机森林已经被证明是一种高效的分类与特征选择方法。尽管参数的设置对结果影响较小,但合适的参数可以使分类器得到理想的效果。主要针对癌症研究中小样本不均衡数据的分类和特征选择问题,研究了随机森林中类权重的设置。为了比较在不同的类权重下特征选择的效果,同时使用支持向量机(Support Vector Machine,SVM)方法。最终结果显示最优的类权重是不确定的。最后总结出几条规律指导研究者选择合适的权重使分类和特征选择效果得到改善。  相似文献   

19.
随着设备的迭代,网络流量呈现指数级别的增长,针对各种应用的攻击行为越来越多,从流量层面识别并对这些攻击流量进行分类具有重要意义。同时,随着物联网设备的激增,针对这些设备的攻击行为也逐渐增多,造成的危害也越来越大。物联网入侵检测方法可以从这些海量的流量中识别出攻击流量,从流量层面保护物联网设备,阻断攻击行为。针对现阶段各类攻击流量检测准确率低以及样本不平衡问题,提出了基于重采样随机森林(RF,random forest)的入侵检测模型——Resample-RF,共包含3种具体算法:最优样本选择算法、基于信息熵的特征归并算法、多分类贪心转化算法。在物联网环境中,针对不平衡样本问题,提出最优样本选择算法,增加小样本所占权重,从而提高模型准确率;针对随机森林特征分裂效率不高的问题,提出基于信息熵的特征归并算法,提高模型运行效率;针对随机森林多分类精度不高的问题,提出多分类贪心转化算法,进一步提高准确率。在两个公开数据集上进行模型的检验,在 IoT-23 数据集上 F1 达到0.99,在Kaggle数据集上F1达到1.0,均具有显著效果。从实验结果中可知,提出的模型具有非常好的效果,能从海量流量中有效识别出攻击流量,较好地防范黑客对应用的攻击,保护物联网设备,从而保护用户。  相似文献   

20.
针对传统采样方式准确率与鲁棒性不够明显,欠采样容易丢失重要的样本信息,而过采样容易引入冗杂信息等问题,以UCI公共数据集中的不平衡数据集Pima-Indians为例,综合考虑数据集正负类样本的类间距离、类内距离与不平衡度之间的关系,提出一种基于样本特性的新型过采样方式.首先对原始数据集进行距离带的划分,然后提出一种改进的基于样本特性的自适应变邻域Smote算法,在每个距离带的少数类样本中进行新样本的合成,并将此方式推广到UCI数据集中其他5种不平衡数据集.最后利用SVM分类器进行实验验证的结果表明:在6类不平衡数据集中,应用新型过采样SVM算法,相比已有的采样方式,少(多)数类样本的分类准确率均有明显提高,且算法具有更强的鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号