首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于AUC的分类器评价和设计综述   总被引:2,自引:0,他引:2  
尽管精度(或总体错分率)普遍用作分类算法的性能评价指标,但存在诸如敏感于类先验分布和错分代价,忽略分类算法所得的后验概率或排序信息等不足。而接收者操作特性(ROC)曲线下面积则能度量算法在整个类先验分布及错分代价范围内的总体分类性能、后验概率和排序性能,因此在分类学习中受到越来越多的关注,由此涌现出众多研究成果。文章旨在对此作相对全面的回顾和总结,包括AUC作为性能评价指标的优势所在,基于AUC优化的算法设计,基于精度优化和AUC优化的算法间的关系以及AUC存在的不足及改进。  相似文献   

2.
师彦文  王宏杰 《计算机科学》2017,44(Z11):98-101
针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。  相似文献   

3.
数据不平衡的现象在现实生活中非常普遍。为了提高整体分类精度,分类器有时会以错分少数类为代价。但在现实生活中,对少数类进行错误分类的后果非常严重。考虑到传统重采样算法容易忽略数据的空间分布和少数类样本特征之间的关系,提出一种基于特征关系的采样算法(SABRF)生成新的样本集。SABRF通过帕累托多目标特征选择保留不平衡数据集的关键区分特征,同时通过极端梯度提升(XGBoost)回归模型捕获少数类样本关键特征之间的关系。此外,还提出一个新的样本选择策略衡量新生成样本的质量。使用6个公开的UCI数据集和1个真实的骨科术后血栓数据集进行实验,结果表明,SABRF在受试者工作特征曲线下面积(AUC)、F1分数(F1_score)和几何平均值(G_mean)上均有较好的表现;此外,对使用基于多指标评价的样本选择策略挑选出的新样本进行分类,不平衡数据的分类结果也最好,验证了样本选择策略的有效性。  相似文献   

4.
针对实际中存在的各类别样本错分造成不同危害程度的分类问题,提出了一种基于属性加权的代价敏感支持向量机分类算法,即在计算各个样本特征属性对分类的重要度之后,对相应的属性进行重要度加权,所得的数据用于训练和测试代价敏感支持向量机。数值实验的结果表明,该方法提高了误分代价高的类别的分类精度,同时属性重要度的引入提高了分类器的整体分类性能。该方法对错分代价不对称的数据分类问题具有重要的现实意义。  相似文献   

5.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

6.
随机森林(random forest,RF)算法虽应用广泛且分类准确度很高,但在面对特征维度高且不平衡的数据时,算法分类性能被严重削弱。高维数据通常包含大量的无关和冗余的特征,针对这个问题,结合权重排序和递归特征筛选的思想提出了一种改进的随机森林算法RW_RF(ReliefF&wrapper random forest)。首先引用ReliefF算法对数据集的所有特征按正负类分类能力赋予不同的权值,再递归地删除冗余的低权值特征,得到分类性能最佳的特征子集来构造随机森林;同时改进ReliefF的抽样方式,以减轻不平衡数据对分类模型的影响。实验结果显示,在特征数目很多的数据集中,改进算法的各评价指标均高于原算法,证明提出的RW_RF算法有效精简了特征子集,减轻了冗余特征对模型分类精度的影响,同时也证明了改进算法对处理不平衡数据起到了一定的效果。  相似文献   

7.
大数据时代,具有多维海量特征的电力、医疗等行业的分类数据往往是不平衡数据,少数类样本的分类往往伴随着很大的错分代价。对于不同的数据集,数据样本点分布特征也会影响分类器的分类精度。传统的KSVM分类器增加了分类超平面附近易错分点的有效分类信息,但与此同时引入了更多噪声。针对KSVM算法应用在不平衡数据时阈值固定的缺陷,提出一种动态调整阈值的ε-KSVM分类器,降低错分信息的引入。实验表明预测精度得到较大的提升。  相似文献   

8.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

9.
大数据时代,数据的共享与挖掘存在隐私泄露的安全隐患。针对使用K-匿名隐藏实现隐私保护会大幅降低数据分类挖掘性能问题,提出一种基于随机森林特征重要性的K-匿名特征选择算法(RFKA)用于分类挖掘。使用随机森林特征重要性度量特征的分类性能;采用前向序列搜索策略每次选择不破坏K-匿名且分类性能最大的特征加入特征子集;使用特征子集对应的数据集构建模型进行分类实验。实验结果表明,该算法能更有效地平衡K-匿名和分类挖掘性能,且算法运行效率更高。  相似文献   

10.
数据不平衡会严重影响传统分类算法的性能,不平衡数据分类是机器学习领域的一个热点和难点问题。为提高不平衡数据集中少数类样本的检出率,提出一种改进的随机森林算法。该算法的核心是对每一棵通过Bootstrap采样后的随机森林子树数据集进行混合采样。首先采用基于高斯混合模型的逆权重上采样,然后基于SMOTE-borderline1算法进行级联上采样,再用随机下采样方式进行下采样,得到每棵子树的平衡训练子集,最后以决策树为基学习器实现改进机随机森林不平衡数据分类算法。此外,以G-mean和AUC为评价指标,在15个公开数据集上将所提算法与10种不同算法进行比较,结果显示其两项指标的平均排名和平均值均为第一。进一步,在其中9个数据集上将其与6种state-of-the-art算法进行比较,在32次结果对比中,所提算法有28次取得的成绩都优于其他算法。实验结果表明,所提算法有助于提高少数类的检出率,具有更好的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号