首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在数据挖掘领域中,通常以分类精度作为分类算法效果的评估标准。这一标准是建立在假设任意一实例被误分类为任意类时都具备同样代价的基础上的。当此假设不成立时,直接使用传统分类方法就无法取得良好的分类和预测效果。针对这一问题,通过改进编解码方法以及在适应度函数中集成样本的不同误分类代价,提出了一种基于基因表达式程序设计的代价敏感分类算法(CSC-GEP),并在三个UCI数据集上对该算法进行了测试,实验结果表明CSC-GEP是一种有效的代价敏感分类算法。  相似文献   

2.
3.
针对现实生活中大规模不平衡数据的分类问题,设计了一种基于云计算平台的代价敏感集成学习分类算法。Hadoop云计算平台对海量数据进行划分用于并行学习,同时结合代价敏感的思想对学习得到的基分类器进行加权集成,实现了云计算平台上的代价敏感集成学习分类模型。仿真实验表明该模型能够明显提高少数类的查全率,同时Hadoop的并行机制使得云平台坏境下的集成学习时间较集中式环境有大幅度的缩减,进一步提高了大规模不平衡数据分类问题的学习效率。  相似文献   

4.
借贷数据规模大、维度复杂和极度不平衡等特性致使借贷预测的精度一直难以提升.为此,设计量化借贷期望损失值作为代价敏感项来优化集成模型的借贷预测算法,实现消除比例失衡的训练样本对预测模型的影响;提出基于代价敏感集成学习的借贷预测算法——ES-XGB和ES-LGB.其核心是改进了近年来表现优异的集成算法XGBoost和Lig...  相似文献   

5.
针对现有软件缺陷评估方法无法根据分类结果生成处理优先级,且基于样本的类不平衡方法易造成重要数据丢失等问题,提出一种基于分类代价的软件缺陷评估方法。首先,通过样本噪声处理、样本分布归一化、样本平衡重构和特征降维4个过程处理多源样本,得到预处理样本。然后,计算预处理样本在多分类器上的评价指标和指标权重,根据评价指标和指标权重计算分类代价并构建一个异质加权投票模型。最后,使用异质加权投票模型计算缺陷概率值并评估样本的缺陷程度。实验结果表明,所提方法得到的缺陷概率值和缺陷等级与真实样本符合度较高,能够准确反映代码模块的缺陷等级。  相似文献   

6.
数据高维且不平衡时,产生的分类器易过度拟合且倾向于牺牲少数类准确率.为降低分类器复杂度且提高少数类识别率,提出了一种代价敏感随机森林算法.以随机森林算法框架为基础,利用Bagging平衡数据,并在基分类器属性分裂度量以及评价函数中引入误分类和测试双重代价,其中测试代价由分裂属性与少数类的相关度决定,使得基决策树在建模过程中向少数类倾斜.与随机森林和仅引入误分类代价的随机森林相比,引入双重代价的随机森林的分类准确率较高,尤其在少数类识别上具有较大优势.  相似文献   

7.
受改变类分布思想的启发,采用最新的最大间隔方法--尺度化凸壳方法来解决代价敏感学习.该方法可以改变样本的分布,且这种改变只需为不同的类赋予不同的尺度因子就可以实现.实验结果表明,尺度化凸壳方法求解代价敏感问题的有效性,其求解过程也非常简单.  相似文献   

8.
为了实现代价敏感分类过程中的最小平均误分类代价的目的,本研究通过在分类过程中引入概率估计以及误分类代价重新构造分类结果,提出了基于极限学习机(extreme learning machine, ELM)的代价敏感算法CS ELM并在上述算法基础上,引入“拒识代价”,进一步减小了平均误分类代价。算法被运用到基因表达数据集上并与极限学习机、代价敏感决策树、代价敏感BP神经网络和代价敏感支持向量机做对比,可以得出,嵌入拒识的CS ELM算法能够更好地降低误分类代价,使分类结果更加可靠。  相似文献   

9.
提出了一种针对不确定数据的贝叶斯代价敏感分类器算法SBT-CSUNB用来进行单批测试。SBT-CSUNB算法在代价敏感贝叶斯分类器的框架上定义了不确定数据属性对总代价的影响,提出了单批算法的最优属性集合的选择方式。在UCI数据集上的实验表明:SBTCSUNB有效地降低了总代价,并且在不同的参数设定下表现平稳,甚至在高不确定率的情况下算法仍旧表现良好。  相似文献   

10.
数据集类别分布非均衡极大制约了人工智能技术在电力变压器故障诊断领域中的应用。为克服数据非均衡导致自适应算法(adaptive boosting, AdaBoost)分类精度提升有限的缺陷,研究提出了一种结合AdaBoost和代价敏感的Adacost算法,以有效提升诊断模型的综合分类性能。首先,确定专家打分和混淆矩阵结合的代价敏感矩阵以保证模型的合理性和客观性;然后,构建基于Adacost算法的电力变压器故障诊断模型,并以油中溶解气体无编码比值作为诊断模型的输入特征参量;最后进行算例仿真,同时选用准确率、F1度量以及G-mean作为诊断模型的评价指标。研究结果显示,相较于决策树和AdaBoost分类器,Adacost模型的各评价指标均有大幅提升,其中F1度量分别提升了22.03%、10.07%,表明所提方法有效提升了非均衡数据集下诊断模型的故障识别性能。  相似文献   

11.
为解决数据挖掘中存在的数据漂移和客户价值分布不平衡问题,采用了分阶段聚类和代价敏感支持向量机的新方法.新方法首先对全部客户聚类得到特征相似的客户群,然后用某个区域客户属于某客户群的后验概率对城市进行聚类,具有相似后验概率分布的城市群被认为是具有类似的客户结构,每个城市群的客户组成了新的客户样本,对每个样本分别进行代价敏...  相似文献   

12.
我国信用不良的企业数量远小于信用良好的企业数量,样本类别的极端不平衡导致传统的信用评估模型在训练时无法充分学习信用不良企业的特征.为提高极端梯度提升算法(Extreme Gradient Boosting, XGBoost)在企业信用评估这种不平衡分类问题中的准确率,提出一种基于代价敏感XGBoost的企业信用评估模型.在XGBoost算法拟合过程中,加入代价敏感损失函数迫使模型更加关注少数类的特征,并引入贝叶斯优化调整模型的重要超参数.以我国A股市场中小板块企业2016—2020年数据为样本,实证结果表明,基于代价敏感XGBoost的企业信用评估模型能够在保证总体识别精度的情况下提高对信用不良企业的识别准确率.  相似文献   

13.
不平衡数据分类方法综述   总被引:9,自引:0,他引:9  
分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降,因而研究用于处理不平衡数据集的分类方法显得相当重要.为便于读者更清晰地了解数据不平衡分类问题的研究现状和未来研究的动向,本文对相关的研究进行了综述和展望.  相似文献   

14.
基于SVM的多类代价敏感学习及其应用   总被引:1,自引:0,他引:1  
标准的分类器设计一般基于最小化错误率.在入侵检测等问题中,不同类型的错分往往具有不等的代价.通过在支持向量机的类概率输出中引入代价敏感机制,提出了3种基于最小化总体错分代价设计分类器的方法.实验结果表明通过改变代价矩阵,能在漏报率、误报率及稀有类样本的错误率之间调节,从而保证在误报率尽可能小的情况下降低漏报率和稀有类样本的错误率,以减少总体错分代价.  相似文献   

15.
数据挖据的目的是从数据库中获取知识。本文针对挖据目的,提出了一种基于遗传算法的分类方法,并应用于实例,得到了很好的结果。  相似文献   

16.
根据用户所能提供的资金和时间预算约束,针对现实中存在问题的需要,使用Lazy Decision Tree作为基本的分类方法,并给出了新的分裂属性选择标准,建立基于代价敏感的分类器。该分类器用多维代价取代前人工作中将多维代价转换成一维代价方法,在给定二维预算约束下,最大限度地减小误分类代价,获得相对最优的分类器。该分类器以实际应用为背景,具有很强的实用价值。实验证明,该方法是切实可行并有效的。  相似文献   

17.
软件日益推陈出新,当前方法无法满足源项目与目标项目的预测需求,因此创建一种基于代价敏感半监督的跨项目软件缺陷数预测模型.首先,利用斯皮尔曼等级相关系数选择方法,选取合适度量元,按照系数降序对其实施排列,得到所需的度量元集合.其次,运用版本控制工具,完成版本源代码收集,从而获取缺陷数据.再次,经过静态分析统计源代码,架构...  相似文献   

18.
针对传统文本分类方法的性能,尤其是其中少数类的分类性能会随着文本不平衡程度的加重而迅速恶化的现象,提出了一种基于同义词扩展的不平衡文本分类改进方法.该方法通过建立同义词词典、确定扩展规则和调整“特征保持因子”等几个步骤,实现了对少数类中的特征项的丰富和补偿,同时对扩展带来的原文档特征变化予以了补偿.实验结果表明,该方法可以从很大程度上改善少数类的分类性能,并且随着少数类中文本数量的减少,性能的提升会越发显著.与此同时,分类器的总体分类性能也得到了一定程度的提升.  相似文献   

19.
提出了基于串行分类算法的不平衡时间序列多分类方法,并以“上证50指数”15 min交易数据为例,进行了实验检验与结果分析. 结果表明,在多数情况下,串行分类算法比单一算法有更高的准确率、召回率和F1值,可以更有效解决不平衡时间序列多分类问题.  相似文献   

20.
对于平衡数据集支持向量机(support vector machine,SVM)通常具有很好的分类性能和泛化能力,然而对于不平衡数据集,SVM只能得到次优结果,针对该问题提出了一种基于SVM的AS-Ada Boost SVM分类算法.首先,通过使用ADASYN采样,提高少类样本在边界区域的密度;然后,使用基于径向基核支持向量机(radial basis function kernel mapping support vector machine,RBFSVM)模型弱分类器的Ada Boost SVM算法训练得到决策分类器.通过将该算法在各种不平衡数据集上的测试结果与单纯运用ADASYN技术、Ada Boost SVM、SMOTEBoost等其他分类器进行比较,验证了该算法的有效性和鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号