首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为了提高不平衡数据集中少数类的分类准确率,文章对组合分类算法进行了研究,提出了一种新的组合分类算法WDB.该算法采用决策树C4.5和朴素贝叶斯两种不同的分类器作为基分类器,选择精确度(precision)作为权值,根据不同的训练集,通过"权值学习"的方式自动调整各基分类器的权值大小,然后,结合各基分类器的预测结果,利用加权平均法进行代数组合,构造出一种新的分类算法WDB.最后,以开放的不平衡数据集作为数据源,利用常见的性能评价指标进行实验验证.实验结果证明,在组合分类算法中引入"权值学习"能够发挥基分类器对于特定数据类型的分类优势,提高预测结果的准确率.WDB算法对不平衡数据集分类的性能优于决策树C4.5算法、朴素贝叶斯算法及随机森林算法,能够有效提升不平衡数据集中少数类的分类准确率.  相似文献   

2.
程险峰  李军  李雄飞 《计算机工程》2011,37(13):147-149
针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。  相似文献   

3.
不平衡数据的集成分类算法综述   总被引:1,自引:0,他引:1  
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。  相似文献   

4.
秦锋  杨波  程泽凯 《微机发展》2006,16(10):85-88
在数据挖掘领域中,不同分类器建立的模型性能不尽相同。对分类器性能的评价是选择优秀分类器的基础。为了更好地对分类器性能进行评估,文中对分类器性能评价标准进行了研究。分析了传统分类器性能评价标准在应用时存在的一些问题,重点介绍了ROC曲线(the Receiver Operating Characteristic curve)和AUC(the area under the ROC curve)评价方法,并剖析了它们的优缺点。对比分析表明,ROC曲线和AUC方法虽然存在着一定的不足,但是在分类器性能评价中所表现出的诱人性质使其必定具有广阔的应用前景。  相似文献   

5.
向欣  陆歌皓 《计算机应用研究》2021,38(12):3604-3610
针对现实信用评估业务中样本类别不平衡和代价敏感的情况,为降低信用风险评估的误分类损失,提出一种基于DESMID-AD动态选择的信用评估集成模型,根据每一个测试样本的特点动态地选择合适的基分类器对其进行信用预测.为提高模型对信用差客户(小类)的识别能力,在基分类器训练前使用过采样的方法对训练数据作类别平衡,采用元学习的方式基于多个指标进行基分类器的性能评估并在此阶段设计权重机制增强小类的影响.在三个公开信用评估数据集上,以AUC、一型、二型错误率以及误分类代价作为评价指标,与九种信用评估常用模型做比较,证明了该方法在信用评估领域的有效性和可行性.  相似文献   

6.
类别不平衡数据是指不同类别的样本数目差异很大,AUC(area under the ROC curve)是衡量不平衡数据分类器性能的一个重要指标,由于AUC不可微,研究者提出了众多替代成对损失函数优化AUC。成对损失的样本对数目为正负样本数目的乘积,大量成对损失较小的正负样本对影响了分类器的性能。针对这一问题,提出了一种加权的成对损失函数WPLoss,通过赋予成对损失较大的正负样本对更高的损失权重,减少大量成对损失较小的正负样本对的影响,进而提升分类器的性能。在20newsgroup和Reuters-21578数据集上的实验结果验证了WPLoss的有效性,表明WPLoss能够提升面向不平衡数据的分类器性能。  相似文献   

7.
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法--NIBoost(New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。  相似文献   

8.
数据集类别不平衡问题是分类领域的重要问题之一,每个数据集的不平衡指数都与其自身有着紧密的联系,是数据集的重要标志。面对不平衡数据集分类设计问题,提出了一种改进AdaBoost算法(enhanced AdaBoost,E-AdaBoost)。该算法将不平衡指数和不平衡数据集中较为重要的少数类分类正确率考虑到算法的迭代过程中,改进了基分类器的权重更新策略,进而提高对不平衡数据集的分类性能。基于E-AdaBoost的不平衡数据集分类设计方法可以根据样本的不平衡指数,确定基分类器的权重参数,进而提高分类器性能。利用该方法,结合多个经典分类器,在人工数据集和标准数据集上进行实验分析,并对比相关方法,结果表明,基于E-AdaBoost的不平衡数据集分类设计方法能够有效提高不平衡数据集的分类性能。  相似文献   

9.
处理类不平衡数据时,少数类的边界实例非常容易被错分。为了降低类不平衡对分类器性能的影响,提出了自适应边界采样算法(AB-SMOTE)。AB-SMOTE算法对少数类的边界样本进行自适应采样,提高了数据集的平衡度和有效性。同时将AB-SMOTE算法与数据清理技术融合,形成基于AdaBoost的集成算法ABTAdaBoost。ABTAdaBoost算法主要包括三个阶段:第一个阶段对训练数据集采用AB-SMOTE算法,降低数据集的类不平衡度;第二个阶段使用Tomek links数据清理技术,清除数据集中的噪声和抽样方法产生的重叠样例,有效提高数据的可用性;第三个阶段使用AdaBoost集成算法生成一个基于N个弱分类器的集成分类器。实验分别以J48决策树和朴素贝叶斯作为基分类器,在12个UCI数据集上的实验结果表明:ABTAdaBoost算法的预测性能优于其它几种算法。  相似文献   

10.
分类器性能评价标准研究   总被引:2,自引:0,他引:2  
在数据挖掘领域中,不同分类器建立的模型性能不尽相同。对分类器性能的评价是选择优秀分类器的基础。为了更好地对分类器性能进行评估,文中对分类器性能评价标准进行了研究。分析了传统分类器性能评价标准在应用时存在的一些问题,重点介绍了ROC曲线(the Receiver Operating Characteristic curve)和AUC(the & lea under the ROC curve)评价方法,并剖析了它们的优缺点。对比分析表明,ROC曲线和AUC方法虽然存在着一定的不足,但是在分类器性能评价中所表现出的诱人性质使其必定具有广阔的应用前景。  相似文献   

11.
为了提高脑思维任务分类精度,提出了一种基于小波包分解和多分类器投票组合的运动想象任务分类方法。该方法利用小波包分解对经过预处理的脑电信号进行分解,提取所有频带上的相对小波包能量特征;根据不同脑思维任务下左右半脑各通道间的差异性对C3、C4两通道求取特定频带上的小波包系数的L-2范数作为特征;采用基于投票策略的组合分类器对两种联合特征进行分类,得到了92.85%的识别精度。实验结果表明,联合特征向量较好地反映了左右手运动想象脑电信号的事件相关去同步(ERD)和事件相关同步(ERS)的本质特性;组合分类器识别效果优于单一分类器。  相似文献   

12.
熊杨  肖怀铁  王伟 《计算机工程》2011,37(14):146-148
通过分析最小二乘支持向量机(LS-SVM)模型的超参数选择对分类器的影响,提出一种采用多样性保持的分布估计算法(EDA-DP)优化选择LS-SVM模型参数的方法。使用基于EDA-DP的LS-SVM分类器模型对基准数据集和雷达目标高分辨距离像数据集进行仿真实验,结果表明,该模型相比基于网格法的分类器模型,平均识别率分别提高了4.2%和1.76%,具有更好的分类性能和泛化能力。  相似文献   

13.
传统分类器的构建需要正样本和负样本两类数据。在遥感影像分类中,常出现这样一类情形:感兴趣的地物只有一种。由于标记样本耗时耗力,未标记样本往往容易获取并且包含有用信息,鉴于此,提出了一种基于正样本和未标记样本的遥感图像分类方法(PUL)。首先,根据正样本固有特征并结合支持向量数据描述(SVDD)从未标记集筛选出可信正负样本,再将其从未标记集中剔除;接着将其带入SVM训练,根据未标记集在分类器中的表现设立阈值,再从未标记集中筛选出相对可靠的正负样本;最后是加权SVM(Weighted SVM)过程,初始正样本及提取出的可靠正负样本权重为1,SVM训练筛选出的样本权重范围0~1。为验证PUL的有效性,在遥感影像进行分类实验,并与单类支持向量机(OC-SVM)、高斯数据描述(GDD)、支持向量数据描述(SVDD)、有偏SVM(Biased SVM)以及多类SVM分类对比,实验结果表明PUL提高了分类效果,优于上述单类分类方法及多类SVM方法。  相似文献   

14.
为实现在线生物文献磁共振成像(MRI)图像库的构建,利用图像特征的塔式梯度方向直方图(PHOG)和塔式关键词直方图(PHOW)进行互补特征表示,使用支持向量机对MRI图像与非MRI图像以及脑部MRI与非脑部MRI图像进行自动分类。实验结果表明,空间形状信息与局部分布信息融合的特征能提高图像分类的准确率,为构建在线文献中MRI图像库的知识系统提供技术支持。  相似文献   

15.
朴素贝叶斯算法(NB)在处理分类问题时通常假设训练样本的数值型连续属性满足正态分布,其分类精度也受到训练数据完整性的影响,而实际采样数据很难满足上述要求。针对数据缺失问题,基于期望最大值算法(EM),将朴素贝叶斯分类器利用已有的不完整数据进行参数学习;针对样本数值型连续属性非正态分布的情况,基于核密度估计,利用其分布密度(Distribution Density)和新的分析计算方法来求最大后验分布,同时用标准数据集的分类实验验证了改进的有效性。将改良的算法EM-DNB应用在生物工程蛋白质纯化工艺预测中,实验结果表明,预测精度有所提高。  相似文献   

16.
张志平  汪庆淼 《计算机工程》2010,36(23):139-141,145
根据隐马尔可夫模型(HMM)适用于处理连续动态序列信号、支持向量机(SVM)与K近邻分类器(KNN)擅长模式分类的特点,设计一种(HMM+KNN)+SVM的混合分类器。利用HMM与KNN对测试样本进行判决。当判决结果相同时,直接输出判决结果,否则引入SVM对测试样本进行再判决。实验结果表明,该方法所确定的分类器优于单一的分类器判决,能有效实现表情识别。  相似文献   

17.
18.
多分类问题一直是模式识别领域的一个热点,提出了一种基于纠错输出编码和支持向量机的多分类器算法。根据通信编码理论设计纠错输出编码矩阵;按照该编码矩阵设计若干个互不相关的子支持向量机,根据编码原理将它们融合为一个多分类器。为了验证本分类器的有效性,采用Gabor小波提取人脸表情特征,应用二元主成分(2DPCA)分析法对提取的特征进行降维处理,应用该分类器进行了人脸表情的识别。实验结果表明,提出的方法能有效提高人脸表情的识别率,并具有极好的鲁棒性。  相似文献   

19.
提出了一种基于固有模态函数(Intrinsic Mode Function,IMF)能量熵的特征提取方法。对三类脑电思维信号分别进行了经验模态分解(Empirical Mode Decomposition,EMD),并得到与其相对应的IMF。试验发现对于不同类别的信号,同阶的IMF能量的判别熵有明显的不同。而采用K-近邻分类器对三类脑电信号进行了分类,发现基于最佳特征向量选择的分类试验的平均正确识别率达75%以上。  相似文献   

20.
经验模态分解(EMD)是用来处理非平稳时变信号的一种信号分析方法,该方法对所分析信号的局部特征信号进行不同时间尺度的分解,从而得到这些局部特征信号的各阶本征模函数(IMF)。提出了一种基于IMF能量谱的水声信号特征提取与选择方法,通过对水声信号进行经验模态分解,提取信号的本征模式分量并转换为能量谱特征向量,从而观测不同信号子频带能量谱的特征变化。分类实验采用支持向量机(SVM)分类器进行。实验结果表明,相对于小波能量谱特征提取法而言,利用IMF能量谱作为特征向量的分类实验具有更佳的分类效果,平均正确率达88%以上。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号