首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
为了改善传统支持向量机(SVM)对不平衡数据的分类效果,解决分类器对少类样本分类效果较差的问题,提出了一种复合SVM算法。该算法首先通过自适应合成采样(ADASYN)算法和不同错误代价(DEC)算法的结合,改善不平衡数据对超平面造成的偏移;然后引入一种新的修正算法对预测模型进行修正,提高预测模型对于不同数据特性的适应性。选择UCI数据库中的7组现实世界的不平衡数据集进行测试,实验表明在各个数据集上复合SVM算法性能均优于现有算法或与现有算法相当,分类性能平均提高了2.0%~20.9%,证明本算法的有效性和鲁棒性。  相似文献   

2.
在不平衡数据分类问题中,作为目标对象的少数类往往不易识别.常见方法存在需要显式设置实例重要度、仅仅间接支持少数类的识别等缺点.由此,文中提出基于实例重要性的支持向量机--ⅡSVM.它分为3个阶段.前两个阶段分别采用单类支持向昔机和二元支持向量机,将数据按照"最重要"、"较重要",和"不重要"3个档次重新组织.阶段3首先选择最重要的数据训练初始分类器,并通过显式设置早停止条件,直接支持少数类的识别.实验表明,ⅡSVM的平均分类性能优于目前的主流方法.  相似文献   

3.
一种面向不平衡数据的结构化SVM集成分类器   总被引:1,自引:0,他引:1  
为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用AdaBoost策略对各样本的权重进行动态调整,适当增大少数类样本的权重,使小类中误分的样本代价增大,以此来改进不平衡数据的分类性能.实验结果表明,该算法可有效提高不平衡数据的分类性能.  相似文献   

4.
为了改善传统支持向量机SVM对不平衡数据集中少数类的分类效果,提出一种基于改进灰狼算法(IGWO)的过采样方法——IGWOSMOTE。首先,改进初始灰狼种群的生成形式,由SVM的惩罚因子、核参数、特征向量和少数类的采样率组成灰狼个体;然后,经由灰狼优化过程智能搜索获得最优相关参数和最优采样率组合,进行重新采样供分类器学习及预测。通过对6个UCI数据集的分类实验得出:IGWOSMOTE+SVM较传统SMOTE+SVM方法在少数类分类精度上提高了6.3个百分点,在整体数据集分类精度上提高了2.1个百分点,IGWOSMOTE可作为一种新的过采样分类方法。  相似文献   

5.
针对不平衡数据集的低分类效率,基于L-SMOTE算法和混合核SVM提出了一种改进的SMOTE算法(FTL-SMOTE)。利用混合核SVM对数据集进行分类。提出了噪声样本识别三原则对噪声样本进行精确识别并予以剔除,进而利用F-SMOTE和T-SMOTE算法分别对错分和正确分类的少类样本进行采样。如此循环,直到满足终止条件,算法结束。通过在UCI数据集上与经典的SMOTE等重要采样算法以及标准SVM的大量实验表明,该方法具有更好的分类效果,改进算法与L-SMOTE算法相比,运算时间大幅减少。  相似文献   

6.
SVM在处理不平衡数据分类问题(class imbalance problem)时,其分类结果常倾向于多数类。为此,综合考虑类间不平衡和类内不平衡,提出一种基于聚类权重的分阶段支持向量机(WSVM)。预处理时,采用K均值算法得到多数类中各样本的权重。分类时,第一阶段根据权重选出多数类内各簇边界区域的与少数类数目相等的样本;第二阶段对选取的样本和少数类样本进行初始分类;第三阶段用多数类中未选取的样本对初始分类器进行优化调整,当满足停止条件时,得到最终分类器。通过对UCI数据集的大量实验表明,WSVM在少数类样本的识别率和分类器的整体性能上都优于传统分类算法。  相似文献   

7.
利用各类算法对非平衡数据进行处理已成为数据挖掘领域研究的热问题。针对非平衡数据的特点,在研究支持向量机的相关理论及K-SVM算法基础上,提出基于惩罚机制的PFKSVM(K-SVMbased on penalty factor)算法,克服K-SVM在最优分类面附近易发生错分的问题;并提出由重构采样层、基本训练层和综合判定层组成的集成学习模型。利用UCI公共数据集的实验验证了PFKSVM算法及集成模型在处理非平衡数据分类时的优势。  相似文献   

8.
不平衡数据的集成分类算法综述   总被引:1,自引:0,他引:1  
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。  相似文献   

9.
处理不平衡数据分类时,传统支持向量机技术(SVM)对少数类样本识别率较低。鉴于SVM+技术能利用样本间隐藏信息的启发,提出了多任务学习的不平衡SVM+算法(MTL-IC-SVM+)。MTL-IC-SVM+基于SVM+将不平衡数据的分类表示为一个多任务的学习问题,并从纠正分类面的偏移出发,分别赋予多数类和少数类样本不同的错分惩罚因子,且设置少数类样本到分类面的距离大于多数类样本到分类面的距离。UCI数据集上的实验结果表明,MTL-IC-SVM+在不平衡数据分类问题上具有较高的分类精度。  相似文献   

10.
针对传统采样方式准确率与鲁棒性不够明显,欠采样容易丢失重要的样本信息,而过采样容易引入冗杂信息等问题,以UCI公共数据集中的不平衡数据集Pima-Indians为例,综合考虑数据集正负类样本的类间距离、类内距离与不平衡度之间的关系,提出一种基于样本特性的新型过采样方式.首先对原始数据集进行距离带的划分,然后提出一种改进的基于样本特性的自适应变邻域Smote算法,在每个距离带的少数类样本中进行新样本的合成,并将此方式推广到UCI数据集中其他5种不平衡数据集.最后利用SVM分类器进行实验验证的结果表明:在6类不平衡数据集中,应用新型过采样SVM算法,相比已有的采样方式,少(多)数类样本的分类准确率均有明显提高,且算法具有更强的鲁棒性.  相似文献   

11.
样本的不均衡性直接影响分类器的精度,基于C4.5算法提出一种改进算法——PC4.5,并应用于MIT数据集.实验表明该算法能很好地处理训练集的不均衡性,并降低决策树的规模.  相似文献   

12.
针对传统的SVM算法在非平衡数据分类中分类效果不理想的问题,提出一种基于分类超平面和SMOTE过采样方法(HB_SMOTE)。该方法首先对原始训练样本集使用WSVM算法找到分类超平面,然后按一定标准剔除负类中被错分的样本、靠近分类超平面的样本以及远离分类超平面的样本。在UCI数据集上的实验结果表明:与RU_SMOTE等重采样方法相比,HB_SMOTE方法对正类样本和负类样本都具有较高的分类准确率。  相似文献   

13.
The Internet has been flooded with spam emails, and during the last decade there has been an increasing demand for reliable anti-spam email filters. The problem of filtering emails can be considered as a classification problem in the field of supervised learning. Theoretically, many mature technologies, for example, support vector machines (SVM), can be used to solve this problem. However, in real enterprise applications, the training data are typically collected via honeypots and thus are always of huge amounts and highly biased towards spam emails. This challenges both efficiency and effectiveness of conventional technologies. In this article, we propose an undersampling method to compress and balance the training set used for the conventional SVM classifier with minimal information loss. The key observation is that we can make a trade-off between training set size and information loss by carefully defining a similarity measure between data samples. Our experiments show that the SVM classifier provides a better performance by applying our compressing and balancing approach.  相似文献   

14.
用于不均衡数据集分类的KNN算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。  相似文献   

15.
基于改进SMOTE的非平衡数据集分类研究   总被引:1,自引:0,他引:1  
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。  相似文献   

16.
传统的分类算法在对不平衡数据进行分类时,容易导致少数类被错分。为了提高少数类样本的分类准确度,提出了一种基于改进密度峰值聚类的采样算法IDP-SMOTE。首先,采用Box-Cox变换和σ准则对密度峰值聚类算法进行改进,实现了聚类中心和离群点的自动判别;然后,将改进的密度峰值聚类算法与SMOTE升采样算法相结合,去除噪声数据,并基于少数类样本的局部密度和邻近距离,在子类的范围内合成采样数据。该算法有效避免了升采样导致的边界模糊,改善了类内不平衡及边界样本难以学习的问题,同时实现了自动聚类和重采样,防止了人为因素干扰。通过实验对比,验证了提出算法的有效性和自适应性。  相似文献   

17.
曹阳  闫秋艳  吴鑫 《计算机应用》2021,41(3):651-656
针对现有集成分类方法对不平衡时间序列数据学习能力欠佳的问题,采用优化组件算法性能和集成策略的思路,以异构集成方法即基于变换的集合的层次投票集合(HIVE-COTE)为基础,提出一种不平衡时间序列集成分类算法IMHIVE-COTE.该算法主要包含两个改进内容:首先,增加了一个新的不平衡分类组件SBST-HESCA,引入B...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号