首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 281 毫秒
1.
翟云  王树鹏  马楠  杨炳儒  张德政 《电子学报》2014,42(7):1311-1319
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link & Distribution Density-SMOTE,OSLDD-SMOTE).OSLDD-SMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率.  相似文献   

2.
一种基于核SMOTE的非平衡数据集分类方法   总被引:7,自引:0,他引:7       下载免费PDF全文
曾志强  吴群  廖备水  高济 《电子学报》2009,37(11):2489-2495
 本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果.  相似文献   

3.
基于随机下采样和SMOTE的不均衡SVM分类算法   总被引:2,自引:0,他引:2  
传统的支持向量机(SVM)算法在数据不均衡的情况下,分类效果很不理想。为了提高SVM算法在不均衡数据集下的分类性能,提出随机下采样与SMOTE算法结合的不均衡分类方法。该方法首先利用随机下采样对多数类样本进行采样,去除样本中大量重叠的冗余样本,使得在减少数据的同时保留更多有用信息;而对少数类样本则是利用SMOTE算法进行过采样。实验部分将其应用在UCI数据集中并同其他采样算法比较,结果表明文中算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高。  相似文献   

4.
基于改进SMOTE的不平衡数据挖掘方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题.但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率.  相似文献   

5.
针对处理不平衡数据集的分类问题,SMOTE通过在相邻样例间线性插值实现少数类样例过采样。但SMOTE插值的结果是样例密集的地方依然相对密集,样例稀疏的地方依然相对稀疏,影响分类性能。针对该问题本文提出一种基于聚类的过采样方法-C-SMOTE。该方法首先将少数类样例聚成多个簇,再以簇为单位结合SMOTE方法产生新样例。实验结果表明,C-SMOTE既保证了数据集整体分类准确率,又能提高少数类分类精度。  相似文献   

6.
<正>本文从过采样的角度对不平衡数据集进行了优化,从而改善了分类器在少数类样本中的预测准确率。为了量化边界样本学习的难易程度,引入分类硬度来求取边界样本所需要合成的样本数目,以实现更准确的过采样策略。从过采样角度,提出Ada SMOET算法实现边界样本的自适应取样,克服了原始的SMOTE算法不能按照样本的重要程度取样的缺点。实验结果表明,提出的Ada SMOET算法优于原SMOTE算法。  相似文献   

7.
电信用户欠费预测是一个不平衡数据集分类问题.针对传统支持向量机(SVM)对不均衡数据集中少数类检测精度低的问题,基于分类平面由边界样本的位置决定,提出了一种通过删除部分多数类边界样本的方法来改善传统SVM算法的不足,将该算法和其他几种算法在电信数据和多个不平衡UCI数据集上的实验结果进行对比,验证所提算法对少数类的检测精度和总体评价指标都有所提高.  相似文献   

8.
利用非合作博弈理论为概率过抽样合成的少数类数据决定其最可能的类标签,将数据中的非本类合成数据进行过滤,减少概率过抽样合成数据过程中产生的重叠数据,得到更高质量的少数类数据进而改善数据倾斜状况。实验分别以CART和SVM分类器建立模型,将本文提出的面向非平衡数据分类的概率过抽样过滤方法RACOG+F与原始概率过抽样方法分别在8个KEEL非平衡数据集上进行对比。实验表明,本文提出的方法在评价指标F-measure、G-mean和AUC上获得了较好的分类性能。  相似文献   

9.
基于密度敏感最大软间隔SVDD不均衡数据分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
陶新民  李晨曦  沈微  常瑞  王若彤  刘艳超 《电子学报》2018,46(11):2725-2732
为了提高传统支持向量域描述(C-SVDD)算法处理不均衡数据集的分类能力,提出一种基于密度敏感最大软间隔支持向量域描述(DSMSM-SVDD)算法.该算法通过对多数类样本引入相对密度来体现训练样本原始空间分布对求解最优分类界面的影响,通过在目标函数中增加最大软间隔正则项,使C-SVDD的分类边界向少数类偏移,进而提高算法分类性能.算法首先对每个多数类样本计算相对密度来反映样本的重要性,然后将训练样本输入到DSMSM-SVDD中实现数据分类.实验部分,讨论了算法参数间的关系及其对算法分类性能的影响,给出算法参数取值建议.最后通过与C-SVDD的对比实验,表明本文建议的算法在不均衡数据情况下的分类性能优于C-SVDD算法.  相似文献   

10.
徐婕  贺美美 《电子学报》2018,46(11):2660-2670
本文将样本为独立同分布的情形减弱为一致遍历马氏链的情形去研究了非平衡数据分类算法的泛化性能,提出了基于马氏抽样的SVM非平衡数据分类算法、基于马氏抽样的EDSVM非平衡数据分类算法和基于马氏抽样的SVM-WKNN非平衡数据分类算法.并用UCI数据库中的10个实际不平衡数据集进行数值实验,实验结果表明基于马氏抽样的上述三种算法的错分率均比基于随机抽样的对应算法的错分率要低,且上述三种算法中,基于马氏抽样的SVM-WKNN非平衡数据分类算法的泛化性能最好.  相似文献   

11.
陈雪娇  王攀  刘世栋 《电信科学》2015,31(12):83-89
通过深入研究网络类别不平衡的原因,选择SMOTE(synthetic minority over-sampling technique)过抽样方法对数据集进行预处理,并充分利用特征匹配高准确性的优点识别和分拣出SSL 加密流,进而利用基于互信息最大化的聚类方法和SVM分类方法进一步识别SSL加密应用,这种混合方法有效地结合了静态特征匹配和机器学习方法的优点,达到识别分类方法在准确性和识别速度的均衡。  相似文献   

12.
In pattern classification problems, the choice of variables to include in the feature vector is a difficult one. The authors have investigated the use of stepwise discriminant analysis as a feature selection step in the problem of segmenting digital chest radiographs. In this problem, locally calculated features are used to classify pixels into one of several anatomic classes. The feature selection step was used to choose a subset of features which gave performance equivalent to the entire set of candidate features, while utilizing less computational resources. The impact of using the reduced/selected feature set on classifier performance is evaluated for two classifiers: a linear discriminator and a neural network. The results from the reduced/selected feature set were compared to that of the full feature set as well as a randomly selected reduced feature set. The results of the different feature sets were also compared after applying an additional postprocessing step which used a rule-based spatial information heuristic to improve the classification results. This work shows that, in the authors' pattern classification problem, using a feature selection step reduced the number of features used, reduced the processing time requirements, and gave results comparable to the full set of features.  相似文献   

13.
刘云  肖雪  黄荣乘 《信息技术》2020,(5):28-31,36
特征选择是机器学习和数据挖掘中处理高维数据的初步步骤,通过消除冗余或不相关的特征来识别数据集中最重要和最相关的特征,从而提高分类精度和降低计算复杂度。文中提出混合蒙特卡罗树搜索特征选择算法(HMCTS),首先,根据蒙特卡罗树搜索方法迭代生成一个初始特征子集,利用ReliefF算法过滤选择前k个特征形成候选特征子集;然后,利用KNN分类器的分类精度评估候选特征,通过反向传播将模拟结果更新到迭代路径上所有选择的节点;最后,选择高精度的候选特征作为最佳特征子集。仿真结果表明,对比HPSO-LS和MOTiFS算法,HMCTS算法具有良好的可扩展性,且分类精度高。  相似文献   

14.
陈圣  熊钦 《电子设计工程》2012,20(18):142-144,147
为了实现对模式识别、信号处理等领域中数据的有效表达,提出了一种基于规范互信息和动态冗余信号识别技术的特征选择方法。该方法采用规范互信息对特征相关性和冗余性进行测量,并通过一种动态冗余信号识别技术在特征全集中进行冗余特征的筛选。分类实验结果表明所提特征选择方法性能优于典型的特征选择方法。  相似文献   

15.
针对网络流量分类过程中出现的类不平衡问题,该文提出一种基于加权对称不确定性(WSU)和近似马尔科夫毯(AMB)的特征选择算法。首先,根据类别分布信息,定义了偏向于小类别的特征度量,使得与小类别具有强相关性的特征更容易被选择出来;其次,充分考虑特征与类别间、特征与特征之间的相关性,利用加权对称不确定性和近似马尔科夫毯删除不相关特征及冗余特征;最后,利用基于相关性度量的特征评估函数以及序列搜索算法进一步降低特征维数,确定最优特征子集。实验表明,在保证算法整体分类精确率的前提下,算法能够有效提高小类别的分类性能。  相似文献   

16.
针对网络流量分类过程中出现的类不平衡问题,该文提出一种基于加权对称不确定性(WSU)和近似马尔科夫毯(AMB)的特征选择算法。首先,根据类别分布信息,定义了偏向于小类别的特征度量,使得与小类别具有强相关性的特征更容易被选择出来;其次,充分考虑特征与类别间、特征与特征之间的相关性,利用加权对称不确定性和近似马尔科夫毯删除不相关特征及冗余特征;最后,利用基于相关性度量的特征评估函数以及序列搜索算法进一步降低特征维数,确定最优特征子集。实验表明,在保证算法整体分类精确率的前提下,算法能够有效提高小类别的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号