首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
为了提高不平衡数据集分类中少数类的分类精度,提出了基于特征选择的过抽样算法.该算法考虑了不同的特征列对分类性能的不同作用,首先对训练集进行特征选择,选出一组特征列,然后根据选出的特征列合成少数类样本,合成的每个少数类样本的特征由两部分组成,一部分是特征选择的特征列对应的特征,另一部分是按照SMOTE原理合成的特征.将基于特征选择的过抽样算法和SMOTE算法进行实验比较,结果表明基于特征选择的过抽样算法的性能优于SMOTE算法,能有效降低数据的不平衡性,提高少数类的分类精度.  相似文献   

2.
一种基于核SMOTE的非平衡数据集分类方法   总被引:7,自引:0,他引:7       下载免费PDF全文
曾志强  吴群  廖备水  高济 《电子学报》2009,37(11):2489-2495
 本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果.  相似文献   

3.
基于改进SMOTE的不平衡数据挖掘方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题.但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率.  相似文献   

4.
针对处理不平衡数据集的分类问题,SMOTE通过在相邻样例间线性插值实现少数类样例过采样。但SMOTE插值的结果是样例密集的地方依然相对密集,样例稀疏的地方依然相对稀疏,影响分类性能。针对该问题本文提出一种基于聚类的过采样方法-C-SMOTE。该方法首先将少数类样例聚成多个簇,再以簇为单位结合SMOTE方法产生新样例。实验结果表明,C-SMOTE既保证了数据集整体分类准确率,又能提高少数类分类精度。  相似文献   

5.
基于随机下采样和SMOTE的不均衡SVM分类算法   总被引:2,自引:0,他引:2  
传统的支持向量机(SVM)算法在数据不均衡的情况下,分类效果很不理想。为了提高SVM算法在不均衡数据集下的分类性能,提出随机下采样与SMOTE算法结合的不均衡分类方法。该方法首先利用随机下采样对多数类样本进行采样,去除样本中大量重叠的冗余样本,使得在减少数据的同时保留更多有用信息;而对少数类样本则是利用SMOTE算法进行过采样。实验部分将其应用在UCI数据集中并同其他采样算法比较,结果表明文中算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高。  相似文献   

6.
<正>本文从过采样的角度对不平衡数据集进行了优化,从而改善了分类器在少数类样本中的预测准确率。为了量化边界样本学习的难易程度,引入分类硬度来求取边界样本所需要合成的样本数目,以实现更准确的过采样策略。从过采样角度,提出Ada SMOET算法实现边界样本的自适应取样,克服了原始的SMOTE算法不能按照样本的重要程度取样的缺点。实验结果表明,提出的Ada SMOET算法优于原SMOTE算法。  相似文献   

7.
基于密度敏感最大软间隔SVDD不均衡数据分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
陶新民  李晨曦  沈微  常瑞  王若彤  刘艳超 《电子学报》2018,46(11):2725-2732
为了提高传统支持向量域描述(C-SVDD)算法处理不均衡数据集的分类能力,提出一种基于密度敏感最大软间隔支持向量域描述(DSMSM-SVDD)算法.该算法通过对多数类样本引入相对密度来体现训练样本原始空间分布对求解最优分类界面的影响,通过在目标函数中增加最大软间隔正则项,使C-SVDD的分类边界向少数类偏移,进而提高算法分类性能.算法首先对每个多数类样本计算相对密度来反映样本的重要性,然后将训练样本输入到DSMSM-SVDD中实现数据分类.实验部分,讨论了算法参数间的关系及其对算法分类性能的影响,给出算法参数取值建议.最后通过与C-SVDD的对比实验,表明本文建议的算法在不均衡数据情况下的分类性能优于C-SVDD算法.  相似文献   

8.
李睿  丁要军 《通信技术》2023,(2):175-182
在网络流量分类中,各协议类别之间样本分类不平衡,从而导致训练的模型泛化能力差、识别准确率低。为此,提出了一种在生成对抗网络中添加通道注意力机制的方法(AttentionGAN),来进行数据增强,对样本较少的协议进行扩充。该方法首先将原始流量数据报存储(Packet Capture,PCAP)数据按照流为单位进行切分、填充,并生成灰度图;其次使用AttentionGAN方法对数据集进行扩充;最后在公开数据集ISCX VPN-nonVPN和USTC-TFC2016上使用NIN、LeNet和VGG16模型对原始数据集和平衡后的数据集进行分类测试。实验结果表明,基于AttentionGAN的平衡方法在精确度、召回率、F1这3个指标上均优于过采样(Synthetic Minority Oversampling Technique,SMOTE)、生成对抗网络(Generative Adversarial Networks,GAN)和沃瑟斯坦生成式对抗网络(Wasserstein GAN,WGAN)平衡方法。  相似文献   

9.
不平衡数据是监督学习中的一个挑战性问题。传统的分类器通常偏向多数类,忽略了少数类,而少数类样本往往包含很多重要信息,需要得到更多的关注。针对此问题,提出了一种基于密度峰值聚类算法的过采样技术(An Oversampling Technique based on Density Peak Clustering, DPCOTE)。DPCOTE的主要思想是:(1)利用k近邻算法去除多数类和少数类噪声样本;(2)基于密度峰值聚类算法(Density peaks clustering algorithm, DPC)中的2个重要因子,即样本局部密度和样本到局部密度较高的最近邻的距离,来为每个少数类样本分配采样权重;(3)对于DPC算法中涉及到的距离,使用马氏距离来度量,以消除样本特征量纲不一致问题。最后,在12个UCI数据集上进行了对比实验,用不同的指标评价分类结果,结果表明本文提出的算法在处理不平衡分类问题时优于其它过采样方法。  相似文献   

10.
电信用户欠费预测是一个不平衡数据集分类问题.针对传统支持向量机(SVM)对不均衡数据集中少数类检测精度低的问题,基于分类平面由边界样本的位置决定,提出了一种通过删除部分多数类边界样本的方法来改善传统SVM算法的不足,将该算法和其他几种算法在电信数据和多个不平衡UCI数据集上的实验结果进行对比,验证所提算法对少数类的检测精度和总体评价指标都有所提高.  相似文献   

11.
由于支持向量机( Support Vector Machine,SVM)在处理样本不平衡分布时会有偏向性,使少数类别的分类错误率的上界高于多数样本类别。分析总结了针对该问题当前的研究方法,并指出存在问题。研究分析针对不平衡样本SVM分类识别率的倾向性问题。考虑全局样本信息,提出了3种针对所有样本空间分布距离信息的方法。在UCI数据集上进行实验,结果证明MSEDR-SVM( Mean Sample Euclidean Distance Ra?tio-SVM)能够有效增加少数样本类别的F -值。从而改善标准的SVM只依靠支持向量样本构建分类超平面的局限性。  相似文献   

12.
类间间隔和类内聚类性是影响分类器分类性能的两种重要因素.基于模糊支持向量机和总间隔思想,提出一种基于总间隔的模糊v-相对间隔机(TMF-vRMM),本方法本质上是传统相对间隔机(RMM)的扩展,但可取得比RMM更好的分类性能.TMF-vRMM通过使用差异成本和引入总间隔和模糊隶属度,同时解决了不平衡训练样本问题和传统软间隔分类机RMM的过拟合问题,显著提升学习机的泛化能力.分别采用人造和实际数据集进行分类实验,结果显示TMF-vRMM具有优于相关方法的稳定分类性能.  相似文献   

13.
Xu  Lizhong  Zhao  Jia  Yao  Zhanfeng  Shi  Aiye  Chen  Zhe 《Journal of Signal Processing Systems》2019,91(10):1219-1236

Rodriguez et al. published an algorithm called clustering by fast search and find of density peaks (DPC) in Science in June 2014. It can quickly search the density peaks and cluster the datasets efficiently. However, there are some drawbacks. First, the local density definition is simple for the datasets with both dense clusters and sparse clusters; the density peaks cannot be found correctly using the two local density definition methods. Second, there is poor assignment fault tolerance, if a point is misallocated, the subsequent assignment will further amplify the error, which will have a serious impact on the clustering results. To solve the problems, a new clustering method, density peak clustering based on cumulative nearest neighbors degree and micro cluster merging, is proposed. The proposed method improves the DPC algorithm in two ways, the one is that the method defines a new local density to solve the defect of the DPC algorithm; the other one is that the graph degree linkage is combined with the DPC to alleviate the problem of distribution errors. The experiments on synthetic and real-world datasets show that the proposed method outperforms DPC, DBSCAN, OPTICS, AP, K-Means and other DPC variant algorithms.

  相似文献   

14.
在偏标记学习中,示例的真实标记隐藏在由一组候选标记组成的标记集中。现有的偏标记学习算法在衡量示例之间的相似度时,只基于示例的特征进行计算,缺乏对候选标记集信息的利用。该文提出一种候选标记感知的偏标记学习算法(CLAPLL),在构建图的阶段有效地结合候选标记集信息来衡量示例之间的相似度。首先,基于杰卡德距离和线性重构,计算出各个示例的标记集之间的相似度,然后结合示例相似度和标记集的相似度构建相似度图,并通过现有的基于图的偏标记学习算法进行学习和预测。3个合成数据集和6个真实数据集上实验结果表明,该文方法相比于基线算法消歧准确率提升了0.3%~16.5%,分类准确率提升了0.2%~2.8%。  相似文献   

15.
针对实际工程应用中由于滚动轴承故障状态出现的时间很短而导致数据集不平衡难以采用深度学习算法进行故障诊断的问题,提出了一种基于Wasserstein距离的梯度惩罚生成对抗网络(WGAN GP)和基于支持向量机分类的卷积神经网络(CNN SVM)相结合的滚动轴承故障红外诊断方法。从红外热像图中构建不平衡数据集,通过采用WGAN GP对不平衡数据扩充以达到数据集均衡,之后将CNN SVM模型应用于数据集,提取样本深度特征完成故障分类。实验表明,WGAN GP与CNN SVM相结合的模型在不平衡数据集下表现良好,相较于其他模型有更好的故障诊断能力,并且在故障分类阶段的用时可减少1689以上。  相似文献   

16.
This paper discusses two important issues of corpus‐based synthesis: synthesis unit generation based on phrase break strength information and pruning redundant synthesis unit instances. First, the new sentence set for recording was designed to make an efficient synthesis database, reflecting the characteristics of the Korean language. To obtain prosodic context sensitive units, we graded major prosodic phrases into 5 distinctive levels according to pause length and then discriminated intra‐word triphones using the levels. Using the synthesis unit with phrase break strength information, synthetic speech was generated and evaluated subjectively. Second, a new pruning method based on weighted vector quantization (WVQ) was proposed to eliminate redundant synthesis unit instances from the synthesis database. WVQ takes the relative importance of each instance into account when clustering similar instances using vector quantization (VQ) technique. The proposed method was compared with two conventional pruning methods through objective and subjective evaluations of synthetic speech quality: one to simply limit the maximum number of instances, and the other based on normal VQ‐based clustering. For the same reduction rate of instance number, the proposed method showed the best performance. The synthetic speech with reduction rate 45% had almost no perceptible degradation as compared to the synthetic speech without instance reduction.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号