首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于改进SMOTE的不平衡数据挖掘方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
少类样本合成过采样技术(SMOTE)是一种新型的过采样方法,能够有效地处理不平衡数据分类问题.但SMOTE在产生合成样本的过程中,存在一定的盲目性.因此本文提出一种改进的过采样方法一自适应SMOTE,根据样本集内部分布特性,自适应调整SMOTE方法中近邻选择策略,控制合成样本的质量.算法分析和仿真结果表明,文中提出的方法在不影响计算复杂度的前提下,有效地提高了分类算法的整体分类准确率.  相似文献   

2.
基于随机下采样和SMOTE的不均衡SVM分类算法   总被引:2,自引:0,他引:2  
传统的支持向量机(SVM)算法在数据不均衡的情况下,分类效果很不理想。为了提高SVM算法在不均衡数据集下的分类性能,提出随机下采样与SMOTE算法结合的不均衡分类方法。该方法首先利用随机下采样对多数类样本进行采样,去除样本中大量重叠的冗余样本,使得在减少数据的同时保留更多有用信息;而对少数类样本则是利用SMOTE算法进行过采样。实验部分将其应用在UCI数据集中并同其他采样算法比较,结果表明文中算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高。  相似文献   

3.
胡峰  王蕾  周耀 《电子学报》2018,46(1):135-144
采样是解决不平衡数据分类问题的一个有效途径.文中结合三支决策理论,根据样本分布将样本划分成三个区域:正域、边界域和负域;在此基础上,分别对边界域和负域中的小类样本进行不同的过采样处理,提出了一种基于三支决策的不平衡数据过采样算法(TWD-IDOS算法).实验结果表明,在C4.5、KNN和CART等分类器上,文中提出的算法能有效解决不平衡数据的二分类问题,在Recall、F-value、AUC等指标上优于文献中的过采样算法.  相似文献   

4.
一种基于核SMOTE的非平衡数据集分类方法   总被引:7,自引:0,他引:7       下载免费PDF全文
曾志强  吴群  廖备水  高济 《电子学报》2009,37(11):2489-2495
 本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果.  相似文献   

5.
为了提高不平衡数据集分类中少数类的分类精度,提出了基于特征选择的过抽样算法.该算法考虑了不同的特征列对分类性能的不同作用,首先对训练集进行特征选择,选出一组特征列,然后根据选出的特征列合成少数类样本,合成的每个少数类样本的特征由两部分组成,一部分是特征选择的特征列对应的特征,另一部分是按照SMOTE原理合成的特征.将基于特征选择的过抽样算法和SMOTE算法进行实验比较,结果表明基于特征选择的过抽样算法的性能优于SMOTE算法,能有效降低数据的不平衡性,提高少数类的分类精度.  相似文献   

6.
《信息技术》2017,(1):5-8
文中针对不平衡数据导致分类结果倾斜现象,提出了一种结合SMOTE和GEPSVM的分类方法。该方法利用SMOTE过采样重构训练集,使训练集达到相对平衡,避免了重复样本数据带来的过学习问题,最后用GEPSVM进行分类学习。在UCI数据集上的实验证明了该算法在不平衡数据集上与传统的SVM算法相比有更好的分类效果,在计算时间上也有一定的优势。  相似文献   

7.
针对处理不平衡数据集的分类问题,SMOTE通过在相邻样例间线性插值实现少数类样例过采样。但SMOTE插值的结果是样例密集的地方依然相对密集,样例稀疏的地方依然相对稀疏,影响分类性能。针对该问题本文提出一种基于聚类的过采样方法-C-SMOTE。该方法首先将少数类样例聚成多个簇,再以簇为单位结合SMOTE方法产生新样例。实验结果表明,C-SMOTE既保证了数据集整体分类准确率,又能提高少数类分类精度。  相似文献   

8.
文中针对低温潮湿环境下风机易出现的叶片结冰现象,提出一种基于SMOTE的XGBoost算法对风机叶片结冰进行早期预测。首先,结合领域知识和Wrapper法对风机SCADA数据进行特征分析,评估各特征重要性;其次,对结冰数据进行SMOTE过采样,选择适合不平衡数据集的评估指标F1Score,G-mean作为模型评估指标;最后,基于XGBoost算法构建预测模型,利用网格搜索与学习曲线对模型参数进行优化,提高预测准确率。通过与AdaBoost算法进行比较,实验结果表明文中提出的方法在准确率和时间效率方面优于AdaBoost算法,有效解决了风机结冰预测问题。  相似文献   

9.
在样本数据中含有期望信号的情况下,正交投影波束形成算法将不再适用。文中提出一种新的正交投影波束形成改进算法,通过对样本采样数据进行预处理,阻塞掉样本采样数据中含有的期望信号分量,构造出新的样本采样数据协方差矩阵,在此基础上,实现正交投影算法。新算法与样本采样数据本身不舍期望信号的正交投影波束形成算法性能相当,而且对输出信干噪比有更快的收敛速度。计算机仿真和分析证明了该算法的可行性和有效性。  相似文献   

10.
翟云  王树鹏  马楠  杨炳儒  张德政 《电子学报》2014,42(7):1311-1319
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link & Distribution Density-SMOTE,OSLDD-SMOTE).OSLDD-SMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率.  相似文献   

11.
汽车零部件的齿轮装配过程中往往伴随着多种类型的故障,快速且精准地判断故障类型,对保证齿轮装配工位稳定运行具有重要意义。因此,提出一种基于SMOTE采样方法和随机森林(RF)分类方法的故障诊断模型——SMOTE-RF。首先,在实际齿轮装配过程中,故障数据是不平衡的,可以使用SMOTE算法生成平衡的故障数据;其次,将平衡后的数据作为随机森林算法的输入实现故障分类;最后,对模型进行性能评估。实验结果表明,SMOTE-RF模型的分类效果优于SVM和XGBoost。  相似文献   

12.
基于循环平稳PCA和AdaBoost的频谱感知算法   总被引:1,自引:1,他引:0  
针对无线信道环境中各低信噪比情况下主用户信号检测率较低的问题,提出一种基于循环平稳特征主成分分析和Ada Boost的主用户信号频谱感知算法。该算法首先对信号采用循环平稳PCA算法进行特征参数提取,获取信号主成分,并生成训练样本和待测样本,再采用Ada Boost算法分别对有无主用户情况下的信号进行分类检测。仿真实验表明,与人工神经网络和最大最小特征值算法相比较,所提算法在各低信噪比情况下,具有较高的分类检测性能,有效地实现了对主用户信号的感知。  相似文献   

13.
文章提出了在基于神经网络的指纹识别当中一种比较简单的取样方法。在生物学领域指纹样本包含了大量的数据。如果取指纹的部分样本,可以减少大量的数据,从而可以快速地进行数据处理,进而识别指纹信息。为了解决数据容量过大的问题,文章提出了棋盘取样算法。一个8×8的棋盘取样数据将用于神经网络的训练样本。它将减少神经网络50%的记忆程序。25%的指纹信息将用于神经网络以后的记忆和训练。首先用快速傅里叶变换或直方图算法增强指纹图像有效信息。然后二值化图像,并把样本用于人工神经网络的鉴定试验当中。最后用MATLAB仿真实现。  相似文献   

14.
一种基于过采样的单通道MPSK信号盲分离算法   总被引:5,自引:0,他引:5  
针对单通道接收两个MPSK混合信号的盲分离问题,该文提出了一种基于过采样的盲分离新算法。该算法基于最优贝叶斯估计准则,利用粒子滤波对发送的符号和一些参数进行序贯估计,从而实现了混合信号的分离。算法通过对接收信号的过采样,利用了更多的接收波形信息,有效地抑制了噪声的影响。仿真实验表明,新算法具有良好的误码率性能。该文同时还从极大似然的角度,对分离算法的性能进行了分析,给出了算法的误码率性能界。  相似文献   

15.
一种基于成对采样和选择性集成的隐写分析算法   总被引:1,自引:1,他引:0  
为了进一步提高隐写分析算法的检测精度,提出 了一种基于成对采样选择性集成的隐写分析算法。 从集成分类的特点和隐写分析的特殊性出发,分析了类内以及类间样本之间的联系,研究了 4种不同的采样策 略,并基于成对采样策略构建选择性集成分类器用于隐写分析。实验表明,不同采样策略能 不同程度地影响隐 写分析的检测性能;与现有隐写分析方法相比,本文算法能明显降低隐写分析系统的检测错 误率(BER)。  相似文献   

16.
内陆水体探测是遥感领域中的重要研究方向之一,涵盖河流形态变化监测、实时洪水监测和地表水变化分析等领域。支持向量机(Support Vector Machine, SVM)在非线性分类问题上表现优秀并且能够得到较低的错误率。提出了一种基于SVM的全球导航卫星系统反射(GNSS-R)信号内陆水体识别方法,使用星载GNSS-R信噪比(Signal to Noise Ratio, SNR)作为像素构建遥感图像,并应用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)进行数据处理。在此基础上,通过SVM模型的方式实现水体信息提取,并在刚果盆地区域的旋风全球导航卫星系统(Cyclone Global Navigation Satellite System, CYGNSS)数据进行了验证。结果表明,未进行SMOTE算法处理的分类准确率是65.1%,其中水体分类准确率5.39%,而经过SVM模型和SMOTE算法处理后,数据分类准确率提高至96.49%,水体分类准确率提高至96.32%,准确率和水体查准率都得到了提高,显示了利用基于S...  相似文献   

17.
针对当前聚类方法(例如经典的GN算法)计算复杂度过高、难以适用于大规模图的聚类问题,本文首先对大规模图的采样算法展开研究,提出了能够有效保持原始图聚类结构的图采样算法(Clustering-structure Representative Sampling,CRS),它能在采样图中产生高质量的聚类代表点,并根据相应的扩张准则进行采样扩张.此采样算法能够很好地保持原始图的内在聚类结构.其次,提出快速的整体样本聚类推断(Population Clustering Inference,PCI)算法,它利用采样子图的聚类标签对整体图的聚类结构进行推断.实验结果表明本文算法对大规模图数据具有较高的聚类质量和处理效率,能够很好地完成大规模图的聚类任务.  相似文献   

18.
空间频率在窄带DOA估计中的应用   总被引:1,自引:0,他引:1  
DOA估计子空间方法的本质是对阵列空间采样数据中空间频率的估计。本文从空间频谱分析的角度来实现这一估计。本文详细推导了DOA和采样数据空间频谱的关系,提出了两种便于工程实现的利用FFT估计空间频率,进而估计DOA的方法。本文方法运算量小,便于硬件实现,仿真结果证明了算法的有效性。  相似文献   

19.
支持向量机在大样本情况下训练速度慢,支持向量预选取可以解决这个问题.AdaBoost算法重点关注错分样本,而错分样本一般都处于分类边界,支持向量就由分类边界样本构成.因此,提出基于错分样本的AdaBoost支持向量预选取算法,该算法通过AdaBoost提升过程,使得越是容易被错分的样本权值越大,从而实现支持向量的预选取,通过仿真实验验证了算法的有效性.  相似文献   

20.
提出了一种基于2倍过采样的TDS-OFDM定时恢复算法,与基于4倍过采样的算法相比,降低了接收机的工作频率和复杂度。在多种信道下的仿真结果表明,提出的算法与基于4倍过采样的算法性能相当,可直接应用于TDS-OFDM系统中。本算法已成功应用于电力线通信系统中,实现了在20 MHz带宽的电力线信道上传输上百兆的数据率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号