共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
基于随机下采样和SMOTE的不均衡SVM分类算法 总被引:2,自引:0,他引:2
传统的支持向量机(SVM)算法在数据不均衡的情况下,分类效果很不理想。为了提高SVM算法在不均衡数据集下的分类性能,提出随机下采样与SMOTE算法结合的不均衡分类方法。该方法首先利用随机下采样对多数类样本进行采样,去除样本中大量重叠的冗余样本,使得在减少数据的同时保留更多有用信息;而对少数类样本则是利用SMOTE算法进行过采样。实验部分将其应用在UCI数据集中并同其他采样算法比较,结果表明文中算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高。 相似文献
3.
4.
本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果. 相似文献
5.
6.
7.
针对处理不平衡数据集的分类问题,SMOTE通过在相邻样例间线性插值实现少数类样例过采样。但SMOTE插值的结果是样例密集的地方依然相对密集,样例稀疏的地方依然相对稀疏,影响分类性能。针对该问题本文提出一种基于聚类的过采样方法-C-SMOTE。该方法首先将少数类样例聚成多个簇,再以簇为单位结合SMOTE方法产生新样例。实验结果表明,C-SMOTE既保证了数据集整体分类准确率,又能提高少数类分类精度。 相似文献
8.
《信息技术》2019,(12)
文中针对低温潮湿环境下风机易出现的叶片结冰现象,提出一种基于SMOTE的XGBoost算法对风机叶片结冰进行早期预测。首先,结合领域知识和Wrapper法对风机SCADA数据进行特征分析,评估各特征重要性;其次,对结冰数据进行SMOTE过采样,选择适合不平衡数据集的评估指标F1Score,G-mean作为模型评估指标;最后,基于XGBoost算法构建预测模型,利用网格搜索与学习曲线对模型参数进行优化,提高预测准确率。通过与AdaBoost算法进行比较,实验结果表明文中提出的方法在准确率和时间效率方面优于AdaBoost算法,有效解决了风机结冰预测问题。 相似文献
9.
10.
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link & Distribution Density-SMOTE,OSLDD-SMOTE).OSLDD-SMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率. 相似文献
11.
汽车零部件的齿轮装配过程中往往伴随着多种类型的故障,快速且精准地判断故障类型,对保证齿轮装配工位稳定运行具有重要意义。因此,提出一种基于SMOTE采样方法和随机森林(RF)分类方法的故障诊断模型——SMOTE-RF。首先,在实际齿轮装配过程中,故障数据是不平衡的,可以使用SMOTE算法生成平衡的故障数据;其次,将平衡后的数据作为随机森林算法的输入实现故障分类;最后,对模型进行性能评估。实验结果表明,SMOTE-RF模型的分类效果优于SVM和XGBoost。 相似文献
12.
基于循环平稳PCA和AdaBoost的频谱感知算法 总被引:1,自引:1,他引:0
针对无线信道环境中各低信噪比情况下主用户信号检测率较低的问题,提出一种基于循环平稳特征主成分分析和Ada Boost的主用户信号频谱感知算法。该算法首先对信号采用循环平稳PCA算法进行特征参数提取,获取信号主成分,并生成训练样本和待测样本,再采用Ada Boost算法分别对有无主用户情况下的信号进行分类检测。仿真实验表明,与人工神经网络和最大最小特征值算法相比较,所提算法在各低信噪比情况下,具有较高的分类检测性能,有效地实现了对主用户信号的感知。 相似文献
13.
14.
15.
16.
内陆水体探测是遥感领域中的重要研究方向之一,涵盖河流形态变化监测、实时洪水监测和地表水变化分析等领域。支持向量机(Support Vector Machine, SVM)在非线性分类问题上表现优秀并且能够得到较低的错误率。提出了一种基于SVM的全球导航卫星系统反射(GNSS-R)信号内陆水体识别方法,使用星载GNSS-R信噪比(Signal to Noise Ratio, SNR)作为像素构建遥感图像,并应用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)进行数据处理。在此基础上,通过SVM模型的方式实现水体信息提取,并在刚果盆地区域的旋风全球导航卫星系统(Cyclone Global Navigation Satellite System, CYGNSS)数据进行了验证。结果表明,未进行SMOTE算法处理的分类准确率是65.1%,其中水体分类准确率5.39%,而经过SVM模型和SMOTE算法处理后,数据分类准确率提高至96.49%,水体分类准确率提高至96.32%,准确率和水体查准率都得到了提高,显示了利用基于S... 相似文献
17.
针对当前聚类方法(例如经典的GN算法)计算复杂度过高、难以适用于大规模图的聚类问题,本文首先对大规模图的采样算法展开研究,提出了能够有效保持原始图聚类结构的图采样算法(Clustering-structure Representative Sampling,CRS),它能在采样图中产生高质量的聚类代表点,并根据相应的扩张准则进行采样扩张.此采样算法能够很好地保持原始图的内在聚类结构.其次,提出快速的整体样本聚类推断(Population Clustering Inference,PCI)算法,它利用采样子图的聚类标签对整体图的聚类结构进行推断.实验结果表明本文算法对大规模图数据具有较高的聚类质量和处理效率,能够很好地完成大规模图的聚类任务. 相似文献
18.
空间频率在窄带DOA估计中的应用 总被引:1,自引:0,他引:1
DOA估计子空间方法的本质是对阵列空间采样数据中空间频率的估计。本文从空间频谱分析的角度来实现这一估计。本文详细推导了DOA和采样数据空间频谱的关系,提出了两种便于工程实现的利用FFT估计空间频率,进而估计DOA的方法。本文方法运算量小,便于硬件实现,仿真结果证明了算法的有效性。 相似文献
19.
支持向量机在大样本情况下训练速度慢,支持向量预选取可以解决这个问题.AdaBoost算法重点关注错分样本,而错分样本一般都处于分类边界,支持向量就由分类边界样本构成.因此,提出基于错分样本的AdaBoost支持向量预选取算法,该算法通过AdaBoost提升过程,使得越是容易被错分的样本权值越大,从而实现支持向量的预选取,通过仿真实验验证了算法的有效性. 相似文献