共查询到15条相似文献,搜索用时 171 毫秒
1.
本文提出一种基于核SMOTE(Synthetic Minority Over-sampling Technique)的分类方法来处理支持向量机(SVM)在非平衡数据集上的分类问题.其核心思想是首先在特征空间中采用核SMOTE方法对少数类样本进行上采样,然后通过输入空间和特征空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练.实验表明,核SMOTE方法所合成的样本质量高于SMOTE算法,从而有效提高SVM在非平衡数据集上的分类效果. 相似文献
2.
3.
4.
5.
<正>本文从过采样的角度对不平衡数据集进行了优化,从而改善了分类器在少数类样本中的预测准确率。为了量化边界样本学习的难易程度,引入分类硬度来求取边界样本所需要合成的样本数目,以实现更准确的过采样策略。从过采样角度,提出Ada SMOET算法实现边界样本的自适应取样,克服了原始的SMOTE算法不能按照样本的重要程度取样的缺点。实验结果表明,提出的Ada SMOET算法优于原SMOTE算法。 相似文献
6.
针对处理不平衡数据集的分类问题,SMOTE通过在相邻样例间线性插值实现少数类样例过采样。但SMOTE插值的结果是样例密集的地方依然相对密集,样例稀疏的地方依然相对稀疏,影响分类性能。针对该问题本文提出一种基于聚类的过采样方法-C-SMOTE。该方法首先将少数类样例聚成多个簇,再以簇为单位结合SMOTE方法产生新样例。实验结果表明,C-SMOTE既保证了数据集整体分类准确率,又能提高少数类分类精度。 相似文献
7.
8.
9.
内陆水体探测是遥感领域中的重要研究方向之一,涵盖河流形态变化监测、实时洪水监测和地表水变化分析等领域。支持向量机(Support Vector Machine, SVM)在非线性分类问题上表现优秀并且能够得到较低的错误率。提出了一种基于SVM的全球导航卫星系统反射(GNSS-R)信号内陆水体识别方法,使用星载GNSS-R信噪比(Signal to Noise Ratio, SNR)作为像素构建遥感图像,并应用合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)进行数据处理。在此基础上,通过SVM模型的方式实现水体信息提取,并在刚果盆地区域的旋风全球导航卫星系统(Cyclone Global Navigation Satellite System, CYGNSS)数据进行了验证。结果表明,未进行SMOTE算法处理的分类准确率是65.1%,其中水体分类准确率5.39%,而经过SVM模型和SMOTE算法处理后,数据分类准确率提高至96.49%,水体分类准确率提高至96.32%,准确率和水体查准率都得到了提高,显示了利用基于S... 相似文献
10.
为了提高传统支持向量域描述(C-SVDD)算法处理不均衡数据集的分类能力,提出一种基于密度敏感最大软间隔支持向量域描述(DSMSM-SVDD)算法.该算法通过对多数类样本引入相对密度来体现训练样本原始空间分布对求解最优分类界面的影响,通过在目标函数中增加最大软间隔正则项,使C-SVDD的分类边界向少数类偏移,进而提高算法分类性能.算法首先对每个多数类样本计算相对密度来反映样本的重要性,然后将训练样本输入到DSMSM-SVDD中实现数据分类.实验部分,讨论了算法参数间的关系及其对算法分类性能的影响,给出算法参数取值建议.最后通过与C-SVDD的对比实验,表明本文建议的算法在不均衡数据情况下的分类性能优于C-SVDD算法. 相似文献
11.
非平衡数据集分类问题是机器学习领域的重大挑战性难题.针对该难题,传统的少数类样本合成技术(Synthetic Minority Over-Sampling Technique,SMOTE)已成为一种有力手段并得到广泛采用.但在新样本生成过程中,SMOTE利用所有少数类样本合成新样本,由此产生过拟合瓶颈.为更好地解决该问题,提出了一种基于单边选择链和样本分布密度的非平衡数据挖掘新方法(One-Sided Link & Distribution Density-SMOTE,OSLDD-SMOTE).OSLDD-SMOTE通过单边选择链遴选出处于分类边界的少数类样本,根据这些样本的动态分布密度生成新样本.进而分析了样本合成度对节点数目和对少数类精度的影响;基于G-mean、F-measure和AUC三个指标综合比较了OSLDD-SMOTE与其他同类方法的分类性能.实验结果表明,OSLDD-SMOTE有效提高了少数类样本的分类准确率. 相似文献
12.
针对标准支持向量机(SVM)识别非均衡数据往往会出现最优超平面倾向性和正类样本大量错分的现象,探讨SVM识别非均衡数据失效的原因及对策;考虑到SVM最优超平面仅由少量支持向量完全决定的特性,提出一种基于负类边界样本裁剪策略的SVM数学模型.鉴于该模型需经多次负类数据的"训练-裁剪"过程才能较好地识别正类样本且较为费时,以等效的一次性裁掉更多样本的裁截面技术作为替代,提出一种耦合负类样本裁剪与非对称错分惩罚的非均衡SVM算法,并利用改进正余弦优化算法优化裁剪偏移量以提高算法的非均衡数据处理能力.数值实验结果验证了裁剪偏移量的优化必要性、改进正余弦优化算法的较强优化性能和改进SVM算法对非均衡数据的较好识别性能. 相似文献
13.
支持向量机(SVM)的文本分类算法被广泛应用,其中序列最小优化算法(SMO)是它的一个特例。SMO算法使用了块与分解技术,简单并且容易实现,但是它的收敛较慢,迭代次数较多。解决的办法是改进SMO算法中工作集的选择算法,并更新步长因子,目的是为了使目标函数尽可能地下降。文中基于这个目标提出了改进的SMO算法来进一步提高SVM的训练速度和分类的准确程度。 相似文献
14.
15.
提出了一个基于支持向量机的医学图像分类器.能提取形状和纹理特征作为分类算法的特征输入,进行计算机辅助诊断.提出了一种支持向量机新算法,解决了当两类中的样本数量差别较大时,支持向量机的分类能力将会下降的问题.实验表明,在小样本、两类样本数量严重不均衡的情况下,该算法有着较强的分类能力,可以极大地提高医学图像分类的效率和准确性. 相似文献