共查询到18条相似文献,搜索用时 78 毫秒
1.
针对标记样本少的不平衡数据,提出一种基于证据理论和Biased-SVM的不平衡数据的半监督分类方法。该方法采用Biased-SVM为未标记样本加类别标签,并引入证据理论来提高标注的稳定性。通过在一些公共数据集上的实验结果表明,与其他方法相比,本文方法具有较高的数据集整体的G-mean值和小类的F-value值,并具有较高的稳定性。 相似文献
2.
基于样本投影分布的平衡不平衡数据集分类* 总被引:2,自引:0,他引:2
提出一种平衡不平衡数据集统一分类方法,首先得到训练样本基于支持向量机(SVM)超平面法线方向上的投影;再借助支持向量数据描述(SVDD)对训练样本投影分布进行描述;测试样本在此基础上实现分类。平衡或不平衡数据集都可采用相同的方法进行分类。实验表明该方法能够同时对平衡或不平衡数据集进行有效的分类。 相似文献
3.
4.
不平衡数据集问题从20年前就已经引起人们的重视, 提出的相关解决方法层出不穷. Mixup是这几年比较流行的数据合成方法, 其相关变体比比皆是, 但是针对不平衡数据集提出的Mixup变体寥寥无几. 本文针对不平衡数据集分类问题, 提出了Mixup的变体——Borderline-mixup, 其使用支持向量机选择边界样本, 增加边界样本在采样器中被采样的概率, 构建两个边界采样器, 替代了原有的随机采样器. 在14个UCI数据集以及CIFAR10长尾数据集上的实验结果表明, Borderline-mixup相比于Mixup在UCI数据集中都有提升, 最高能达到49.3%的提升, 在CIFAR10长尾数据集中, 也能达到3%–3.6%左右的提升. 显然, 我们提出的Mixup变体在不平衡数据集分类中是有效的. 相似文献
5.
社会发展的同时带来大量数据的产生,不平衡成为众多数据集的显著特点,如何使不平衡数据集得到更好的分类效果成为了机器学习的研究热点。基于此,对目前存在的不平衡数据集分类方法进行综述研究,从不平衡数据采样方法、基于机器学习的改进算法以及组合方法三个层面对目前存在的方法进行全面的梳理与总结,对各方面方法所解决的问题、算法思想、应用场景以及各自的优缺点进行归纳和分析,同时对不平衡数据集分类方法存在的问题和未来研究方向提出一些总结和展望。 相似文献
6.
不平衡分类的相关算法是机器学习领域的研究热点之一,其中的过采样通过重复抽取或者人工合成来增加少数类样本,以实现数据集的再平衡。然而当前的过采样方法大部分是基于原有的样本分布进行的,难以揭示更多的数据集分布特征。为了解决以上问题,首先,提出一种改进的半监督聚类算法来挖掘数据的分布特征;其次,基于半监督聚类的结果,在属于少数类的簇中选择置信度高的无标签数据(伪标签样本)加入原始训练集,这样做除了实现数据集的再平衡外,还可以利用半监督聚类获得的分布特征来辅助不平衡分类;最后,融合半监督聚类和分类的结果来预测最终的类别标签,从而进一步提高算法的不平衡分类性能。选择G-mean和曲线下面积(AUC)作为评价指标,将所提算法与TU、CDSMOTE等7个基于过采样或欠采样的不平衡分类算法在10个公开数据集上进行了对比分析。实验结果表明,与TU、CDSMOTE相比,所提算法在AUC指标上分别平均提高了6.7%和3.9%,在G-mean指标上分别平均提高了7.6%和2.1%,且在两个评价指标上相较于所有对比算法都取得了最高的平均结果。可见所提算法能够有效地提高不平衡分类性能。 相似文献
7.
王成强 《数字社区&智能家居》2009,(36)
文本自动分类是信息检索和数据挖掘领域的研究热点和核心技术,但是在实际应用中,经常会出现文本实例中一些类中欧冠的文本很多,而另一些类中的文本较少的情况,而这些应用往往就是为了预测其中很少出现但很重要的文本,这就是所谓的文本分类不平衡问题。传统方法对少数类的识别率低,如何有效的提高少数类的分类性能成为机器学习和模式识别领域亟待解决的问题。因此,该文针对提高不平衡数据集中的少数类文本的分类性能之一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在非平衡数据集上的泛化性能。 相似文献
8.
9.
基于不平衡数据集的文本分类技术研究 总被引:1,自引:0,他引:1
白凤凤 《电脑编程技巧与维护》2010,(6):21-22,29
文本自动分类是数据挖掘和信息检索的核心技术,也是研究热点。在实际的应用中,时常会出现文本数据量很大,但是对人们有用的信息仅占一小部分,这种某类样本数量明显少于其他类样本数量的数据就是不平衡数据集。不平衡数据集可以分类为少数类和多数类。传统方法对少数类的识别率比较低,如何有效地提高少数类的分类性能成为了模式识别和机器学习必须解决的问题。就提高不平衡数据集的少数类文本的分类性能问题,从数据层面处理角度对数据进行了重抽样,采用随机抽样的办法来提高分类器在不平衡数据集的泛化性能。 相似文献
10.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结... 相似文献
11.
针对非平衡数据分类问题,提出了一种改进的SVM-KNN分类算法,在此基础上设计了一种集成学习模型.该模型采用限数采样方法对多数类样本进行分割,将分割后的多数类子簇与少数类样本重新组合,利用改进的SVM-KNN分别训练,得到多个基本分类器,对各个基本分类器进行组合.采用该模型对UCI数据集进行实验,结果显示该模型对于非平衡数据分类有较好的效果. 相似文献
12.
13.
14.
传统的分类算法在对不平衡数据进行分类时,容易导致少数类被错分。为了提高少数类样本的分类准确度,提出了一种基于改进密度峰值聚类的采样算法IDP-SMOTE。首先,采用Box-Cox变换和σ准则对密度峰值聚类算法进行改进,实现了聚类中心和离群点的自动判别;然后,将改进的密度峰值聚类算法与SMOTE升采样算法相结合,去除噪声数据,并基于少数类样本的局部密度和邻近距离,在子类的范围内合成采样数据。该算法有效避免了升采样导致的边界模糊,改善了类内不平衡及边界样本难以学习的问题,同时实现了自动聚类和重采样,防止了人为因素干扰。通过实验对比,验证了提出算法的有效性和自适应性。 相似文献
15.
16.
17.
18.
针对基于拉普拉斯支持向量机(LapSVM)的半监督分类方法需要将全部无标记样本加入训练样本集中训练得到分类器,算法需要的时间和空间复杂度高,不能有效处理大规模图像分类的问题,提出了模糊C-均值聚类(FCM)预选取样本的LapSVM图像分类方法。该方法利用FCM算法对无标记样本聚类,根据聚类结果选择可能在最优分类超平面附近的无标记样本点加入训练样本集,这些样本可能是支持向量,携带对分类有用的信息,其数量只是无标记样本的一少部分,因此使训练样本集减小。计算机仿真结果表明该方法充分利用了无标记样本所蕴含的判别信息,有效地提高了分类器的分类精度,降低了算法的时间和空间复杂度。 相似文献