首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题.  相似文献   

2.
《软件》2016,(7):75-79
不平衡数据集的分类问题是现今机器学习的一个热点问题。传统分类学习器以提高分类精度为准则导致对少数类识别准确率下降。本文首先综合描述了不平衡数据集分类问题的研究难点和研究进展,论述了对分类算法的评价指标,进而提出一种新的基于二次随机森林的不平衡数据分类算法。首先,用随机森林算法对训练样本学习找到模糊边界,将误判的多数类样本去除,改变原训练样本数据集结构,形成新的训练样本。然后再次使用随机森林对新训练样本数据进行训练。通过对UCI数据集进行实验分析表明新算法在处理不平衡数据集上在少数类的召回率和F值上有提高。  相似文献   

3.
用于不平衡数据分类的FE-SVDD算法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的支持向量数据描述(SVDD)算法在解决不平衡数据集问题时通常存在有偏性。针对该问题,在研究PCA特征提取技术和SVDD分类理论的基础上,提出一种用于平衡数据分类的FE-SVDD算法。该方法对2类样本数据进行主成分分析,分别求出主要特征值,根据样本容量及特征值对SVDD中的 值重新定义。在人工样本集和UCI数据集上进行实验,结果验证了该方法的有效性。  相似文献   

4.
数据增强是解决数据集不平衡的有效方法,针对现有的数据增强方法存在生成样本越界和随机性差的问题,提出一种基于最大最小距离的多中心数据增强方法MCA。通过计算所有样本的加权密度,减少离群点对最终分类结果的影响,同时将抽样方法与最大最小距离算法相结合选择最优的数据,生成多中心点集,避免生成结果出现样本类别越界的情况,从而拓展样本数据的多样性,并且降低时间复杂度。在此基础上,根据样本的相似性构建权重函数,计算加权平均生成新的样本,解决原有数据集不平衡的问题。在SwedishLeaf数据集和实测数据集上进行实验,结果表明,相比SMOTE、Easy Ensemble、RR等方法,该方法的精确率和召回率均提高了1.17%以上,F1值提高了2%以上,能够有效提高泛化能力,在少数类和多数类样本不平衡率较高的情况下具有较优的分类性能。  相似文献   

5.
电信流失客户数据精确预测是挽留客户的有效手段.电信业的管理中对收费、投诉、业务受理等问题,显然是一种典型的非平衡样本,传统用标准的支持向量机没有考虑样本分布不平衡问题,虽然在样本数据平衡前提下具有较好的预测精度,但对于不平衡电信客户数据,预测精度大大下降.为提高预测精度,针对支持向量机处理不平衡样本时的缺陷,提出了基于代价敏感学习的支持向量机模型.模型利用代价敏感学习对不平衡样本集分别采用不同惩罚系数,然后建立电信客户流失预测模型,最后对实际电信客户流失数据进行测试.通过与标准支持向量机、神经网络对比,结果表示模型提高了预测精度,有效地解决了数据集非平衡性问题,是一种有效的电信客户流失预测方法.  相似文献   

6.
杨婷  孟相如  温祥西  伍文 《计算机应用》2013,33(9):2553-2556
针对支持向量机(SVM)训练不平衡样本数据产生最优分类面的偏移会降低分类模型泛化性的问题,提出一种基于Fisher类内散度平均分布比的分类面修正方法。对样本数据进行SVM训练后获得分类面的法向量;通过计算两类样本在该法向量方向上的Fisher类内散度来评价这两类样本的分布情况;依据类内散度综合考虑样本个数所得到的平均分布比重新修正最优分类面的位置。在benchmarks数据集上的实验结果说明该方法能够提高SVM分类模型在处理不均衡数据集时对于少数类的识别率,从而有助于提高模型的泛化性。  相似文献   

7.
基于深度卷积神经网络的目标检测算法已成为目标检测领域中的研究热点,它包括基于区域提议的两阶段目标检测算法和基于位置回归的一阶段目标检测算法。Faster R-CNN是两阶段目标检测的典型算法之一,但是,训练数据集中简单样本-〖KG-*8〗难分样本数量不平衡,以及样本数据的类间不平衡,都是影响Faster R-CNN检测精度的重要原因。本文提出一种基于可变权重损失函数Focal Loss和难例挖掘模块的改进Faster R-CNN算法。具体地,在网络的分类部分引入Focal Loss函数,通过权重调节样本数据的类间不平衡,改善简单样本-〖KG-*8〗难分样本的数量不平衡;同时,修改网络结构,引入难例挖掘模块,进一步平衡简单样本-〖KG-*8〗难分样本的数量,提高网络的检测性能。本文采用不同数据集,不同基础网络来测试提出的算法性能。实验结果表明,在VGG-16基础网络下,本文算法在Pascal VOC 2007数据集上平均检测精度较原算法提高了0.9个百分点,在Pascal VOC 07+12数据集上提高了1.7个百分点;在Res-101基础网络上,在Pascal VOC 2007数据集上平均检测精度较原算法提高了1.3个百分点,在Pascal VOC 07+12数据集上提高了1.5个百分点。  相似文献   

8.
韩芳  孙立民 《福建电脑》2014,(12):16-18
支持向量机在分类平衡样本集时的分类效果非常好,但是对不平衡样本集的分类效果并不理想。仔细分析样本集不平衡的原因,一是数量上的不平衡,二是样本点的空间重合。本文综合考虑数量和空间重合度这两点提出了改良式欠采样算法,降低样本集空间重合度和数量上的不平衡。通过仿真结果可以看出,本文的算法对不平衡样本集的分类效果较好。  相似文献   

9.
点云被广泛使用在各种三维应用场景中,但是实际应用中通常存在扫描、标注费时费力等局限性,因此基于小样本数据集的点云分类网络更加符合应用需求.为了有效地提高深度学习分类算法在小样本点云数据集上的分类效果,提出一种针对小样本数据集的点云分类方法.针对训练数据集不平衡问题,首先采用基于相似度依赖的Dirichlet中餐馆过程对数据集进行预处理,在无需人工指定聚类个数的前提下对样本进行重新聚类,以提升分类网络在小样本数据集上的性能;然后在重新聚类后的样本上使用模型无关(model agnostic meta learning, MAML)算法训练PointNet++,达到用少量点云样本就能快速适应新任务的能力.所提方法不但降低了模型对数据量的依赖,提高了模型泛化能力,而且成功地把MAML算法从二维图像分类拓展到三维点云分类中;在Modelnet40数据集上的实验结果表明,与PointNet++相比,该方法的训练时间减少了一半,分类准确率平均提高6.67%,验证了该方法在小样本数据集上的有效性.  相似文献   

10.
网络入侵数据是一种典型的非平衡数据,小类样本常被大类样本"淹没"。本文针对网络入侵检测的非平衡数据集,对SVM-RFE特征选择算法进行了改进。通过将大类样本数据聚类成N份数量与小类样本相当的数据集,并分别与小类样本组合成N个新的训练数据集,在此基础上使用SVM-RFE算法,并利用SVM进行分类。通过在KDD CUP99入侵检测数据集上的实验,验证了本方法的有效性。  相似文献   

11.
针对因设备健康状态样本数据不均衡严重影响对健康状态预测效果的问题,提出基于混合采样实现数据均衡、改善预测效果的思路,设计了基于混合采样方法的样本数据平衡流程。通过采用Borderline-SMOTE算法补充少数类样本数量,利用改进K-means算法对多数类样本进行删除,将冗余数据剔除后,形成较为均衡的数据集提供给分类器。实验数据显示,无论是对数据进行欠采样还是过采样,均可提升评价指标AUC和G-mean;采用混合采样对数据进行平衡,评价指标改善更加明显。结果表明,本方法可以明显提升设备健康状态的预测效果,对装备管理部门实现精准维修具有重要的参考价值。  相似文献   

12.
针对传统聚类算法在小样本数据集上聚类效果不理想的问题,该文提出了一种基于高斯分布随机样本生成的小样本聚类算法。该算法首先对小样本数据中的每一个样本,构造高斯分布。然后根据该高斯分布在原始样本周围生成一定数目的高斯随机样本,并在随机样本的辅助下进行聚类。最后将随机样本去除得到最终的聚类结果。在UCI标准数据集上的仿真实验,显示本文算法较传统聚类算法具有更好的小样本聚类效果。  相似文献   

13.
采样技术与ELM分类算法进行结合可提高少数类样本的分类精度,但现有的大多数结合ELM的采样方法并未考虑到样本的不平衡程度及样本内部的分布情况,采样技术过于单一,导致分类模型的效率低下,少数类样本的识别率不高。针对此问题,提出了一种基于DPC聚类的重采样技术结合ELM的不平衡数据分类算法,首先根据数据集的不平衡程度分2种情况构建一个混合采样模型来平衡数据集;然后在此模型上运用DPC聚类算法分别对多数类样本和少数类样本进行分析处理,解决数据中存在的类内不平衡和噪声问题,使得2类样本相对均衡;最后使用ELM分类算法对得到的数据集进行分类。实验结果表明,与同类型分类算法进行比较,所提算法的2个分类性能指标在实验数据集上都有明显提升。  相似文献   

14.
针对小数据集条件下的贝叶斯网络(Bayesian network,BN)参数估计困难问题,提出了一种基于变权重迁移学习(DWTL)的BN参数学习算法。首先,利用MAP和MLE方法学习得到目标域初始参数和各源域参数;然后根据不同源域数据样本贡献的不同计算源权重因子;接着基于目标域样本统计量与小数据集样本阈值的关系设计了目标域初始参数和源域参数的平衡系数;最后,基于上述参数、源权重因子和平衡系数计算得到新的目标参数。在实验研究中,通过对经典BN模型的参数学习问题验证了DWTL算法的有效性;针对小数据集下的轴承故障诊断问题,相较于传统迁移学习(LP)算法,DWTL算法学习精度提高了10%。实验结果表明:所提出的算法能够较好地解决样本数据集在相对稀缺条件下的目标参数建模问题。  相似文献   

15.
小样本学习是面向小样本数据的机器学习,旨在利用较少的有监督样本数据去构建能够解决实际问题的机器学习模型。小样本学习能够解决传统机器学习方法在样本数据不充分时性能严重下降的问题,可以为新型小样本任务实现低成本和快速的模型部署,缩小人类智能与人工智能之间的距离,对推动发展通用型人工智能具有重要意义。从小样本学习的概念、基础模型和实际应用入手,系统梳理当前小样本学习的相关工作,将小样本学习方法分类为基于模型微调、基于数据增强、基于度量学习和基于元学习,并具体阐述这4大类方法的核心思想、基本模型、细分领域和最新研究进展,以及每一类方法在科学研究或实际应用中存在的问题,总结目前小样本学习研究的常用数据集和评价指标,整理基于部分典型小样本学习方法在Omniglot和Mini-ImageNet数据集上的实验结果。最后对各种小样本学习方法及其优缺点进行总结,分别从数据层面、理论研究和应用研究3个方面对小样本学习的未来研究方向进行展望。  相似文献   

16.
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。  相似文献   

17.
为提高不平衡数据集的分类效率,建立一种分类模型,从样本采样和分类算法两方面进行优化。对决策边界的少类样本进行循环过采样生成新样本集,并与决策边界外合成的少类样本集合并,提高样本的重要度。针对传统ε-支持向量机(ε-SVM)在对不平衡数据集分类时超平面偏移的问题,引入正负惩罚系数和混合核函数,并利用客观的熵值法选取惩罚系数,提高分类算法的性能。实验结果表明,与标准的SVM算法相比,该分类模型在不平衡数据集分类上F-measure值平均提高18.1%,具有较好的分类效果。  相似文献   

18.
在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制等问题.文中通过对大类样本聚类后,多次采用弱平衡准则对每个集群进行降采样,使选择的大类样本与原训练集的小类样本融合生成多个新的不平衡数据集,用于代价敏感决策树的训练.由此提出基于聚类的弱平衡代价敏感随机森林算法,不仅使小类样本得到充分学习,同时通过降低大类样本数量,保证代价敏感机制受其影响较小.实验表明,文中算法在处理高度不平衡数据集时性能较优.  相似文献   

19.
针对软件缺陷预测中的样本集数量少和分布不对称问题,提出一种基于均衡有偏支持向量机的软件缺陷预测方法。该方法通过标记样本集和未标记样本集进行半监督学习,在少量非对称的标记样本集上,利用有偏支持向量机进行泛化学习。在半监督学习的迭代过程中,采用重采样策略平衡样本集以消除大量不对称的未标记样本集对软件缺陷预测的性能影响。在基准数据集上的实验结果表明,该方法能够有效地对类别不均衡的样本集进行软件缺陷预测。  相似文献   

20.
软件缺陷预测有助于提高软件开发质量,保证测试资源有效分配。针对软件缺陷预测研究中类标签数据难以获取和类不平衡分布问题,提出基于采样的半监督支持向量机预测模型。该模型采用无监督的采样技术,确保带标签样本数据中缺陷样本数量不会过低,使用半监督支持向量机方法,在少量带标签样本数据基础上利用无标签数据信息构建预测模型;使用公开的NASA软件缺陷预测数据集进行仿真实验。实验结果表明提出的方法与现有半监督方法相比,在综合评价指标[F]值和召回率上均优于现有方法;与有监督方法相比,能在学习样本较少的情况下取得相当的预测性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号