首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
针对现有行人检测算法未考虑正负样本非均衡性及分类器间所需的差异性的不足,提出一种同时考虑分类器多样性及正负样本非均衡性的行人检测算法.首先,在分类器中引入代价敏感的思想,通过设置适宜的代价敏感参数值,使分类器更加关注数量较少且更为重要的行人正样本;进而,通过动态调整对分类算法性能影响较大的核函数参数σ的选择,形成一组相互间有差异且分类性能适度精确的一组分类器,并对分类器之间的相似度进行对比,剔除相似度高的分类器;最后,将剩余分类器级联组合.实验证明,和经典算法相比,提出的算法有利于提高行人检测精度,且虚警率更低.  相似文献   

2.
万建武  杨明  陈银娟 《电子学报》2012,40(7):1410-1415
代价敏感学习是机器学习领域的一个研究热点.在实际应用中,数据集往往是不平衡的,存在着大量的无标签样本,只有少量的有标签样本,并且存在噪声.虽然针对该情况的代价敏感学习方法的研究已取得了一定的进展,但还需要进一步的深入研究.为此,本文提出了一种基于代价敏感的半监督Laplacian支持向量机.该模型在采用无标签扩展策略的基础上,将考虑了数据不平衡的错分代价融入到Laplacian支持向量机的经验损失和Laplacian正则化项中.考虑到噪声样本对决策平面的影响,本文定义了一种样本依赖的代价,对噪声样本赋予较低的权重.在7个UCI数据集和8个NASA软件数据集上的实验结果表明了本文算法的有效性.  相似文献   

3.
胡正平  赵淑欢  彭燕  王宁 《信号处理》2014,30(8):891-900
针对如何将近邻、子空间学习与稀疏表示结合起来解决稀疏分类计算量较大的问题。由于子空间中样本的类内散度小,类间散度大,且同类中所有样本对重构的影响相似,因此按类而非样本处理的思想更符合基于类重构误差进行分类的算法要求,为此提出一种基于近邻类加权结构稀疏表示算法用于图像识别。该算法首先利用线性类重构误差选取 个最近邻类,并将其对应的系数作为权值对投影后的近邻类加权,其次在投影子空间上,用 个类的加权训练样本集对测试样本进行结构稀疏表示,最后根据最小类重构误差得出分类结果。在AR,Yale B,MNIST,PIE数据库上的实验结果表明该方法在训练样本数较少的情况下获得较高的识别率且具有一定的鲁棒性。   相似文献   

4.
《现代电子技术》2019,(9):118-122
针对朴素贝叶斯分类器存在对非均衡样本分类时,易将少数类样本分到多数类的问题,利用感受性曲线的性质和深度特征加权的思想,提出一种面向非均衡数据类的朴素贝叶斯加权算法(DA-WNB)。为了验证该算法对不平衡数据分类的有效性,实验结果以AUC、真正类率、整体精度为指标,仿真结果表明,该算法能提高少数类分类准确率(最高达60%),且能保持较高的整体精度。  相似文献   

5.
针对辐射源个体识别(SEI)中样本标签不完整和数据类别分布不平衡导致分类准确率下降的问题,该文提出了一种基于代价敏感学习和半监督生成式对抗网络(GAN)的特定辐射源分类方法。该方法通过半监督训练方式优化生成器和判别器的网络参数,并向残差网络中添加多尺度拓扑模块融合时域信号的多维分辨率特征,赋予生成样本额外标签从而直接利用判别器完成分类。同时设计代价敏感损失缓解优势样本导致的梯度传播失衡,改善分类器在类不平衡数据集上的识别性能。在4类失衡仿真数据集上的实验结果表明,存在40%无标记样本的情况下,该方法对于5个辐射源的平均识别率相比于交叉熵损失和焦点损失分别提高5.34%和2.69%,为解决数据标注缺失和类别分布不均条件下的特定辐射源识别问题提供了新思路。   相似文献   

6.
随机森林是近些年发展起来的新集成学习算法,具有较好的分类准确率。针对该算法计算复杂度较高的不足,提出了一种基于谱聚类划分的随机森林算法。首先,利用聚类效果较好的谱聚类算法对原始样本集的每一类进行聚类处理。然后,在每一聚类簇中随机选取一个样本作为代表,组成新训练样本集合。最后,在新训练样本集上训练随机森林分类器。该算法通过谱聚类技术对原始样本进行了初步划分,将位置相近的多个样本用簇内的一个样本代表,较大程度地减少了训练样本的个数。在Corel Image图像识别数据集上的实验表明,算法可以用较少的分类时间达到较高的分类精度。  相似文献   

7.
入侵检测问题可以模型化为数据流分类问题,传统的数据流分类算法需要标注大量的训练样本,代价昂贵,降低了相关算法的实用性。在PU学习算法中,仅需标注部分正例样本就可以构造分类器。对此本文提出一种动态的集成PU学习数据流分类的入侵检测方法,只需要人工标注少量的正例样本,就可以构造数据流分类器。在人工数据集和真实数据集上的实验表明,该方法具有较好的分类性能,在处理偏斜数据流上优于三种PU 学习分类方法,并具有较高的入侵检测率。  相似文献   

8.
为充分利用高光谱影像中蕴含的空谱特征,提出了一种半监督空谱局部判别分析的高光谱影像特征提取算法(S4LFDA)。鉴于高光谱数据集具有空间一致性,首先将像元进行空间重构,保存高光谱数据的近邻关系;其次引入光谱信息散度重构像元间的相似度;为了充分利用大量无标签样本提高算法性能,采用模糊C均值聚类算法对样本进行聚类分析得到伪标签;然后通过增加规范化项到局部力导引算法(FDA)的类内散度矩阵和类间散度矩阵中,以此保持无标签样本的聚类结构一致性;最后通过局部FDA算法来保持有标签样本类间散度最大化和类内散度最小化并求解最佳投影向量。S4LFDA算法既保持了数据集在光谱域的可分性,又保持了像元在空间区域内的近邻关系,合理利用有标签样本及无标签样本,提高了算法的分类性能。在Pavia University和Indian Pines数据集上进行实验,总体分类精度达到95.60%和94.38%。与其他维数约简算法相比,该算法有效提高了地物分类性能。  相似文献   

9.
基于密度敏感最大软间隔SVDD不均衡数据分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
陶新民  李晨曦  沈微  常瑞  王若彤  刘艳超 《电子学报》2018,46(11):2725-2732
为了提高传统支持向量域描述(C-SVDD)算法处理不均衡数据集的分类能力,提出一种基于密度敏感最大软间隔支持向量域描述(DSMSM-SVDD)算法.该算法通过对多数类样本引入相对密度来体现训练样本原始空间分布对求解最优分类界面的影响,通过在目标函数中增加最大软间隔正则项,使C-SVDD的分类边界向少数类偏移,进而提高算法分类性能.算法首先对每个多数类样本计算相对密度来反映样本的重要性,然后将训练样本输入到DSMSM-SVDD中实现数据分类.实验部分,讨论了算法参数间的关系及其对算法分类性能的影响,给出算法参数取值建议.最后通过与C-SVDD的对比实验,表明本文建议的算法在不均衡数据情况下的分类性能优于C-SVDD算法.  相似文献   

10.
针对日志数据的异常检测获取标记数据代价过高的问题,提出一种基于模糊核聚类与主动学习的算法,即KFCM-AL算法。首先将日志解析,之后利用模糊核聚类算法将待选样本在高维空间进行划分聚类,滤去样本冗余点,同时选取聚类中心进行标记构建初始分类器,最后结合主动学习利用较小的标记代价对异常检测模型进行优化。实验结果表明,所提方法能够利用较少的标记样本获取异常检测模型的性能提升。  相似文献   

11.
一种不平衡数据的分类方法   总被引:1,自引:0,他引:1  
针对数据挖掘和机器学习领域中常遇到的数据不平衡问题,分析了数据的不平衡性及目前解决不平衡问题的主要策略,提出了一种基于组合的不平衡数据分类方法,该方法将数据重取样与权重润饰结合,以降低分类器对大类别的偏好。实验结果表明,权重润饰能够较好的弥补重取样方法的某些不足,该组合方法可有效提高不平衡数据分类精度。  相似文献   

12.
徐婕  贺美美 《电子学报》2018,46(11):2660-2670
本文将样本为独立同分布的情形减弱为一致遍历马氏链的情形去研究了非平衡数据分类算法的泛化性能,提出了基于马氏抽样的SVM非平衡数据分类算法、基于马氏抽样的EDSVM非平衡数据分类算法和基于马氏抽样的SVM-WKNN非平衡数据分类算法.并用UCI数据库中的10个实际不平衡数据集进行数值实验,实验结果表明基于马氏抽样的上述三种算法的错分率均比基于随机抽样的对应算法的错分率要低,且上述三种算法中,基于马氏抽样的SVM-WKNN非平衡数据分类算法的泛化性能最好.  相似文献   

13.
缪林松 《电子科技》2012,25(6):75-78
软件缺陷预测作为软件工程领域的重要研究内容已有近30年。近年来,随着机器学习技术的发展,传统机器学习技术基于静态代码属性的软件缺陷预测领域得到广泛应用。然而,传统的机器学习算法并未考虑软件缺陷预测过程中,常见的代价敏感问题与类不均衡问题。文中将基于过采样技术和阈值移动技术的代价敏感神经网络算法应用于软件缺陷预测领域,从而解决该领域的代价敏感问题与类不均衡问题。在NASA软件缺陷预测标准数据集上的实验证明了其有效性。  相似文献   

14.
赵士伟  卓力  王素玉  沈兰荪 《电子学报》2011,39(10):2348-2352
本文提出了一种基于非支配邻域免疫算法(NNIA,Nondominated Neighbor Immune Algorithm)多目标优化的代价敏感决策树构建方法.将平均误分类代价和平均测试代价作为两个优化目标,然后利用NNIA对决策树进行优化,最终获取了一组Pareto最优的决策树.对多个测试集的测试结果表明,与C4....  相似文献   

15.
由于支持向量机( Support Vector Machine,SVM)在处理样本不平衡分布时会有偏向性,使少数类别的分类错误率的上界高于多数样本类别。分析总结了针对该问题当前的研究方法,并指出存在问题。研究分析针对不平衡样本SVM分类识别率的倾向性问题。考虑全局样本信息,提出了3种针对所有样本空间分布距离信息的方法。在UCI数据集上进行实验,结果证明MSEDR-SVM( Mean Sample Euclidean Distance Ra?tio-SVM)能够有效增加少数样本类别的F -值。从而改善标准的SVM只依靠支持向量样本构建分类超平面的局限性。  相似文献   

16.
针对雷达数据集中目标和杂波点迹的聚类不平衡问题,提出一种基于改进AdaBoost的密度峰值聚类法.介绍密度峰值聚类法的思想,基于不对称误分代价改进AdaBoost的误差函数,提高正类错分代价权重,将改进AdaBoost和密度峰值聚类结合,对由目标和杂波点迹组成的不平衡雷达数据集聚类.仿真实验结果表明,该算法在保证总体聚...  相似文献   

17.
程磊  吴晓富  张索非 《信号处理》2020,36(1):110-107
数据集类别不平衡性是机器学习领域的常见问题,对迁移学习也不例外。本文针对迁移学习下数据集类别不平衡性的影响研究不足的问题,重点研究了以下几种不平衡性处理方法对迁移学习的影响效果分析:过采样、欠采样、加权随机采样、加权交叉熵损失函数、Focal Loss函数和基于元学习的L2RW(Learning to Reweight)算法。其中,前三种方法通过随机采样消除数据集的不平衡性,加权交叉熵损失函数和Focal Loss函数通过调整传统分类算法的损失函数以适应不平衡数据集的训练,L2RW算法则采用元学习机制动态调整样本权重以实现更好的泛化能力。大量实验结果表明,在上述各种不平衡性处理方法中,过采样处理和加权随机采样处理更适合迁移学习。   相似文献   

18.
一种基于混合策略的失衡数据集分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
李鹏  王晓龙  刘远超  王宝勋 《电子学报》2007,35(11):2161-2165
提出了一种有效应用于失衡数据集的分类方法,其核心思想是从样本预处理和分类器改进两方面入手,为失衡数据集的分类问题提供全面的解决方案.首先创造性地采用动态自组织映射聚类的方法对失衡数据集进行重采样,这种采样方法,有效地解决了传统重采样的方法随机性强,人为主观干扰以及信息损失等弊端.随后借助K-近邻规则的思想,对新采集的样本进行剪枝,有效地解决了实际存在的数据混叠现象.算法对SVM的核函数进行等角变换,由此对类边界进行了校准,以适应样本类别失衡的情况.通过对三种算法的对比实验证明了算法在失衡数据集分类上的有效性.本文的算法已经在答案抽取技术中得到了成功应用,并在TREC2006国际QA 评测中得到了客观充分的验证.  相似文献   

19.
一种不平衡数据流集成分类模型   总被引:4,自引:2,他引:4  
 针对不平衡数据流的分类问题,结合基于权重的集成分类器与抽样技术,本文提出了一种处理不平衡数据流集成分类器模型.理论分析与实验验证表明,该集成分类器具有更低的计算复杂度,更能适应存在概念漂移的不平衡数据流挖掘分类,其整体分类性能优于基于权重的集成分类器模型,能明显提升少数类的分类精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号