共查询到20条相似文献,搜索用时 812 毫秒
1.
对软件缺陷预测的不平衡问题进行了研究,提出了一种处理不平衡数据的采样方法,用来解决分类器因为样本集中的样本类别不平衡而造成分类器性能下降的问题。为了避免随机采样的盲目性,利用启发性的混合采样方法来平衡数据,针对少数类采用SMOTE过采样,对多数类采用K-Means聚类降采样,然后综合利用多个单分类器来进行投票集成预测分类。实验结果表明,混合采样与集成学习相结合的软件缺陷预测方法具有较好的分类效果,在获得较高的查全率的同时还能显著降低误报率。 相似文献
2.
3.
针对恐怖袭击事件难以找到恐怖袭击组织以及恐怖袭击事件数据的样本不平衡问题,提出了一种基于特征选择和超参数优化的恐怖袭击组织预测方法。首先,利用随机森林(RF)在处理不平衡数据上的优势,通过RF迭代来进行后向特征选择;然后,利用决策树(DT)、RF、Bagging和XGBoost这四种主流分类器对恐怖袭击组织进行分类预测,并利用贝叶斯优化方法对这些分类器进行超参数优化;最后,利用全球恐怖主义数据库(GTD)评价了这些分类器在多数类样本和少数类样本上的分类预测性能。实验结果表明:所提方法提高了对恐怖袭击组织的分类预测性能,其中使用RF和Bagging时的分类预测性能最佳,准确率分别达到0.823 9和0.831 6,特别是在少数类样本上的分类预测性能有明显提高。 相似文献
4.
针对支持向量机分类器的行人检测方法采用欠采样方法,存在正负行人比例不平衡造成的准确率不高问题,结合欠采样和EasyEnsemble方法,提出一种聚合支持向量机(Ensemble SVM)分类器的行人检测方法。随机选择负样本作为初始训练样本,并将其划分为与正样本集均衡的多个子负样本集,构建平衡子训练集,线性组合成EasyEnsemble SVM分类器;利用该分类器对负样本进行分类判断,将误判样本作为难例样本,重新划分构建新的平衡子训练集,训练子分类器,结合EasyEnsemble SVM分类器,得到Ensemble SVM分类器行人检测方法。在INRIA行人数据集上的实验表明,该方法在检测速度和检测率上都优于经典的SVM行人检测算法。 相似文献
5.
针对传统的网络安全态势要素获取模型中,当样本分布不平衡时,占比很少的样本(统称小样本)不能被有效检测,准确识别到每一类攻击样本成为研究热点之一。利用深度学习提出了一种面向样本不平衡的要素获取模型,利用卷积神经网络作为基分类器提取网络数据的深层特征,其次使用GAN生成对抗网络扩充小样本的方法,解决样本分布不均衡问题。在扩充后的平衡数据集上采用迁移学习,加快基分类器到适应于小样本的新分类的训练时间。在NSL-KDD数据集上的实验表明,经过生成对抗网络扩充后的数据集,结合迁移学习有效加快了模型训练收敛速度,并有效提高网络安全态势要素获取的分类精度。 相似文献
6.
随机欠采样方法忽略潜在有用的大类样本信息,在面对多类分类问题时更为突出.文中提出多类类别不平衡学习算法:EasyEnsemble.M.该算法通过多次针对大类样本随机采样,充分利用被随机欠采样方法忽略的潜在有用的大类样本,学习多个子分类器,利用混合的集成技术最终得到性能较优的强分类器.实验结果表明,与常用的多类类别不平衡学习算法相比,EasyEnsemble.M可有效提高分类器的G-mean值. 相似文献
7.
情感分析是自然语言处理领域的重要研究问题。现有方法往往难以克服样本偏置与领域依赖问题,严重制约了情感分析的发展和应用。为此,该文提出了一种基于深度表示学习和高斯过程知识迁移学习的情感分析方法。该方法首先利用深度神经网络获得文本样本的分布式表示,而后基于深度高斯过程,从辅助数据中迁移与测试集数据分布相符的高质量样例扩充训练数据集用于分类器训练,以此提高文本情感分类系统性能。在COAE2014文本情感分类数据集上进行的实验结果显示,该文提出的方法可以有效提高文本情感分类性能,同时可以有效缓解训练数据的样本偏置以及领域依赖问题的影响。 相似文献
8.
针对垃圾网页检测过程中轻微的不平衡分类问题,提出三种随机欠采样集成分类器算法,分别为一次不放回随机欠采样(RUS-once)、多次不放回随机欠采样(RUS-multiple)和有放回随机欠采样(RUS-replacement)算法。首先使用其中一种随机欠采样技术将训练样本集转换成平衡样本集,然后对每个平衡样本集使用分类回归树(CART)分类器算法进行分类,最后采用简单投票法构建集成分类器对测试样本进行分类。实验表明,三种随机欠采样集成分类器均取得了良好的分类效果,其中RUS-multiple和RUS-replacement比RUS-once的分类效果更好。与CART及其Bagging和Adaboost集成分类器相比,在WEBSPAM UK-2006数据集上,RUS-multiple和RUS-replacement方法的AUC指标值提高了10%左右,在WEBSPAM UK-2007数据集上,提高了25%左右;与其他最优研究结果相比,RUS-multiple和RUS-replacement方法在AUC指标上能达到最优分类结果。 相似文献
9.
基于集成学习的半监督情感分类方法研究 总被引:1,自引:0,他引:1
情感分类旨在对文本所表达的情感色彩类别进行分类的任务。该文研究基于半监督学习的情感分类方法,即在很少规模的标注样本的基础上,借助非标注样本提高情感分类性能。为了提高半监督学习能力,该文提出了一种基于一致性标签的集成方法,用于融合两种主流的半监督情感分类方法:基于随机特征子空间的协同训练方法和标签传播方法。首先,使用这两种半监督学习方法训练出的分类器对未标注样本进行标注;其次,选取出标注一致的未标注样本;最后,使用这些挑选出的样本更新训练模型。实验结果表明,该方法能够有效降低对未标注样本的误标注率,从而获得比任一种半监督学习方法更好的分类效果。 相似文献
10.
11.
12.
神经网络集成是一种通过组合每个神经网络的输出生成最后预测的很流行的学习方法,可以显著地提高学习系统的泛化能力。为了提高集成方法的有效性,提出了一种基于分而治之的思想和岛屿迁徙模型的径向基神经网络集成的新方法。实验结果表明,岛屿迁徙神经网络集成预测模型不但可以提高系统对多维空间的高维搜索能力,简化网络结构,而且在产品的自动化检测试验中也可获得更高的预测精度。 相似文献
13.
针对自治式水下机器人高度非线性和时变性的特点,提出了一种基于神经网络的水下机器人广义预测控制策略.利用改进型Elman网络作为多步预测模型,在对网络学习算法进行改进的基础上,实现了Elman网络的在线学习,并提出了用于求解神经广义预测控制律的灵敏度公式.进行了具有神经网络在线学习功能和不具有在线学习功能的水下机器人的速度控制实验,并就预测控制效果进行了对比分析.实验结果表明,具有自适应学习功能的水下机器人速度控制法的精度要优于不具有在线学习功能的速度控制法,且当水下机器人动态特性发生变化时具有较强的自适应能力. 相似文献
14.
为提高待生催化剂碳含量预测的准确性, 提出一种基于改进的教学算法(MTLBO) 来优化BP 神经网络的预测模型. 针对基础教学算法全局搜索能力差的问题, 在教师阶段前后增加了预习和复习过程, 并在学生阶段采用量子方式进行更新. 测试结果表明, 该改进能够提高教学算法全局探索和局部改良能力, 利用改进教学算法可优化BP神经网络的权值和阈值, 并进行待生催化剂碳含量预测. 仿真结果表明, 改进后预测模型的预测精度和泛化能力均有一定程度的提高.
相似文献15.
16.
基于分布式学习的大规模网络入侵检测算法 总被引:6,自引:0,他引:6
计算机网络的高速发展,使处理器的速度明显低于骨干网的传输速度,这使得传统的入侵检测方法无法应用于大规模网络的检测.目前,解决这一问题的有效办法是将海量数据分割成小块数据,由分布的处理节点并行处理.这种分布式并行处理的难点是分割机制,为了不破坏数据的完整性,只有采用复杂的分割算法,这同时也使分割模块成为检测系统新的瓶颈.为了克服这个问题,提出了分布式神经网络学习算法,并将其用于大规模网络入侵检测.该算法的优点是,大数据集可被随机分割后分发给独立的神经网络进行并行学习,在降低分割算法复杂度的同时,保证学习结果的完整性.对该算法的测试实验首先采用基准测试数据circle-in-the-square测试了其学习能力,并与ARTMAP(adaptive resonance theory supervised predictive mapping)和BP(back propagation)神经网络进行了比较;然后采用标准的入侵检测测试数据集KDD'99 Data Set测试了其对大规模入侵的检测性能.通过与其他方法在相同数据集上的测试结果的比较表明,分布式学习算法同样具有较高的检测效率和较低的误报率. 相似文献
17.
18.
针对机场噪声监测点设备损坏和老化导致噪声数据采集异常的问题,寻求软件解决方案。在分析监测点之间关联性的基础上,建立了一种基于观察学习的机场噪声监测点关联预测模型。首先,通过衡量失效监测点和其余正常监测点之间的关联性来筛选出关联度高的监测点;接着,利用BP神经网络集成建立回归预测模型。提出了一种"基于学习成果优异度加权"的观察学习算法,解决了小样本的欠拟合问题,提升了模型泛化能力。基于某机场实测数据的实验表明,所提出的预测模型具有较好的预测能力,并且改进后的算法比标准的观察学习算法更为稳定,效率更高。 相似文献
19.
一种基于神经网络集成的规则学习算法 总被引:8,自引:0,他引:8
将神经网络集成与规则学习相结合,提出了一种基于神经网络集成的规则学习算法.该算法以神经网络集成作为规则学习的前端,利用其产生出规则学习所用的数据集,在此基础上进行规则学习.在UCl机器学习数据库上的实验结果表明,该算法可以产生泛化能力非常强的规则. 相似文献