首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 453 毫秒
1.
刘影  孙凤丽  郭栋  张泽奇  杨隽 《测控技术》2020,39(12):111-115
针对软件缺陷预测时缺陷数据集中存在的类别分布不平衡问题,结合上采样算法SMOTE与Edited Nearest Neighbor (ENN) 数据清洗策略,提出了一种基于启发式BP神经网络算法的软件缺陷预测模型。模型中采用上采样算法SMOTE增加少数类样本以改善项目中的数据不平衡状况,并针对采样后数据噪声问题进行ENN数据清洗,结合基于启发式学习的模拟退火算法改进四层BP神经网络后建立分类预测模型,在AEEEM数据库上使用交叉验证对提出的方案进行性能评估,结果表明所提出的算法能够有效提高模型在预测类不平衡数据时的分类准确度。  相似文献   

2.
针对软件缺陷预测中不平衡数据的分类问题,提出了一种基于过采样和集成学习的类不平衡软件缺陷预测模型XG-AJCC(AJCC-Ram+XGBoost).在预处理阶段,提出了AJCC-Ram(Adaptive Judgment Cure Clustering Random Sampling)多层次过采样方法.该方法基于改进的ADASYN自适应过采样和CURE-SMOTE过采样分别在类边缘和类中心层面生成新样本,通过CLNI方法对样本生成后的数据集进行噪声过滤及清理.在模型构建阶段,与集成算法XGBoost(eXtreme Gradient Boosting)相结合形成最终的不平衡数据缺陷预测模型.本文在AEEEM数据集和NASA数据集中进行了验证,实验结果表明:较于经典的采样方法和采样集成预测模型,在F1指标上AJCC-Ram过采样方法及XG-AJCC采样集成算法模型均能够取得有效的预测结果.  相似文献   

3.
针对软件缺陷预测时普遍存在的样本缺陷数据不平衡、特征冗余等问题,引进稀疏自编码(SAE)神经网络并加以改进,提出了一种新的分类模型。模型结合了SAE神经网络和少数样本合成过采样技术(SMOTE)的优点,可弥补传统分类方法在软件缺陷预测时忽视少数类分类效果、不能很好地保留数据内部特征等不足。基于NASA软件缺陷公共数据库中多个数据集的实验结果表明:提出的模型在软件缺陷预测方面的分类效果明显优于其他算法,尤其提高了不平衡数据集中少数类的分类精度。  相似文献   

4.
软件缺陷预测是提升软件质量的有效方法,而软件缺陷预测方法的预测效果与数据集自身的特点有着密切的相关性。针对软件缺陷预测中数据集特征信息冗余、维度过大的问题,结合深度学习对数据特征强大的学习能力,提出了一种基于深度自编码网络的软件缺陷预测方法。该方法首先使用一种基于无监督学习的采样方法对6个开源项目数据集进行采样,解决了数据集中类不平衡问题;然后训练出一个深度自编码网络模型。该模型能对数据集进行特征降维,模型的最后使用了三种分类器进行连接,该模型使用降维后的训练集训练分类器,最后用测试集进行预测。实验结果表明,该方法在维数较大、特征信息冗余的数据集上的预测性能要优于基准的软件缺陷预测模型和基于现有的特征提取方法的软件缺陷预测模型,并且适用于不同分类算法。  相似文献   

5.
对软件缺陷预测的不平衡问题进行了研究,提出了一种处理不平衡数据的采样方法,用来解决分类器因为样本集中的样本类别不平衡而造成分类器性能下降的问题。为了避免随机采样的盲目性,利用启发性的混合采样方法来平衡数据,针对少数类采用SMOTE过采样,对多数类采用K-Means聚类降采样,然后综合利用多个单分类器来进行投票集成预测分类。实验结果表明,混合采样与集成学习相结合的软件缺陷预测方法具有较好的分类效果,在获得较高的查全率的同时还能显著降低误报率。  相似文献   

6.
现有的软件缺陷预测方法面临数据类别不平衡性、高维数据处理等问题。如何有效解决上述问题已成为目前相关领域的研究热点。针对软件缺陷预测所面临的类别不平衡、预测精度低等问题,本文提出一种基于混合采样与Random_Stacking的软件缺陷预测算法DP_HSRS。DP_HSRS算法首先采用混合采样算法对不平衡数据进行平衡化处理;然后在该平衡数据集上采用Random_Stacking算法进行软件缺陷预测。Random_Stacking算法是对传统Stacking算法的一种有效改进,它通过融合多个经典的分类算法以及Bagging机制构建多个Stacking分类器,对多个Stacking分类器进行投票,得到一个集成分类器,最后利用该集成分类器对软件缺陷进行预测。通过在NASA MDP数据集上的实验结果表明,DP_HSRS算法的性能优于现有的算法,具有更好的缺陷预测性能。  相似文献   

7.
付忠旺  肖蓉  余啸  谷懿 《计算机应用》2018,38(3):824-828
针对已有研究在评价软件缺陷个数预测模型性能时没有考虑到软件缺陷数据集存在数据不平衡的问题而采用了评估回归模型的不合适的评价指标的问题,提出以平均缺陷百分比作为评价指标,讨论不同回归算法对软件缺陷个数预测模型性能的影响程度。利用PROMISE提供的6个开源数据集,分析了10个回归算法对软件缺陷个数预测模型预测结果的影响以及各种回归算法之间的差异。研究结果表明:使用不同的回归算法建立的软件缺陷个数预测模型具有不同的预测效果,其中梯度Boosting回归算法和贝叶斯岭回归算法预测效果更好。  相似文献   

8.
软件缺陷预测是典型的类不均衡学习问题,其中有缺陷的样本数量远少于无缺陷的样本数量,但有缺陷的样本通常是预测的重点。现有的软件预测模型大多建立在基于静态度量元的软件缺陷数据集上,重点关注如何平衡类分布,而忽略了数据集中属性特征对软件缺陷的判别能力。当软件缺陷数据集中的属性特征对类目标概念缺乏判别能力时,传统机器学习算法难以构建有效的软件缺陷预测模型,从而无法获得有效的预测性能。为此,提出了一种基于不相似性的软件缺陷预测算法,通过改善软件缺陷数据集中属性的判别能力,进而提升软件缺陷预测性能。实验证明:基于不相似性的软件缺陷预测算法能够有效地改善传统机器学习算法在软件缺陷数据集上的预测性能。  相似文献   

9.
软件缺陷预测有助于提高软件开发质量,保证测试资源有效分配。针对软件缺陷预测研究中类标签数据难以获取和类不平衡分布问题,提出基于采样的半监督支持向量机预测模型。该模型采用无监督的采样技术,确保带标签样本数据中缺陷样本数量不会过低,使用半监督支持向量机方法,在少量带标签样本数据基础上利用无标签数据信息构建预测模型;使用公开的NASA软件缺陷预测数据集进行仿真实验。实验结果表明提出的方法与现有半监督方法相比,在综合评价指标[F]值和召回率上均优于现有方法;与有监督方法相比,能在学习样本较少的情况下取得相当的预测性能。  相似文献   

10.
甘露  臧洌  李航 《计算机科学》2017,44(4):229-233
软件缺陷预测技术在检测软件缺陷、保证软件质量方面发挥了重要的作用。利用神经网络分类算法构建的软件缺陷预测模型得到了广泛的应用。但是利用神经网络分类算法训练历史数据只能进行“浅层学习”,无法对数据特征进行深度挖掘。针对该问题,利用多层限制玻尔兹曼机叠加成深度信念网,先进行特征集成与迭代,并对这些特征数据进行深度学习,构建了基于深度信念网的软件缺陷预测模型(DBNSDPM)。仿真实验表明,本模型预测的准确性与传统的神经网络缺陷预测模型预测的准确性相比有显著提高。  相似文献   

11.
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。  相似文献   

12.
少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。  相似文献   

13.
大多数非均衡数据集的研究集中于纯重构数据集或者纯代价敏感学习,本文针对数据集类分布非均衡和不相等误分类代价往往同时发生这一事实,提出了一种以最小误分类代价为目标的基于混合重取样的代价敏感学习算法。该算法将两种不同类型解决方案有机地融合在一起,先用样本类空间重构的方法使原始数据集的两类数据达到基本均衡,然后再引入代价敏感学习算法进行分类,能提高少数类分类精度,同时有效降低总的误分类代价。实验结果验证了该算法在处理非均衡类问题时比传统算法要优越。  相似文献   

14.
针对传统电压频控软件缺陷检测技术未考虑软件缺陷分类,存在检测精度低的问题,提出一种电压频控中抗强干扰软件关联缺陷检测技术。对软件关联缺陷检测原理进行分析,采用判别函数对待测软件样本进行识别,引入统计模式识别算法处理软件原始数据,依据关联缺陷概率分配,确定关联缺陷类别,计算缺陷特征值,利用贝叶斯分类器对关联缺陷进行划分,完成抗强干扰软件关联缺陷的分类,从而实现关联缺陷的高精度检测。实验结果表明,该检测技术对软件缺陷进行准确分类,在保证强抗干扰性的前提下,有效提高了检测精度。  相似文献   

15.
为了解决单一神经网络模型很难满足股票预测建模要求的问题,提出一种基于遗传算法的粗糙集属性约简方法和神经网络相结合的预测模型。在该模型中,改进了自适应性遗传算法的交叉算子与变异算子。基于该遗传算法的粗糙集属性约简相比传统的粗糙集属性约简,其具有更强的求解最小属性约简的能力,解决了神经网络预测时训练速度慢、内存开销大等问题;在数据预处理过程中,引入聚类分析,有效解决了连续属性离散化的问题。实验结果证明,该预测模型具有较高的预测精度,在时间序列的股票预测中是相当有效的。  相似文献   

16.
面向不均衡数据集的ISMOTE算法   总被引:1,自引:0,他引:1  
许丹丹  王勇  蔡立军 《计算机应用》2011,31(9):2399-2401
为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能比较结果表明,ISMOTE算法具有更高的分类精度,可以有效地改进分类器的性能。  相似文献   

17.
一种基于混合重取样策略的非均衡数据集分类算法   总被引:1,自引:0,他引:1  
非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究热点,是对传统分类算法的重大挑战。本文提出了一种新型重取样算法,采用改进的SMOTE算法对少数类数据进行过取样,产生新的少数类样本,使类之间数据量基本均衡,然后再根据SMO算法的特点,提出使用聚类的数据欠取样方法,删除冗余或噪音数据。通过对数据集的过取样和清理之后,一些有用的样本被保留下来,减少了数据集规模,增强支持向量机训练执行的效率。实验结果表明,该方法在保持整体分类性能的情况下可以有效地提高少数类的分类精度。  相似文献   

18.
现实中的数据集普遍具有非均衡性。针对不平衡分类问题,建立数据集网络结构来充分挖掘隐藏在样本点位置信息外的拓扑特征,分析网络节点的连接特性并赋予节点不同的效率。计算待测节点与每个子网络的相似性测度,依据新型的概率模型,进一步推算出该节点与各子网络的整体性测度。构建了一种基于网络拓扑特征的不平衡数据分类方法,算法中引入不平衡因子c用以减小由正负类样本数量差异所带来的影响。实验结果表明,该算法能有效提高分类精度,特别是对拓扑特征明显的数据集,在分类性能和适应能力上相比传统分类方法都得到进一步提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号