首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
软件缺陷预测是典型的类不均衡学习问题,其中有缺陷的样本数量远少于无缺陷的样本数量,但有缺陷的样本通常是预测的重点。现有的软件预测模型大多建立在基于静态度量元的软件缺陷数据集上,重点关注如何平衡类分布,而忽略了数据集中属性特征对软件缺陷的判别能力。当软件缺陷数据集中的属性特征对类目标概念缺乏判别能力时,传统机器学习算法难以构建有效的软件缺陷预测模型,从而无法获得有效的预测性能。为此,提出了一种基于不相似性的软件缺陷预测算法,通过改善软件缺陷数据集中属性的判别能力,进而提升软件缺陷预测性能。实验证明:基于不相似性的软件缺陷预测算法能够有效地改善传统机器学习算法在软件缺陷数据集上的预测性能。  相似文献   

2.
为了解决小批量、多品种工业产品的表面质量检测问题,提出一种基于改进深度度量学习的缺陷检测算法。该算法对VGG16网络模型做改进,更有利于原始图像的隐空间映射。针对产品表面缺陷检测的任务,提出条件三元组损失函数以加强神经网络的拟合能力。同时,在隐空间中进行缺陷判定时,抛弃原始度量学习中基于KNN算法的归类方法,提出基于高斯分布概率的归类模型。在检测新类型产品时,在已训练好的网络模型的基础上,使用新产品的图像数据作为输入对网络进行微调。利用该算法在纽扣缺陷数据集上经K-Fold交叉验证,在只需50个无缺陷样本和50个有缺陷样本的小样本情况下,该算法在不同的查询集上的检测准确率均在90%以上,最高可达99.89%,与传统深度度量学习算法相比,检测准确率提升10%以上。实验结果表明,改进深度度量学习算法可以很好地解决小批量、多品种工业产品的表面缺陷检测问题。  相似文献   

3.
时间序列相似性度量在挖掘时间序列模式,提取时间序列关联关系上发挥着重要作用。分析了当前主流的时间序列相似性度量算法,分别指出了各度量算法在度量时序数据相似性时存在的缺陷,并提出了基于数学形态学的时间序列相似性度量算法。通过将归一化的时间序列二值图像化表示,再引入了图像处理领域中的膨胀、腐蚀操作对时序数据进行形态变换分析,提高相似时序数据部分的抗噪性,同时又不降低时序数据非相似部分间的差异度,实现时序数据相似性度量分类精度的提高。在八种时间序列测试数据集合上进行分类实验,实验结果表明提出的基于数学形态学的时间序列相似性度量算法在时间序列分类精度上得到有效改善,相比于DTW相似性度量算法,分类精度平均水平提升了8.74%,最高提升20%。  相似文献   

4.
两段式缺陷检测模型中分割和分类网络的优化目标不一致,导致二者耦合性较差,且分割模块误差的积累可能进一步弱化分类模块的性能.针对上述问题,提出一种基于注意力机制的缺陷检测联合优化算法.首先基于混合注意力特征融合模块的分割网络融合浅层特征和深层特征,提取更全面的缺陷位置信息;然后基于多感受野空间注意力模块的分类网络挖掘更具判别性的缺陷类别特征;最后通过联合优化目标实现分割和分类网络的学习优化,提升整个算法的耦合性以及性能.基于PyTorch框架,在公开工业缺陷检测数据集DAGM 2007, MAGNETIC-TILE和KolektorSDD2数据集上进行实验,并引入分段式算法及类U-Net算法进行横向对比的结果表明,所提算法的准确率相比分段式算法最高提升28.02%,相比类U-Net算法最高提升8.3%,且精确率、召回率、F1值均优于同类算法,具有更好的检测性能.  相似文献   

5.
跨场景的行人再识别任务,现有度量学习算法由于小样本问题使得对模型参数的估计存在偏差,从而导致识别精度较低。在交叉二次判别分析度量学习算法的基础上,提出了一种基于样本正态性重采样算法,建立了半监督学习度量模型,以增强度量模型的泛化能力。综合泛化后的度量模型和交叉二次判别算法,构建了加权组合的联合模型。选取了公开数据集VIPeR和CUHK01进行测试,测试结果显示该算法相比于原交叉二次判别算法以及相关的行人再识别算法有着明显的优势,尤其在rank-1上的识别精度分别超过了MLAPG算法和NFST算法7.79%和4.68%,且该算法对于训练数据量的变化具有较强的鲁棒性。  相似文献   

6.
张献  贲可荣  曾杰 《软件学报》2021,32(7):2219-2241
软件缺陷预测是软件质量保障领域的一个活跃话题,它可以帮助开发人员发现潜在的缺陷并更好地利用资源.如何为预测系统设计更具判别力的度量元,并兼顾性能与可解释性,一直是人们致力于的研究方向.针对这一挑战,提出了一种基于代码自然性特征的缺陷预测方法——CNDePor.该方法通过正逆双向度量代码和利用质量信息对样本加权的方式改进语言模型,提高了模型所得交叉熵(CE)类度量元的缺陷判别力.针对粗粒度缺陷预测存在难以聚焦缺陷区域、代码审查成本高的不足,研究了一种新的细粒度缺陷预测问题——面向语句的切片级缺陷预测.在此问题上,设计了4种度量元,并在两类安全缺陷数据集上验证了度量元和CNDePor方法的有效性.实验结果表明:CE类度量元具有可学习性,它们蕴涵了语言模型从语料库中学习到的相关知识;改进的CE类度量元的判别力明显优于原始度量元和传统规模度量元;CNDePor方法较传统缺陷预测方法和已有的基于代码自然性的方法有显著优势,较先进的基于深度学习的方法具有可比性性能和更强的可解释性.  相似文献   

7.
为了克服传统的TF-IDF(Term Frequency Inverse Document Frequency)算法分类F1值低的缺陷,利用特征词在类内和类间的分布信息,提出一种改进的TF-IDF-dist算法。实验结果表明,改进的算法在不同特征维度下F1值平均提升3.2%,结合不同特征选择算法,F1值平均提升2.75%,并且对倾斜数据集有更强的适应性,表明本文算法在文本分类中的有效性。  相似文献   

8.
在基于软件产品度量值的缺陷预测中,度量值主要是基于两个层次:类/文件层次和包/组件层次。类级别的预测模型通常会有更好的预测效率,而包级别的模型往往能得到更好的查全率及查准率。提出综合类级别和包级别度量值进行缺陷预测的方法,在类级别预测的基础上,使用包级别预测的信息对类级别进行调整,在类级别预测中融合包级别预测中所隐含的问题域信息。通过基于Eclipse3.0系统的实验发现,该方法能够有效改善缺陷预测的效果。与类级别的缺陷预测模型相比,综合包级别度量值的缺陷预测方法提高了5%到8%的查全率。同时在预测效率上,测试出50%的缺陷,使用该方法可以有效减少3.6%到9.84%的代码检查量。  相似文献   

9.
经典的模糊C均值算法基于欧氏距离,存在等划分趋势的缺陷,分错率较高,只适用于球形结构的聚类。针对这一问题,利用数据的点密度信息,在数据点与聚类中心的距离度量中引入了调节因子,提出了一种基于密度的距离修正矩阵,并用其代替经典模糊C均值算法中的距离度量矩阵。通过人造数据集和UCI数据集的两组聚类实验,证实了改进算法对非球形结构的数据同样适用,且相比经典的模糊C均值算法具有更高的聚类准确率。  相似文献   

10.
针对人脸识别中小样本问题导致类依赖子空间不完善而严重影响识别性能的问题,提出一种基于线性判别回归的最近-最远子空间分类算法。首先,基于线性判别回归,利用最近子空间分类器度量测试图像与单一类之间的关系;然后,利用所提出的最远子空间分类器度量测试图像与训练图像之间的关系;最后,结合最近、最远子空间分类器,利用类依赖子空间的不同特性完成人脸的分类识别。在三个公开的人脸数据库ORL、AR及扩展Yale B上的实验验证了该算法的有效性。实验结果表明,相比其他几种分类算法,该算法取得了更好的识别效果。  相似文献   

11.
软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的质量与训练数据有密切关系。用于缺陷预测的数据集主要存在数据特征的选择和数据类不平衡问题。针对数据特征选择问题,采用软件开发常用的过程特征和新提出的扩展过程特征,然后采用基于聚类分析的特征选择算法进行特征选择;针对数据类不平衡问题,提出改进的Borderline-SMOTE过采样方法,使得训练数据集的正负样本数量相对平衡且合成样本的特征更符合实际样本特征。采用bugzilla、jUnit等项目的开源数据集进行实验,结果表明:所采用的特征选择算法在保证模型F-measure值的同时,可以降低57.94%的模型训练时间;使用改进的Borderline-SMOTE方法处理样本得到的缺陷预测模型在Precision、Recall、F-measure、AUC指标上比原始方法得到的模型平均分别提高了2.36个百分点、1.8个百分点、2.13个百分点、2.36个百分点;引入了扩展过程特征得到的缺陷预测模型比未引入扩展过程特征得到的模型在F-measure值上平均提高了3.79%;与文献中的方法得到的模型相比,所提方法得到的模型在F-measure值上平均提高了15.79%。实验结果证明所提方法能有效提升缺陷预测模型的质量。  相似文献   

12.
软件缺陷预测是软件质量保障领域的热点研究课题,缺陷预测模型的质量与训练数据有密切关系。用于缺陷预测的数据集主要存在数据特征的选择和数据类不平衡问题。针对数据特征选择问题,采用软件开发常用的过程特征和新提出的扩展过程特征,然后采用基于聚类分析的特征选择算法进行特征选择;针对数据类不平衡问题,提出改进的Borderline-SMOTE过采样方法,使得训练数据集的正负样本数量相对平衡且合成样本的特征更符合实际样本特征。采用bugzilla、jUnit等项目的开源数据集进行实验,结果表明:所采用的特征选择算法在保证模型F-measure值的同时,可以降低57.94%的模型训练时间;使用改进的Borderline-SMOTE方法处理样本得到的缺陷预测模型在Precision、Recall、F-measure、AUC指标上比原始方法得到的模型平均分别提高了2.36个百分点、1.8个百分点、2.13个百分点、2.36个百分点;引入了扩展过程特征得到的缺陷预测模型比未引入扩展过程特征得到的模型在F-measure值上平均提高了3.79%;与文献中的方法得到的模型相比,所提方法得到的模型在F-measure值上平均提高了15.79%。实验结果证明所提方法能有效提升缺陷预测模型的质量。  相似文献   

13.
管声启  李振浩  常江 《软件》2020,(2):49-51
为了提高零件缺陷检测的准确率,提出了一种基于视觉显著性算法的零件缺陷检测方法。首先将采集零件缺陷图像进行高斯差分滤波,以最大程度消除背景信息的干扰。然后对高斯差分滤波后的零件缺陷图像进行超像素分割,并利用全局图像对比方法构建超像素图像显著图,从而有效的提高缺陷的显著性。最后,采用最大类间方差法分割缺陷。试验表明该方法能提高零件缺陷的检测准确率。  相似文献   

14.
刀具在生产的过程中,由于人员、机器、环境等多方面原因,刀具的表面会出现各种缺陷,如划痕、碰撞凹坑、涂层剥落和边缘豁口;这些缺陷会严重影响刀具的质量和外观,对于刀具的缺陷检测,目前主要采用人工目检的方式,人工检测方法效率和准确率都比较低;为解决上述问题,提出一种刀具缺陷的自动化检测及分类算法;针对刀具图像的预处理,提出了一种基于双边滤波的降噪方法和基于差分的对比度增强算法;对于刀具的缺陷检测任务,提出了基于图像差分的缺陷检测算法;对于缺陷的分类任务,提出了一种基于SVM的分类算法,即通过提取缺陷区域的形状、纹理等特征来训练SVM分类器;最后对提出的缺陷检测及分类算法进行实验,结果表明算法的缺陷检出率达97.2%,分类准确率可达94.3%;算法能够很好地满足工业需求,可以替代人工实现刀具缺陷的自动化和高效率检测。  相似文献   

15.
汉语语句主题语义倾向分析方法的研究   总被引:7,自引:0,他引:7  
本文介绍了如何识别汉语语句主题和主题与情感描述项之间的关系以及如何计算主题的语义倾向(极性)。我们利用领域本体来抽取语句主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而最终决定语句中每个主题的极性。实验结果显示,与手工标注的语料作为金标准进行比较,用于识别主题和主题极性的改进后的SBV极性传递算法的F度量达到了72.41%。它比原来的SBV极性传递算法和VOB极性传递算法的F度量分别提高了7.6%和2.09%。因此,所建议的改进的SBV极性传递算法是合理和有效的。  相似文献   

16.
一种改进的k-means初始聚类中心选取算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。  相似文献   

17.
针对准确与实时检测晶圆表面缺陷的需求,提出了一种基于主成分分析(Principal Component Analysis, PCA)和贝叶斯概率模型(Bayesian Probability Model, BPM)的在线检测算法。首先,改进双边滤波方法以消除晶圆表面图像中的噪声和突出晶圆表面的模式特征。然后,提取晶圆表面缺陷的Hu不变矩、方向梯度直方图(Histogram of Oriented Gradients, HOG)和尺度不变特征变换特征(Scale Invariant Feature Transform, SIFT)。接着,采用PCA方法对特征进行降维。最后,在离线建模阶段构建各种缺陷模式的BPMs;在在线检测阶段采用胜者全取(Winner-take-all, WTA)法判断缺陷的模式和构建新缺陷模式的BPMs。提出算法在WM-811K晶圆数据库中得到了87.2%的检测准确率。单副图像的平均检测时间为40.5ms。实验结果表明,提出算法具有较高的检测准确性与实时性,可以实际应用到集成电路制造产线的晶圆表面缺陷在线检测中。  相似文献   

18.
利用网络隧道进行攻击、窃密等成为近年来网络安全领域的热点问题。如何提高大规模网络隧道检测分析时带来的识别精度低的问题亟需解决。针对基于DNS、HTTP协议的主流隧道检测问题,提出一种基于自动特征工程与压缩感知相结合的网络隧道检测方法。通过自动特征工程挖掘出更深层次的网络隧道特征,同时通过压缩感知算法在不损失高维特征精度的基础上实现降维,提高计算效率。在大规模真实数据集上实验结果表明,DNS隧道检测的F-measure值能达到95%,HTTP隧道检测的F-measure值能达到82%以上。  相似文献   

19.
余文勇  张阳  姚海明  石绘 《自动化学报》2022,48(9):2175-2186
基于深度学习的方法在某些工业产品的表面缺陷识别和分类方面表现出优异的性能, 然而大多数工业产品缺陷样本稀缺, 而且特征差异大, 导致这类需要大量缺陷样本训练的检测方法难以适用. 提出一种基于重构网络的无监督缺陷检测算法, 仅使用容易大量获得的无缺陷样本数据实现对异常缺陷的检测. 提出的算法包括两个阶段: 图像重构网络训练阶段和表面缺陷区域检测阶段. 训练阶段通过一种轻量化结构的全卷积自编码器设计重构网络, 仅使用少量正常样本进行训练, 使得重构网络能够生成无缺陷重构图像, 进一步提出一种结合结构性损失和L1损失的函数作为重构网络的损失函数, 解决自编码器检测算法对不规则纹理表面缺陷检测效果较差的问题; 缺陷检测阶段以重构图像与待测图像的残差作为缺陷的可能区域, 通过常规图像操作即可实现缺陷的定位. 对所提出的重构网络的无监督缺陷检测算法的网络结构、训练像素块大小、损失函数系数等影响因素进行了详细的实验分析, 并在多个缺陷图像样本集上与其他同类算法做了对比, 结果表明重构网络的无监督缺陷检测算法有较强的鲁棒性和准确性. 由于重构网络的无监督缺陷检测算法的轻量化结构, 检测1024 × 1024像素图像仅仅耗时2.82 ms, 适合工业在线检测.  相似文献   

20.
目的 现有显著性检测方法大多只关注显著目标的中心信息,使得算法只能得到中心清晰、边缘模糊的显著目标,丢失了一些重要的边界信息,而使用核范数约束进行低秩矩阵恢复,运算过程冗余。为解决以上问题,本文提出一种无监督迭代重加权最小二乘低秩恢复算法,用于图像视觉显著性检测。方法 将图像分为细中粗3种尺度的分割,从细粒度和粗粒度先验的融合中得到分割先验信息;将融合后的分割先验信息通过迭代重加权最小二乘法求解平滑低秩矩阵恢复,生成粗略显著图;使用中粒度分割先验对粗略显著图进行平滑,生成最终的视觉显著图。结果 实验在MSRA10K(Microsoft Research Asia 10K)、SOD(salient object detection dataset)和ECSSD(extended complex scene saliency dataset)数据集上进行测试,并与现有的11种算法进行对比。结果表明,本文算法可生成边界清晰的显著图。在MSRA10K数据集上,本文算法实现了最高的AUC(area under ROC(receiver operating characteristic)curve)和F-measure值,MAE(mean absolute error)值仅次于SMD(structured matrix decomposition)算法和RBD(robust back ground detection)算法,AUC和F-measure值比次优算法RPCA(robust principal component analysis)分别提高了3.9%和12.3%;在SOD数据集上,综合AUC、F-measure和MAE值来看,本文算法优于除SMD算法以外的其他算法,AUC值仅次于SMD算法、SC(smoothness constraint)算法和GBVS(graph-based visual salieney)算法,F-measure值低于最优算法SMD 2.6%;在ECSSD数据集上,本文算法实现了最高的F-measure值75.5%,AUC值略低于最优算法SC 1%,MAE值略低于最优算法HCNs(hierarchical co-salient object detection via color names)2%。结论 实验结果表明,本文算法能从前景复杂或背景复杂的显著图像中更准确地检测出边界清晰的显著目标。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号