共查询到20条相似文献,搜索用时 31 毫秒
1.
半监督拉普拉斯特征映射算法 总被引:1,自引:0,他引:1
为了使流形学习方法具有半监督的特点,利用流形上某些已知低维信息的数据去学习推测出其它数据的低维信息,扩大流形学习算法的应用范围,把拉普拉斯特征映射算法(Laplacian Eigenmap,LE)与半监督的机器学习相结合,提出一种半监督的拉普拉斯特征映射算法(semi-supervised Laplacian Eigenmap,SSLE),这种半监督的流形学习算法在分类识别等问题上,具有很好的效果.模拟实验和实际例子都表明了SSLE算法的有效性. 相似文献
2.
软件缺陷预测是软件工程领域的重点研究方向,是保证软件质量的重要途径之一。其中软件缺陷数据的类不平衡问题会影响缺陷预测分类的准确性,为解决类不平衡数据对预测分类的影响,针对如何优化数据预处理的算法执行顺序进行了研究,提出了一种有效提升分类效果的软件缺陷预测模型(ASRAdaboost)。该算法模型在根据对照实验确定数据预处理最优顺序后,采用特征选择卡方检验算法,再执行SMOTE过采样与简单采样方法,解决数据类不平衡和属性冗余同时存在的问题,最后结合Adaboost集成算法,构建出软件缺陷预测模型ASRAdaboost。实验均采用J48决策树作为基分类器,实验结果表明:ASRAdaboost算法模型有效提高了软件缺陷预测的准确性,得到了更好的分类效果。 相似文献
3.
为探索高维数据本质结构和低维表示,并避免一般流形学习中测试数据不能显式降维的不足,提出基于局部和全局映射函数的流形降维空间球形覆盖分类算法。该算法首先抽象融合局部和全局信息映射模型,分别优化局部拉普拉斯矩阵和全局拉普拉斯矩阵,通过对局部和全局拉普拉斯矩阵进行特征值分解,得到训练样本的低维表示。然后借助核映射获取测试样本的低维表示。最后在低维空间建立球形覆盖分类模型,实现目标分类。在MNIST手写体数据集、YaleB和AR人脸数据集上的实验表明文中算法的有效性,证明其在实际应用领域具有一定价值。 相似文献
4.
软件缺陷预测是提升软件质量的有效方法,而软件缺陷预测方法的预测效果与数据集自身的特点有着密切的相关性。针对软件缺陷预测中数据集特征信息冗余、维度过大的问题,结合深度学习对数据特征强大的学习能力,提出了一种基于深度自编码网络的软件缺陷预测方法。该方法首先使用一种基于无监督学习的采样方法对6个开源项目数据集进行采样,解决了数据集中类不平衡问题;然后训练出一个深度自编码网络模型。该模型能对数据集进行特征降维,模型的最后使用了三种分类器进行连接,该模型使用降维后的训练集训练分类器,最后用测试集进行预测。实验结果表明,该方法在维数较大、特征信息冗余的数据集上的预测性能要优于基准的软件缺陷预测模型和基于现有的特征提取方法的软件缺陷预测模型,并且适用于不同分类算法。 相似文献
5.
6.
针对Bugzilla缺陷跟踪系统的Eclipse项目软件缺陷报告数据集,使用特征选择和机器学习算法对向量化的原始数据进行特征降维、权重优化等处理,得到数据维度较低的优化数据集,并采用分类算法评估软件缺陷报告严重程度。通过对4种特征选择算法及4种机器学习算法处理结果的交叉对比表明,使用信息增益特征选择算法对原始数据集进行特征优化,并结合多项式贝叶斯算法对优化数据集进行训练与测试,可使软件缺陷报告严重性预测的AUROC值提高至0.767。 相似文献
7.
基于已有软件缺陷数据,建立分类模型对待测软件模块进行预测,能够提高测试效率和降低测试成本。现有基于机器学习方法对软件缺陷预测的研究大部分基于二支决策方式,存在误分率较高等问题。本文针对软件缺陷数据具有代价敏感特性且软件度量取值为连续值等特性,提出了一种基于邻域三支决策粗糙集模型的软件缺陷预测方法,该方法对易分错的待测软件模块作出延迟决策,和二支决策方法相比,降低了误分类率。在NASA软件数据集上的实验表明所提方法能够提高分类正确率并减小误分类代价。 相似文献
8.
9.
特征选择是软件缺陷预测中数据预处理的关键步骤。针对现有特征选择方法存在的降维效果不显著、选取的最优特征子集分类精度低等问题,提出了一种基于自适应混合粒子群优化(SHPSO)的软件缺陷预测特征选择方法。首先,结合种群划分设计了基于Q学习的自适应权重更新策略,其中引入Q学习根据粒子的状态自适应地调整惯性权重;其次,为了平衡算法前期的全局搜索能力和后期的收敛速度,提出了基于曲线自适应的时变学习因子;最后,采用混合位置更新策略帮助粒子尽快跳出局部最优解,并增加粒子的多样性。在12个公开软件缺陷数据集上进行实验验证的结果表明,与使用全部特征的方法、常用的传统特征选择方法及主流的基于智能优化算法的特征选择方法相比,所提方法在提高软件缺陷预测模型分类性能和降低特征空间维度上均取得了有效的结果。与改进樽海鞘群算法(ISSA)相比,所提方法的分类精度平均提高了约1.60%,特征子集规模平均降低了约63.79%。实验结果表明,所提方法可以选出分类精度较高且数量较少的特征子集。 相似文献
10.
11.
为了提高软件的可靠性,软件缺陷预测已经成为软件工程领域中一个重要的研究方向.传统的软件缺陷预测方法主要是设计静态代码度量,并用机器学习分类器来预测代码的缺陷概率.但是,静态代码度量未能充分考虑到潜藏在代码中的语义特征.根据这种状况,本文提出了一种基于深度卷积神经网络的软件缺陷预测模型.首先,从源代码的抽象语法树中选择合适的结点提取表征向量,并构建字典将其映射为整数向量以方便输入到卷积神经网络.然后,基于GoogLeNet设计卷积神经网络,利用卷积神经网络的深度挖掘数据的能力,充分挖掘出特征中的语法语义特征.另外,模型使用了随机过采样的方法来处理数据分类不均衡问题,并在网络中使用丢弃法来防止模型过拟合.最后,用Promise上的历史工程数据来测试模型,并以AUC和F1-measure为指标与其他3种方法进行了比较,实验结果显示本文提出的模型在软件缺陷预测性能上得到了一定的提升. 相似文献
12.
通过挖掘软件代码仓库数据预测软件缺陷是提高软件质量和增强软件安全性的重要方法。人们提出了多种基于机器学习的方法挖掘软件代码仓缺陷数据预测软件缺陷。然而,由于从不同代码仓提取的软件缺陷数据具有异质性,因此机器学习的预测效果往往并不理想。为此,本文提出一种基于多源域适应和数据增强的缺陷预测方法。该方法通过挖掘各种源代码仓和目标代码仓之间的特征相似性提高预测的准确性:一方面利用带权重的最大平均方差使特征分布距离最小,另一方面利用注意力机制提高与目标代码仓高度相似的源代码仓权重。对比实验结果表明,本文所提方法在软件缺陷预测效果最佳。 相似文献
13.
针对拉普拉斯特征映射(LE)只能保持局部近邻信息,对新测试点无法描述的不足,提出一种基于二维核主成分分析的拉普拉斯特征映射算法(2D-KPCA LE)。与核二维主成分分析算法(K2DPCA)不同,该算法首先对训练样本空间进行二维主成分分析(2DPCA),在保留样本空间结构信息的同时通过去相关性得到低秩的投影特征矩阵;然后用核主成分分析法(KPCA)提取全局非线性特征;由于其核函数需要大量存储空间,再用拉普拉斯特征映射(LE)进行降维。在ORL和FERET人脸数据库中的仿真实验结果表明,基于2D-KPCA的拉普拉斯特征映射算法不但可以有效处理复杂的非线性特征,又可以降低算法复杂度,提高流形学习的识别率。 相似文献
14.
引用监督学习策略,定义类内和类间不同的距离度量方式,以替代原来的欧式距离度量,实现对拉普拉斯特征映射算法的改进。将降维之后的结果作为BP神经网络的输入,实现分类。实验结果表明,基于改进的拉普拉斯特征映射算法降维之后的结果,减少了神经网络的训练时间,具有较好的分类正确率。 相似文献
15.
软件缺陷预测是典型的类不均衡学习问题,其中有缺陷的样本数量远少于无缺陷的样本数量,但有缺陷的样本通常是预测的重点。现有的软件预测模型大多建立在基于静态度量元的软件缺陷数据集上,重点关注如何平衡类分布,而忽略了数据集中属性特征对软件缺陷的判别能力。当软件缺陷数据集中的属性特征对类目标概念缺乏判别能力时,传统机器学习算法难以构建有效的软件缺陷预测模型,从而无法获得有效的预测性能。为此,提出了一种基于不相似性的软件缺陷预测算法,通过改善软件缺陷数据集中属性的判别能力,进而提升软件缺陷预测性能。实验证明:基于不相似性的软件缺陷预测算法能够有效地改善传统机器学习算法在软件缺陷数据集上的预测性能。 相似文献
16.
即时软件缺陷预测是保障软件安全与质量相统一的必要途径,在软件工程领域受到越来越多的关注.然而,现有数据集存在特征冗余和特征相关性低的情况,极大影响了即时软件缺陷预测模型的分类性能和稳定性.此外,分析缺陷数据特征对模型的影响尤为重要,但如今对软件缺陷预测模型进行解释性研究较少.针对这些问题,文章基于6个开源项目的2274... 相似文献
17.
基于拉普拉斯特征映射高光谱遥感影像降维及其分类 总被引:1,自引:0,他引:1
在进行高光谱遥感影像监督分类过程中,结合高光谱数据非线性的特点和流形学习强大的非线性处理能力,提出一种基于拉普拉斯特征映射(LE)降维和最佳指数法(OIF)波段组合选择训练样本进行SVM分类的策略,首先对高光谱遥感影像波段进行优化,利用拉普拉斯特征映射法(LE)对波段优选后的影像进行降维,利用OIF选择波段组合叠加进行训练样本选择。在此基础上采用支持向量机(SVM)进行分类处理,取得了优于PCA的效果。实验证明了流形学习是一种行之有效的高光谱遥感数据特征提取方法。 相似文献
18.
针对高光谱遥感影像数据量大、数据冗余度高的特点,引入拉普拉斯特征映射方法对高光谱遥感数据进行非线性降维。为了解决传统流形学习方法不能处理大数据量遥感影像的问题,本文提出了基于多元线性回归的拉普拉斯特征映射线性解法。实验证明,本文提出的降维方法能够保持数据集在原始特征空间分布的局部几何属性,降维后的影像具有更好的分类精度。 相似文献
19.