首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
为提高重构效率,提出一种通过代码行变更指数来对异味类进行排序的方法.此前对于代码异味的研究主要关注静态代码行度量指标,但是在整个项目开发过程中代码行数是动态变化的,且变化规模越大的类出现异味的概率越大.通过对整个项目开发过程中代码行动态变化过程进行分析,提出代码行变更指数对异味类变化规模进行排序,使其重构主要关注那些变化较大的异味类,减少重构成本.对比实验结果表明,按照该方法对异味类进行重构,可以减少异味剩余率,提高重构效率.  相似文献   

2.
文本多标签学习是一项重要的自然语言处理任务,是对信息进行有效管理的一项关键技术.该任务需同时考虑到对文本和多标签进行建模.基于此,论文首先利用预训练语言模型BERT对文本序列进行特征提取,然后采用配对排序损失作为模型训练的目标函数,以对多标签之间的排序关系进行建模.最后为得到更精准的预测结果,加入了辅助的标签阈值学习.考虑到基于铰链函数的排序损失存在训练困难的现象,为此论文采用了一种光滑的替代损失,并从理论上验证了其有效性.在真实文本数据集上的实验表明,本文提出的算法能提供更好的性能从多标签分类和排序两方面.  相似文献   

3.
代码异味会导致软件质量逐渐衰退,降低软件可理解性和可维护性.为检测软件结构中的代码异味,提出了一种基于CK度量的、经过两步特征选择的软投票集成学习的代码异味检测方法,该方法首先进行特征选择,使用Pearson相关系数剔除冗余特征,并在剩余度量中使用XGBoost特征重要性筛选相关度大的度量.然后,针对仅使用单一机器学习模型泛化性能不佳的问题,提出一种基于5种较成熟机器学习模型的软投票集成学习模型,完成代码异味分类检测任务.实验基于CK度量,利用含7个开源项目、4种代码异味的数据集,实验结果表明,此种方法能够减少特征维度,且在性能指标上优于其它分类模型,其中F1值最高提升3.24%,AUC最高提升2.32%.  相似文献   

4.
为检测软件结构中的代码异味,提出在属性选择过程中将ReliefF算法和互信息结合,筛选出相关度大而冗余度小的条件属性集.传统C4.5算法在构造决策树时,只考虑条件属性和目标属性的相关度,忽略条件属性间的相关度,基于这个问题提出在C4.5算法中加入对称不确定性(SU),利用SU计算条件属性间的相关度,更新信息增益率的计算...  相似文献   

5.
张勇 《福建电脑》2007,(8):124-125
在本文中,我们通过对比现有的多标签分类和关联规则的分类,提出一种新的分类方法多类别多标签关联分类.与其他分类方法相比较.它有较强的竞争力并且是可伸缩的.  相似文献   

6.
基于机器学习和深度学习的代码异味检测方法需要依赖大量的标注数据集,而在代码异味领域标注数据集数量稀缺,并且与此同时存在着大量的未标注数据。因此,可以将主动学习的方法应用于代码异味检测。以往的研究表明,在软件工程领域,主动学习可以在花费更少的标注和训练成本条件下得到性能更高的模型。然而,主动学习对代码异味检测模型性能的具体影响尚未明确。盲目在代码异味检测任务中应用在其他领域中表现良好的主动学习策略可能适得其反。本文旨在评估主动学习对代码异味检测模型性能的影响,为此,本文在代码异味数据集MLCQ上进行了广泛分析,包括5种查询策略的11种实现方式、8种分类器及10种不同的查询比率,以探究它们对代码异味检测模型性能的具体影响。结果表明:(1)在本研究涉及的11种查询策略中,基于不确定性的查询策略与基于委员会的查询策略表现均优于其他策略。特别是,边缘查询(基于不确定性)和投票熵查询(基于委员会)表现尤为突出。(2)在本研究涉及的8种分类器中,随机森林分类器综合表现最好(3)在主动学习查询比率方面,查询比率从0%增加至25%过程中,模型性能随查询比率增加提升明显,查询比率从25%增加至50%过程中,模型性能随查询比率增加提升放缓,且可能出现性能下降。  相似文献   

7.
代码异味是不良的设计和代码实现的症状,可能阻碍代码理解、增加代码更改和出错的可能性.以前的研究专注于单一模型在代码异味上的检测,并且无法为开发人员提供重构建议.针对上述问题,提出一种基于Bag-ging异构集成模型的代码异味检测与重构优先级划分方法,该方法利用分类器间的异质性,通过F1集成策略来检测Complex Class、Long Method、Spaghetti Code等三种代码异味,并将模型输出的异味概率转化为可能性分布后,为开发人员提供重构意见.实验在6个开源系统的32个版本上验证、评估:(1)基分类器的稳定性以及与代码异味的关系;(2)Bagging异构集成模型检测上述代码异味的性能;(3)将异味概率转化为可能性分布并作为重构优先级的有效性.实验结果表明,最佳基分类器因代码异味类型而异.同时,Bagging异构集成模型相较于基分类器,F1提高0.06~40.51个百分点,AUC提高0.45~28.37个百分点.最后将Bagging异构集成模型的重构优先级与6名受访者的重构优先级进行Kappa一致性检验,两者具有高度一致性.  相似文献   

8.
多标签分类器准确性评估方法的研究   总被引:1,自引:0,他引:1  
分类是数据挖掘领域研究的核心技术之一,分类器性能评估方法也是众多学者的研究热点之一。以往的分类器性能评估方法一般针对于单标签数据集,对于多标签问题并未涉及。文中主要针对多标签分类问题中的单实例情况,提出了一种多标签分类器准确性评估方法(EMOSIML)。该方法的思路是:如果分类器对一个多标签对象预测的类别标签是其属于的多个类别标签中的任何一个,则分类结果都是正确的。该方法用C#编程实现,并对朴素贝叶斯分类器进行分类器性能评估实验,实验结果表明,EMOSIML评估方法较传统的准确率评估方法更合理。  相似文献   

9.
分类是数据挖掘领域研究的核心技术之一,分类器性能评估方法也是众多学者的研究热点之一。以往的分类器性能评估方法一般针对于单标签数据集,对于多标签问题并未涉及。文中主要针对多标签分类问题中的单实例情况,提出了一种多标签分类器准确性评估方法(EMOSIML)。该方法的思路是:如果分类器对一个多标签对象预测的类别标签是其属于的多个类别标签中的任何一个,则分类结果都是正确的。该方法用C#编程实现,并对朴素贝叶斯分类器进行分类器性能评估实验,实验结果表明,EMOSIML评估方法较传统的准确率评估方法更合理。  相似文献   

10.
艾成豪  高建华  黄子杰 《计算机工程》2022,48(7):168-176+198
代码异味是违反基本设计原理或编码规范的软件特征,源代码中若存在代码异味将提高其维护的成本和难度。在代码异味检测方法中,机器学习相较其他方法能够取得更好的性能表现。针对使用大量特征进行训练可能会引起“维度灾难”以及单一模型泛化性能不佳的问题,提出一种混合特征选择和集成学习驱动的代码异味检测方法。通过ReliefF、XGBoost特征重要性和Pearson相关系数计算出所有特征的权重并进行融合,删除融合后权重值较低的无关特征,以得到特征子集。构建具有两层结构的Stacking集成学习模型,第一层的基分类器由3种不同的树模型构成,第二层以逻辑回归作为元分类器,两层结构的集成学习模型能够结合多样化模型的优点来增强泛化性能。将特征子集输入Stacking集成学习模型,从而完成代码异味分类与检测任务。实验结果表明,该方法能够减少特征维度,与Stacking集成学习模型第一层中的最优基分类器相比,其在F-measure和G-mean指标上最高分别提升1.46%和0.87%。  相似文献   

11.
为了缩减不同模态数据间的语义鸿沟,提出一种结合深度卷积神经网络和集成分类器链的多标记图像语义标注方法.该方法主要由生成式特征学习和判别式语义学习2个阶段构成.首先利用深度卷积神经网络学习图像的高层视觉特征;然后基于获取的视觉特征与图像的语义标记集训练集成分类器链,并学习视觉特征包含的语义信息;最后利用训练得到的模型对未知图像进行自动语义标注.在Corel5K和PASCAL VOC 2012图像数据集上的实验结果表明,与一些当前国际先进水平的方法相比,文中方法的鲁棒性更强,标注结果更精确.  相似文献   

12.
当标识示例的两个标签分别来源于两个标签集时,这种多标签分类问题称之为标签匹配问题,目前还没有针对标签匹配问题的学习算法。 尽管可以用传统的多标签分类学习算法来解决标签匹配问题,但显然标签匹配问题有其自身特殊性。 通过对标签匹配问题进行深入的研究,在连续AdaBoost(real Adaptive Boosting)算法的基础上,基于整体优化的思想,采用算法适应的方法,提出了基于双标签集的标签匹配集成学习算法,该算法能够较好地学习到标签匹配规律从而完成标签匹配。 实验结果表明,与传统的多标签学习算法用于解决标签匹配问题相比,提出的新算法不仅缩小了搜索的标签空间的范围,而且最小化学习误差可以随着分类器个数的增加而降低,进而使得标签匹配分类更加快速、准确。  相似文献   

13.
ECC-MIMLSVM+是多示例多标签学习框架下一种算法,该算法提出了一种基于分类器链的方法,但其没有充分考虑到标签之间的依赖关系,而且当标签数目的增多,子分类器链长度增加,使得误差传播问题凸显. 因此针对此问题,提出了一种改进算法,将ECC-MIMLSVM+算法和标签依赖关系相结合,设计成基于标记依赖关系集成分类器链(ELDCT-MIMLSVM+)来加强标签间信息联系,避免信息丢失,提高分类的准确率. 通过实验将本文算法与其他算法进行了对比,实验结果显示,本文算法取得了良好的效果.  相似文献   

14.
标记间的相关性在分类问题中具有重要作用,目前有研究将标记相关性引入多标记学习,通过分类器链的形式将标记结果引入属性空间,为学习其他标记提供有用信息。分类器链中标记的预测顺序具有随机性,分类结果存在着很大的不确定性与不稳定性,且容易造成错误信息的传播。为此充分考虑标记的局部分布特性,提出了一种局部顺序分类器链算法,解决分类器链中分类器顺序问题。实验表明,该算法性能优于其他常用多标记学习算法。  相似文献   

15.
章少平  梁雪春 《计算机应用》2015,35(5):1306-1309
传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降.对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应的SVM模型并用复合形算法优化模型参数,最后利用优化的参数并行生成SVM集成分类器模型,采用投票机制得到分类结果.对5组UCI标准数据集进行实验,结果表明采用优化的SVM集成分类器模型较SVM模型、优化的SVM模型等分类精度有了明显的提升,同时验证了不同的bootNum取值对分类器性能效果的影响.  相似文献   

16.
自适应随机森林分类器在每个基础分类器上分别设置了警告探测器和漂移探测器,实例训练时常常会同时触发多个警告探测器,引起多棵背景树同步训练,使得运行所需的内存大、时间长。针对此问题,提出了一种改进的自适应随机森林集成分类算法,将概念漂移探测器设置在集成学习器端,移除各基础树端的漂移探测器,并根据集成器预测准确率确定需要训练的背景树的数量。用改进后的算法对较平衡的数据流进行分类,在保证分类性能的前提下,与改进前的算法相比,运行时间有所降低,消耗内存有所减少,能更快适应数据流中出现的概念漂移。  相似文献   

17.
提出一种针对弱标记的多标记数据集成学习分类方法,它通过采用基于相似性成对约束投影的方法来处理数据,更好地利用了弱标记样本的特征,从而提高了分类性能。  相似文献   

18.
闫钧华  侯平  张寅  吕向阳  马越  王高飞 《计算机应用》2021,41(11):3178-3184
针对图像混合失真类型判定难的问题,在深度学习多标签分类思想的基础上,提出了一种基于多尺度多分类器卷积神经网络(CNN)的混合失真类型判定方法。首先,从图像中截取得到含有高频信息的图像块,将该图像块输入到不同感受野的卷积层中以提取图像的浅层特征图;其次,将浅层特征图输入到各子分类器结构中以进行深层次的特征提取和融合,将融合的特征通过Sigmoid分类器得到判定结果;最后,将各子分类器的判定结果进行融合得到图像的混合失真类型。实验结果表明,在自然场景混合失真数据库(NSMDID)上,所提方法对图像中存在的混合失真类型的平均判定准确率可以达到91.4%,且对大部分类型的判定准确率都在96.8%以上,可见所提方法能够对混合失真图像中的失真类型进行有效的判定。  相似文献   

19.
Error-correcting output coding (ECOC) is a strategy to create classifier ensembles which reduces a multi-class problem into some binary sub-problems. A key issue in designing any ECOC classifier refers to defining optimal codematrix having maximum discrimination power and minimum number of columns. This paper proposes a heuristic method for application-dependent design of optimal ECOC matrix based on a thinning algorithm. The main idea of the proposed Thinned-ECOC method is to successively remove some redundant and unnecessary columns of any initial codematrix based on a metric defined for each column. As a result, computational cost of the ensemble is reduced while preserving its accuracy. Proposed method has been validated using the UCI machine learning database and further applied to a couple of real-world pattern recognition problems (the face recognition and gene expression based cancer classification). Experimental results emphasize the robustness of Thinned-ECOC in comparison with existing state-of-the-art code generation methods.  相似文献   

20.
    
Credit scoring focuses on the development of empirical models to support the financial decision‐making processes of financial institutions and credit industries. It makes use of applicants' historical data and statistical or machine learning techniques to assess the risk associated with an applicant. However, the historical data may consist of redundant and noisy features that affect the performance of credit scoring models. The main focus of this paper is to develop a hybrid model, combining feature selection and a multilayer ensemble classifier framework, to improve the predictive performance of credit scoring. The proposed hybrid credit scoring model is modeled in three phases. The initial phase constitutes preprocessing and assigns ranks and weights to classifiers. In the next phase, the ensemble feature selection approach is applied to the preprocessed dataset. Finally, in the last phase, the dataset with the selected features is used in a multilayer ensemble classifier framework. In addition, a classifier placement algorithm based on the Choquet integral value is designed, as the classifier placement affects the predictive performance of the ensemble framework. The proposed hybrid credit scoring model is validated on real‐world credit scoring datasets, namely, Australian, Japanese, German‐categorical, and German‐numerical datasets.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号