首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
艾成豪  高建华  黄子杰 《计算机工程》2022,48(7):168-176+198
代码异味是违反基本设计原理或编码规范的软件特征,源代码中若存在代码异味将提高其维护的成本和难度。在代码异味检测方法中,机器学习相较其他方法能够取得更好的性能表现。针对使用大量特征进行训练可能会引起“维度灾难”以及单一模型泛化性能不佳的问题,提出一种混合特征选择和集成学习驱动的代码异味检测方法。通过ReliefF、XGBoost特征重要性和Pearson相关系数计算出所有特征的权重并进行融合,删除融合后权重值较低的无关特征,以得到特征子集。构建具有两层结构的Stacking集成学习模型,第一层的基分类器由3种不同的树模型构成,第二层以逻辑回归作为元分类器,两层结构的集成学习模型能够结合多样化模型的优点来增强泛化性能。将特征子集输入Stacking集成学习模型,从而完成代码异味分类与检测任务。实验结果表明,该方法能够减少特征维度,与Stacking集成学习模型第一层中的最优基分类器相比,其在F-measure和G-mean指标上最高分别提升1.46%和0.87%。  相似文献   

2.
乔善平  闫宝强 《计算机应用》2016,36(8):2150-2156
针对多标记学习和集成学习在解决蛋白质多亚细胞定位预测问题上应用还不成熟的状况,研究基于集成多标记学习的蛋白质多亚细胞定位预测方法。首先,从多标记学习和集成学习相结合的角度提出了一种三层的集成多标记学习系统框架结构,该框架将学习算法和分类器进行了层次性分类,并把二分类学习、多分类学习、多标记学习和集成学习进行有效整合,形成一个通用型的三层集成多标记学习模型;其次,基于面向对象技术和统一建模语言(UML)对系统模型进行了设计,使系统具备良好的可扩展性,通过扩展手段增强系统的功能和提高系统的性能;最后,使用Java编程技术对模型进行扩展,实现了一个学习系统软件,并成功应用于蛋白质多亚细胞定位预测问题上。通过在革兰氏阳性细菌数据集上进行测试,验证了系统功能的可操作性和较好的预测性能,该系统可以作为解决蛋白质多亚细胞定位预测问题的一个有效工具。  相似文献   

3.
点击欺诈是近年来最常见的网络犯罪手段之一,互联网广告行业每年都会因点击欺诈而遭受巨大损失。为了能够在海量点击中有效地检测欺诈点击,构建了多种充分结合广告点击与时间属性关系的特征,并提出了一种点击欺诈检测的集成学习框架——CAT-RFE集成学习框架。CAT-RFE集成学习框架包含3个部分:基分类器、递归特征消除(RFE,recursive feature elimination)和voting集成学习。其中,将适用于类别特征的梯度提升模型——CatBoost(categorical boosting)作为基分类器;RFE是基于贪心策略的特征选择方法,可在多组特征中选出较好的特征组合;Voting集成学习是采用投票的方式将多个基分类器的结果进行组合的学习方法。该框架通过CatBoost和RFE在特征空间中获取多组较优的特征组合,再在这些特征组合下的训练结果通过voting进行集成,获得集成的点击欺诈检测结果。该框架采用了相同的基分类器和集成学习方法,不仅克服了差异较大的分类器相互制约而导致集成结果不理想的问题,也克服了RFE在选择特征时容易陷入局部最优解的问题,具备更好的检测能力。在实际互联网点击欺诈数据集上的性能评估和对比实验结果显示,CAT-RFE集成学习框架的点击欺诈检测能力超过了CatBoost模型、CatBoost和RFE组合的模型以及其他机器学习模型,证明该框架具备良好的竞争力。该框架为互联网广告点击欺诈检测提供一种可行的解决方案。  相似文献   

4.
传统的用户属性推断方法主要基于机器学习及统计学习,其推断方法忽略了用户的整体表征及任务之间的相关性。本文提出一种基于多任务融合模型的用户属性推断方法,利用doc2vec独特的结构特性,加入文档向量以实现用户整体表征,避免人工提取特征的局限性。为实现用户多属性推断任务,本文提出基于关联学习的多任务融合推断框架,即在分别识别用户多个属性基础上赋予单用户多属性表征,在增强用户整体表征能力的同时,建立多个属性间的关联关系,提高单任务学习的区分度;然后采用模型融合技术,完成属性间关联学习,提高学习准确率及模型泛化能力,同时使用尽可能少的模型进行融合,提高模型运行效率。经实验比对,本文在多个数据集上的实验结果较其他算法有一定优势。  相似文献   

5.
基于数据离散化方法,提出一种新的支持向量机集成算法,该算法采用粗糙集和布尔推理离散化方法构造有差异的基分类器.并引入一致度指标控制离散化过程,可进一步提高集成学习的分类性能.实验结果表明,该算法不仅具有明显优于单一支持向量机的分类性能.而且能取得比传统集成学习算法Bagging和Adaboost更高的分类正确率.  相似文献   

6.
杨菊  袁玉龙  于化龙 《计算机科学》2016,43(10):266-271
针对现有极限学习机集成学习算法分类精度低、泛化能力差等缺点,提出了一种基于蚁群优化思想的极限学习机选择性集成学习算法。该算法首先通过随机分配隐层输入权重和偏置的方法生成大量差异的极限学习机分类器,然后利用一个二叉蚁群优化搜索算法迭代地搜寻最优分类器组合,最终使用该组合分类测试样本。通过12个标准数据集对该算法进行了测试,该算法在9个数据集上获得了最优结果,在另3个数据集上获得了次优结果。采用该算法可显著提高分类精度与泛化性能。  相似文献   

7.
将极限学习机算法与旋转森林算法相结合,提出了以ELM算法为基分类器并以旋转森林算法为框架的RF-ELM集成学习模型。在8个数据集上进行了3组预测实验,根据实验结果讨论了ELM算法中隐含层神经元个数对预测结果的影响以及单个ELM模型预测结果不稳定的缺陷;将RF-ELM模型与单ELM模型和基于Bagging算法集成的ELM模型相比较,由稳定性和预测精度的两组对比实验的实验结果表明,对ELM的集成学习可以有效地提高ELM模型的性能,且RF-ELM模型较其他两个模型具有更好的稳定性和更高的准确率,验证了RF-ELM是一种有效的ELM集成学习模型。  相似文献   

8.
针对分层Takagi-Sugeno-Kang(TSK)模糊分类器可解释性差,以及当增加或删除一个TSK模糊子分类器时Boosting模糊分类器需要重新训练所有TSK模糊子分类器等问题,提出一种并行集成具有高可解释的TSK模糊分类器EP-Q-TSK.该集成模糊分类器每个TSK模糊子分类器可以使用最小学习机(LLM)被并行地快速构建.作为一种新的集成学习方式,该分类器利用每个TSK模糊子分类器的增量输出来扩展原始验证数据空间,然后采用经典的模糊聚类算法FCM获取一系列代表性中心点,最后利用KNN对测试数据进行分类.在标准UCI数据集上,分别从分类性能和可解释性两方面验证了EP-Q-TSK的有效性.  相似文献   

9.
本文提出了一种个性化垃圾邮件过滤方法,它能够根据用户反馈自动学习出用户兴趣,并随时间的推移自动适应用户兴趣的变化。该方法首先抽取邮件的语言特征和行为特征构建多个基于规则的单独过滤器,然后采用SVM集成学习方法组合这些单独过滤器的结果。为了提高学习速度、减少用户提供反馈的数量,本文采用了主动学习方法挑选更加富含知识的邮件请求用户给出反馈。实验结果表明:集成学习和主动学习相结合的个性化过滤方法在个性化程度、分类准确率、过滤速度以及自动学习能力等方面具有更好的性能。  相似文献   

10.
Mining data streams is the process of extracting information from non-stopping, rapidly flowing data records to provide knowledge that is reliable and timely. Streaming data algorithms need to be one pass and operate under strict limitations of memory and response time. In addition, the classification of streaming data requires learning in an environment where the data characteristics might change constantly. Many of the classification algorithms presented in literature assume a 100 % labeling rate, which is impractical and expensive when data records are rapidly flowing in. In this paper, a new incremental grid density based learning framework, the GC3 framework, is proposed to perform classification of streaming data with concept drift and limited labeling. The proposed framework uses grid density clustering to detect changes in the input data space. It maintains an evolving ensemble of classifiers to learn and adapt to the model changes over time. The framework also uses a uniform grid density sampling mechanism to obtain a uniform subset of samples for better classification performance with a lower labeling rate. The entire framework is designed to be one-pass, incremental and work with limited memory to perform any-time classification on demand. Experimental comparison with state of the art concept drift handling systems demonstrate the GC3 frameworks ability to provide high classification performance, using fewer models in the ensemble and with only 4-6 % of the samples labeled. The results show that the GC3 framework is effective and attractive for use in real world data stream classification applications.  相似文献   

11.
集成学习已成为一种广泛使用的软测量建模框架,但是建立高性能的集成学习软测量模型依然面临特征选择不当、基模型多样性不足、基模型估计性能不佳等诸多挑战.为此,提出一种基于堆栈自编码器多样性生成机制的选择性集成学习高斯过程回归(selective ensemble of stacked autoencoder based Gaussian process regression, SESAEGPR)软测量建模方法.该方法充分发挥深度学习在特征提取方面的优势,通过构建多样性的堆栈自编码器(stacked autoencoder, SAE)网络,建立基于隐特征的高斯过程回归(Gaussian process regression, GPR)基模型.基于模型性能提升率和进化多目标优化对SAEGPR基模型实施两次集成修剪,以降低集成模型复杂度、保持甚至进一步提升模型估计性能,最后,引入PLS Stacking集成策略实现基模型融合.所提出方法显著优于传统全局和全集成软测量建模方法,其有效性和优越性通过青霉素发酵过程和Tennessee Eastman化工过程得到验证.  相似文献   

12.
烧结终点位置(BTP)是烧结过程至关重要的参数,直接决定着最终烧结矿的质量.由于BTP难以直接在线检测,因此,通过智能学习建模来实现BTP的在线预测并在此基础上进行操作参数调节对提高烧结矿质量具有重要意义.针对这一实际工程问题,首先提出一种基于遗传优化的Wrapper特征选择方法,可选取使后续预测建模性能最优的特征组合;在此基础上,为了解决单一学习器容易过拟合的问题,提出了基于随机权神经网络(RVFLNs)的稀疏表示剪枝(SRP)集成建模算法,即SRP-ERVFLNs算法.所提算法采用建模速度快、泛化性能好的RVFLNs作为个体基学习器,采用对基学习器基函数与隐层节点数等参数进行扰动的方式来增加集成学习子模型间的差异性;同时,为了进一步提高集成模型的泛化性能与计算效率,引入稀疏表示剪枝算法,实现对集成模型的高效剪枝;最后,将所提算法用于烧结过程BTP的预测建模.工业数据实验表明,所提方法相比于其他方法具有更好的预测精度、泛化性能和计算效率.  相似文献   

13.
一种集成式不确定推理方法研究   总被引:2,自引:0,他引:2  
摘要集成学习是采用某种规则把一系列学习器的结果进行整合以获得比单个学习器更好的学习效果的一种机器学习方法。研究表明集成学习是可行的,能取得比传统学习方法更好的性能。不确定推理是人工智能的重要研究方向之一,目前已经开发出了多种不确定推理方法,这些方法在实际应用中各有优缺点。借鉴集成学习,提出一种集成式不确定推理方法,其基本思想是按照一定的策略集成多种不确定推理方法,以提高推理的准确性。理论分析和实验结果验证了方法的合理性和可行性。  相似文献   

14.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。  相似文献   

15.
作为一种解决标签模糊性问题的新学习范式, 标记分布学习(LDL)近年来受到了广泛的关注. 为了进一步提升标记分布学习的预测性能, 提出一种联合深度森林与异质集成的标记分布学习方法(LDLDF). 所提方法采用深度森林的级联结构模拟具有多层处理结构的深度学习模型, 在级联层中组合多个异质分类器增加集成的多样性. 相较于其他现有LDL方法, LDLDF能够逐层处理信息, 学习更好的特征表示, 挖掘数据中丰富的语义信息, 具有强大的表示学习能力和泛化能力. 此外, 考虑到深层模型可能出现的模型退化问题, LDLDF采用一种层特征重用机制(layer feature reuse)降低模型的训练误差, 有效利用深层模型每一层的预测能力. 大量的实验结果表明, 所提方法优于近期的同类方法.  相似文献   

16.
Ensemble methods aim at combining multiple learning machines to improve the efficacy in a learning task in terms of prediction accuracy, scalability, and other measures. These methods have been applied to evolutionary machine learning techniques including learning classifier systems (LCSs). In this article, we first propose a conceptual framework that allows us to appropriately categorize ensemble‐based methods for fair comparison and highlights the gaps in the corresponding literature. The framework is generic and consists of three sequential stages: a pre‐gate stage concerned with data preparation; the member stage to account for the types of learning machines used to build the ensemble; and a post‐gate stage concerned with the methods to combine ensemble output. A taxonomy of LCSs‐based ensembles is then presented using this framework. The article then focuses on comparing LCS ensembles that use feature selection in the pre‐gate stage. An evaluation methodology is proposed to systematically analyze the performance of these methods. Specifically, random feature sampling and rough set feature selection‐based LCS ensemble methods are compared. Experimental results show that the rough set‐based approach performs significantly better than the random subspace method in terms of classification accuracy in problems with high numbers of irrelevant features. The performance of the two approaches are comparable in problems with high numbers of redundant features.  相似文献   

17.
量化是压缩卷积神经网络、加速卷积神经网络推理的主要方法.现有的量化方法大多将所有层量化至相同的位宽,混合精度量化则可以在相同的压缩比下获得更高的准确率,但寻找混合精度量化策略是很困难的.为解决这种问题,提出了一种基于强化学习的卷积神经网络混合截断量化方法,使用强化学习的方法搜索混合精度量化策略,并根据搜索得到的量化策略混合截断权重数据后再进行量化,进一步提高了量化后网络的准确率.在ImageNet数据集上测试了ResNet18/50以及MobileNet-V2使用此方法量化前后的Top-1准确率,在COCO数据集上测试了YOLOV3网络量化前后的mAP.与HAQ, ZeroQ相比, MobileNet-V2网络量化至4位的Top-1准确率分别提高了2.7%和0.3%;与分层量化相比, YOLOV3网络量化至6位的mAP提高了2.6%.  相似文献   

18.
巩文科  李心广  赵洁 《计算机工程》2007,33(8):152-153,156
针对目前入侵检测中存在的误检率高、对新的入侵方法不敏感等问题,提出了一种基于神经网络集成的入侵检测方法。使用负相关法训练神经网络集成,采用tf×idf的系统调用编码方式作为输入。实验结果表明,与单神经网络方法相比,神经网络集成弥补了神经网络方法在检测数据上的不足,在保证较高的入侵检测率的前提下,保持了较低的误检率。  相似文献   

19.
使用集成分类器的方法进行入侵检测,但差的个体分类器往往会对集成性能造成不良影响。因此,使用信息增益法评价各分类器性能,并剔除表现不好的若干个分类器。一方面,降低了分类器空间维数。另一方面,提高了集成效果。在公用的入侵检测数据集上的实验结果表明,本文方法具有较好的集成效果,优于单分类器性能。  相似文献   

20.
盛高斌  姚明海 《计算机仿真》2009,26(10):198-201,318
为了提高小数据量的有标记样本问题中学习器的性能,结合半监督学习和选择性集成学习,提出了基于半监督回归的选择性集成算法SSRES。算法基于半监督学习的基本思想,同时使用有标记样本和未标记样本训练学习器从而减少对有标记样本的需求,使用选择性集成算法GRES对不同学习器进行适当的选择,并将选择的结果结合提高学习器的泛化能力。实验结果表明,在小数据量的有标记样本问题中,该算法能够有效地提高学习器的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号