首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
2.
文章在Give Me Some Credit数据集上构建Stacking模型,使用SMOTE+Tomek Link综合采样法处理非平衡数据。在实证研究上,选择逻辑回归、K近邻、神经网络、随机森林、LightGBM、XGBoost、Adaboost以及CatBoost模型,并将上述模型分3种情况进行Stacking模型融合。结果显示,对此数据集而言,将随机森林、XGBoost、Adaboost、K近邻以及神经网络5个模型作为基学习器,将逻辑回归作为第二层学习器建立Stacking模型的效果最好。因此,利用Stacking模型构建信用贷款违约风险预测模型具有优异的分类性能和较强的可行性。  相似文献   

3.
随着网络剧近年来的飞速发展, 对播放量的研究也逐渐受到关注. 网络剧播放量反映了网络剧的口碑和受欢迎程度, 这与制作方和投资方的收益密切相关. 但目前的研究尚未考虑观众评论的情感态度对播放量的影响, 并且预测模型也较为简单, 预测精度有待进一步提高. 本文在对用户评论进行情感分析的基础上, 构建Stacking集成学习模型对我国网络剧的播放量进行预测. 首先基于SO-PMI算法构建网络剧领域情感词典, 并结合基础情感词典以及点赞数权重计算出评论情感得分, 加入预测指标体系中; 接着以随机森林(random forest, RF), GBDT, XGBoost以及LightGBM为基学习器, MLR为元学习器, 构建Stacking网络剧播放量分阶段的预测模型, 使用当前数据对下一周的播放量进行预测; 最后进行模型比较分析, 并得出预测变量的重要性分值. 实验结果显示, 本文所构建的模型判定系数R方值达到了0.89, 高于基学习器单独的模型预测R方值 (最高0.84)以及未加入情感得分变量的Stacking模型预测R方值 (0.81). 可以得出加入情感得分变量后, 本文构建的Stacking集成学习模型在一定程度上可以提高网络剧播放量的预测精度.  相似文献   

4.
容器云的迅速发展使业务量迅速增加,对容器资源利用率的未来趋势进行预测,从而提前分配资源来提高资源的利用率并且降低资源的浪费是一种合理的做法。为了实现对容器云资源的合理预测,提出一种基于改进的Stacking集成方法的云资源负载预测模型。模型的第一阶段是通过设立基学习器对云资源负载数据进行特征选择,降低数据集特征的复杂度。第二阶段是使用GA-BP神经网络模型改进的DBN模型(DBN-GA-BP)对第一阶段的特征选择数据进行集成预测。实验结果表明,与单一模型和未改进的Stacking模型对比,该模型具有更高的预测精度。  相似文献   

5.
《软件工程师》2019,(12):1-4
预测性维护是工业互联网应用的重点,实现预测性维护的关键是对设备系统或核心部件的寿命进行有效预测。随着近年来机器学习的发展,机械设备海量数据已成为工业互联网分析核心部件剩余寿命的关键指标,也成为设备健康管理决策性数据。基于工程机械设备大数据,结合XGBoost、随机森林、LightGBM等多种机器学习模型,多维度探究影响机械核心部件寿命的机器学习模型效果,建立Stacking算法模型融合的部件寿命预测模型,并在核心部件数据上验证模型预测有效性,从而减少设备非计划停机时间,推进智能制造和预测性维护的进步。  相似文献   

6.
针对目前主流恶意网页检测技术耗费资源多、检测周期长和分类效果低等问题,提出一种基于Stacking的恶意网页集成检测方法,将异质分类器集成的方法应用在恶意网页检测识别领域。通过对网页特征提取分析相关因素和分类集成学习来得到检测模型,其中初级分类器分别使用K近邻(KNN)算法、逻辑回归算法和决策树算法建立,而次级的元分类器由支持向量机(SVM)算法建立。与传统恶意网页检测手段相比,此方法在资源消耗少、速度快的情况下使识别准确率提高了0.7%,获得了98.12%的高准确率。实验结果表明,所提方法构造的检测模型可高效准确地对恶意网页进行识别。  相似文献   

7.
综合考虑混合式学习成绩分类预测中数据存在不平衡性和稀疏性的特点,提出了一种SMOTE-XGBoostFM混合式学习成绩分类预测模型.首先通过SMOTE采样均衡数据集;针对数据稀疏性问题,使用XGBoost对采样后的数据进行特征交叉,然后对所生成树的叶子节点进行独热编码,以生成高阶特征数据,最后将其输入因子分解机(FM)进行迭代训练以获最优模型.实验结果表明, SMOTE-XGBoost-FM模型在混合式学习成绩分类预测中准确率达到了92.7%,相较于单一的XGBoost、FM模型分别提升了5.7%和11.7%,能有效对学生学习情况进行分类预测,为提高教学效果提供参考.  相似文献   

8.
为了提高Stacking集成算法的分类性能,充分利用Stacking学习机制产生的先验信息和贝叶斯网络丰富的概率表达能力,提出一种基于属性值加权朴素贝叶斯算法的Stacking集成分类算法AVWNB-Stacking(Stac-king based Attribute Value Weight Naive Bayes)...  相似文献   

9.
单一机器学习算法进行短期负荷预测存在着泛化能力受限的问题,本文将Stacking 集成学习模型引入到短期负荷预测问题,对于在交叉验证下同一基学习器不同预测模型表现出预测准确度的差异性,根据预测精度对同一基学习器中不同预测结果进行赋权,考虑到不同环境下各影响因子对日负荷值影响程度不同,引入蚁狮算法(ALO)自适应的调整各个影响因子的权值,提高相似日选取方法的准确性,通过相似日选取方法筛选出的相似日集合样本训练改进的Stacking算法预测模型,利用中国北方某地区的负荷数据进行实际算例分析。实验结果表明,在面对负荷影响因素复杂且训练样本较多的情况下。本文所提的方法具有良好的鲁棒性、稳定性和预测精度。  相似文献   

10.
准确的用户流失预测能力有助于企业提高用户保持率、增加用户数量和增加盈利。现有的流失用户预测模型大多为单一模型或是多个模型的简单融合,没有充分发挥多模型集成的优势。借鉴了随机森林的Bootstrap Sampling的思想,提出了一种改进的Stacking集成方法,并将该方法应用到了真实数据集上进行流失用户的预测。通过验证集上的实验比较可知,提出的方法在流失用户F1值、召回率和预测准确率3项指标上均好于所有相同结构的经典Stacking集成方法;当采用恰当的集成结构时,其表现可超越基分类器上的最优表现。  相似文献   

11.
随着国内通信市场逐渐饱和, 电信运营商之间的竞争日趋激烈. 用户流失预测已成为电信运营商最关注的问题之一. 本文提出一种基于多模型融合的方法创建用户离网预测模型. 首先, 将原始训练数据经过有放回采样和正负样本平衡得到多份不同的训练数据; 然后, 利用多份不同的训练数据使用集成学习与深度学习算法训练得到多个基础模型; ...  相似文献   

12.
基于深度学习的三维模型分类方法大都面向特定的具体任务,在面向三维模型多样化分类任务时表现不佳,泛用性不足。为此,提出了一种通用的端到端的深度集成学习模型E2E-DEL(end-to-end deep ensemble learning),由多个初级学习器和一个集成学习器组成,可以自动学习复杂三维模型的复合特征信息;并使用层次迭代式学习策略,综合考量不同层次网络的特征学习能力,合理平衡各个初级学习器的子特征学习和集成学习器的集成特征学习效果,自适应于三维模型多样化分类任务。基于此,设计了一种面向多视图的深度集成学习网络MV-DEL(multi-view deep ensemble learning),应用于一般性、细粒度、零样本三种不同类型的三维模型分类任务中。在多个公开数据集上的实验验证了该方法具有良好的泛化性与普适性。  相似文献   

13.
中国在扶贫工作取得决定性成就的同时,仍有一些脱贫人口存在返贫风险。本文基于不平衡数据集,利用SMOTE模型对返贫类别样本进行过采样处理,处理后的返贫与未返贫样本数据比例为3:1;接着建立基于Stacking集成学习的返贫预测模型,利用网格搜索对各个模型超参数进行寻优,结合10折交叉验证提高模型的泛化能力。本文使用4种不同的融合模型对脱贫户是否返贫进行预测。实验结果表明,与单一模型相比,模型融合后的分类效果要优于单独的分类器,其中最优融合模型的Acc为0.962,F1-score为0.946。  相似文献   

14.
This paper presents an efficient prediction model for a good learning environment using Random Forest (RF) classifier. It consists of a series of modules; data preprocessing, data normalization, data split and finally classification or prediction by the RF classifier. The preprocessed data is normalized using min-max normalization often used before model fitting. As the input data or variables are measured at different scales, it is necessary to normalize them to contribute equally to the model fitting. Then, the RF classifier is employed for course selection which is an ensemble learning method and k-fold cross-validation (k = 10) is used to validate the model. The proposed Prediction Model for Course Selection (PMCS) system is considered a multi-class problem that predicts the course for a particular learner with three complexity levels, namely low, medium and high. It is operated under two modes; locally and globally. The former considers the gender of the learner and the later does not consider the gender of the learner. The database comprises the learner opinions from 75 males and 75 females per category (low, medium and high). Thus the system uses a total of 450 samples to evaluate the performance of the PMCS system. Results show that the system’s performance, while using locally i.e., gender-wise has slightly higher performance than the global system. The RF classifier with 75 decision trees in the global system provides an average accuracy of 97.6%, whereas in the local system it is 97% (male) and 97.6% (female). The overall performance of the RF classifier with 75 trees is better than 25, 50 and 100 decision trees in both local and global systems.  相似文献   

15.
科研合作是学术成果非常重要的实现形式,很多高水平的研究成果通过合作实现.研究合作潜力可以为学者选择合作者提供指导,最大化科研效率.然而当前大数据爆发阻碍了合作者的有效选择.为了解决这个问题,基于学者-文章大数据,经过特征分析和优化,综合考虑学者的文章、机构、研究兴趣等个人属性和相关属性,分别从文章标题、文章等级、文章数量、时间及署名序多维度构造样本特征,以文章所发表的期刊会议等级作为合作者序列对的样本标签,表示当前合作者的潜力高低,利用集成方法的强学习特性,提出了基于集成学习分类方法的科研合作者潜力预测模型.分析并构造对应于科研合作者潜力预测问题的特征集后,采用分类方法解决这一问题.实验中准确率、召回率、F1分数都远高于传统机器学习方法,并能以较少的样本和时间收敛于较高值(80%以上),说明了模型的优越性.  相似文献   

16.
陈全  赵文辉  李洁  江雨燕 《微机发展》2010,(2):87-89,94
通过选择性集成可以获得比单个学习器和全部集成学习更好的学习效果,可以显著地提高学习系统的泛化性能。文中提出一种多层次选择性集成学习算法,即在基分类器中通过多次按权重进行部分选择,形成多个集成分类器,对形成的集成分类器进行再集成,最后通过对个集成分类器多数投票的方式决定算法的输出。针对决策树与神经网络模型在20个标准数据集对集成学习算法Ada—ens进行了实验研究,试验证明基于数据的集成学习算法的性能优于基于特征集的集成学习算法的性能,有更好的分类准确率和泛化性能。  相似文献   

17.
近年来,软件缺陷预测的研究引起了大量关注。软件缺陷预测中普遍存在类别不平衡问题,即有缺陷样本要远少于无缺陷样本,而有缺陷样本又是预测的重点。上述问题使得缺陷预测模型的性能难以满足用户要求,有必要对不平衡数据进行有效处理。目前,采样法和集成学习方法已成为处理不平衡数据的2类重要方法,很多学者提出了不同的过采样方法和集成学习方法。本文研究如何把这2类方法更好地组合在一起,从而有效地处理缺陷预测中的类别不平衡问题。对此,选取RandomOverSampler、SMOTE、Borderline-SMOTE和ADASYN这4种常见的过采样方法以及Bagging、Random Forest、AdaBoost和GBDT这4种常用的集成学习方法,分别将一种过采样方法与一种集成方法组合在一起,从而形成不同的组合。通过对比每一种组合的缺陷预测性能,从而获得最优组合,为缺陷预测中不平衡问题的处理提供有益参考。实验表明,过采样方法ADASYN在处理不平衡问题方面更有优势,它与集成方法GBDT的组合表现最优,相对于其他组合具有更好的缺陷预测性能。  相似文献   

18.
软件缺陷预测是根据软件产品中提取的度量信息和已经发现的缺陷来尽早地预测软件可能还存在的缺陷,基于预测结果可合理分配测试和验证资源.基于机器学习的缺陷预测技术能够较全面地、自动地学习模型来发现软件中的缺陷,已经成为缺陷预测的主要方法.为了提高预测的效率和准确性,对机器学习算法的选择和研究是很关键的.对不同的机器学习缺陷预测方法进行对比分析,发现各算法在不同评价指标上有不同的优势,利用这些优势并结合机器学习中的stacking集成学习方法提出了将不同预测算法的预测结果作为软件度量并进行再次预测的基于组合机器学习算法的软件缺陷预测模型,最后用该模型对Eclipse数据集进行实验,表明了该模型的有效性.  相似文献   

19.
集成学习算法的差异性及性能比较   总被引:1,自引:0,他引:1       下载免费PDF全文
从差异性出发,研究了基于特征集技术(通过一定的策略选取不同特征集以组成训练集)与数据技术(通过取样技术选取不同的训练集)的集成学习算法,分析了两种集成学习算法产生差异性的方法。针对决策树与神经网络模型,在标准数据集中对集成学习算法的性能进行实验研究,结果表明集成学习算法的性能依赖于数据集的特性以及产生差异性的方法等因素。从总体性能考虑,基于数据的集成学习算法在大多数数据集上优于基于特征集的集成学习算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号