首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
杨欣  刘永喜  张鑫  赵辰 《软件》2023,(2):37-41
我国的高等教育从精英教育转变为大众教育,从而使高等教育毕业生的规模不断扩大,因此,在高校毕业生规模每年都屡创新高的形势下,科学评价大学生就业能力对于社会发展具有十分重要的意义。本研究针对上述问题提出了釆用SpringBoot+Vue框架搭建一个学生信息管理系统,并提出基于XGBoost和遗传算法相结合的大学生就业预测模型,利用现有数据集对模型进行训练后,预测精度达85%,对于大学生就业能力评价具有一定现实意义。  相似文献   

2.
《微型机与应用》2017,(23):58-61
针对互联网行业的客户流失预测问题,提出了一种社交网络分析和机器学习相结合的客户流失预测方法。考虑到社交活动对用户流失的影响,首先采用社交网络分析方法从用户社交数据中提取特征,然后使用XGBoost(Extreme Gradient Boosting)算法来进行客户流失预测,最后将该方法与其他机器学习算法(Logistic回归、支持向量机和随机森林)进行比较。实验结果表明,所提出的社交网络分析和XGBoost相结合的客户流失预测方法优于传统方法。  相似文献   

3.
针对低渗油田储层粒度预测问题,本文提出利用机器学习中的极致剃度提升树(extreme gradient boosting,XGBoost)来对低渗油田储层粒度进行预测的方案.首先,根据问题构建合适的XGBoost模型,然后根据已有的岩心储层粒度特征值与其余测井信息的关系,选取适用于粒度预测的测井曲线建立样本库,最后利用...  相似文献   

4.
外周穿刺置入中心静脉导管(PICC)技术被广泛运用于中长期静脉治疗.在PICC置管时会导致各种并发症和不良反应,如PICC相关性血栓.随着机器学习和深度神经网络的不断发展与完善,为PICC相关性血栓的辅助诊断提供了基于临床医学数据的解决方法.本文构建了基于DeepFM和XGBoost的融合模型,针对稀疏数据进行特征融合并能降低过拟合的情况,能够对PICC相关性血栓提供风险预测.实验结果表明,融合模型能够有效地对PICC相关性血栓进行特征重要性提取并预测患病概率,辅助临床在外周穿刺置过程中识别血栓高危风险因素,及时进行干预从而预防血栓的发生.  相似文献   

5.
预防自然灾害并采取有效的措施进行防护,能有效保障人类生命安全并减少经济损失。在应对森林火灾时,如果能准确预测火灾的毁坏面积,政府和消防人员就能够采取有效的救灾措施控制住灾情。基于此,选取加州大学尔湾分校(University of California Irvine,UCI)网站的森林火灾统计数据,采用随机森林和XGBoost两种集成算法对森林火灾毁坏面积进行预测,并比较两种算法的优势和预测效果。经比较发现,随机森林算法不需要对样本特征进行预筛选,而是通过检测各特征值之间的相关性,平衡误差并进行不断优化,寻找出对火灾面积影响较大的因素。因此,随机森林算法更适用于处理特征值较多的森林火灾数据集。  相似文献   

6.
量化投资作为一种投资管理的新方法,在欧美国家发展已达40年之久,在国内也受到较大关注。论文对沪深300股票的数据进行预测,依据年度财务报告数据进行分析,采用XGBoost算法建立模型,基于网格搜索算法得出最佳权重,并分别对LR算法、随机森林算法、SVM算法和XGBoost算法进行分析,证明了XGBoost算法在预测的准确度上是较优的。  相似文献   

7.
综合考虑混合式学习成绩分类预测中数据存在不平衡性和稀疏性的特点,提出了一种SMOTE-XGBoostFM混合式学习成绩分类预测模型.首先通过SMOTE采样均衡数据集;针对数据稀疏性问题,使用XGBoost对采样后的数据进行特征交叉,然后对所生成树的叶子节点进行独热编码,以生成高阶特征数据,最后将其输入因子分解机(FM)进行迭代训练以获最优模型.实验结果表明, SMOTE-XGBoost-FM模型在混合式学习成绩分类预测中准确率达到了92.7%,相较于单一的XGBoost、FM模型分别提升了5.7%和11.7%,能有效对学生学习情况进行分类预测,为提高教学效果提供参考.  相似文献   

8.
9.
随着足球运动全球化程度的不断提升,全球转会市场愈发庞大,然而针对影响转会交易最关键的因素球员身价的深入模型及应用研究还较为缺乏。以国际足球联合会FIFA的官方球员数据库为研究对象,首先,在区分不同球员位置的前提下,运用Box-Cox变换、F-Score特征选择等方法对原始数据集进行特征处理;其次,通过XGBoost构建球员身价预测模型,并与Random Forest, Adaboost, GBDT,SVR等主流机器学习算法进行10折交叉验证实验对比,证明了XGBoost模型在R2,MAE,RMSE这3项指标上的性能优势;最后,在身价预测模型的基础上,融合SHAP框架分析不同位置影响球员身价的重要因素,为球员身价评估、身价对比分析、球员训练策略制定等场景提供决策支持。  相似文献   

10.
研究了财务报表舞弊识别问题。以2011-2020年深沪A股上市公司的财务报表为样本数据,引入信息值构建指标筛选模型,提取17个财务变量和4个非财务变量,对样本数据进行清洗和归一化后,运用XGBoost算法对样本数据进行分类。实验结果表明,基于XGBoost算法构建的财务报表舞弊识别模型在所有性能指标上都优于机器学习算法中的逻辑回归、支持向量机和随机森林算法。  相似文献   

11.
随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用。现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向。本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测。本文的算法在微博流行度预测数据集中得到验证,并且取得了准确率高达85.69%的优越效果。  相似文献   

12.
为解决加密型Webshell与非加密型Webshell的代码特征不统一、难以提取的问题,提出一种基于XGBoost算法的Webshell检测方法。首先,对Webshell进行功能分析,发现绝大部分Webshell都具有代码执行、文件操作、数据库操作和压缩与混淆编码等特点,这些特征全面地描述了Webshell的行为。因此,对于非加密型的Webshell,将其主要特征划分为相关函数出现的次数。对于加密型的Webshell,根据代码的静态特性,将文件重合指数、信息熵、最长字符串长度、压缩比4个参数作为其特征。最后,将两种特征统一起来作为Webshell特征,改善了Webshell特征覆盖不全的问题。实验结果表明,所提方法能有效地对两种Webshell进行检测;与传统的单一类型Webshell检测方法相比,该方法提高了Webshell检测的效率与准确率。  相似文献   

13.
随着具有高频数据流特性的D-PMU设备的广泛应用和普及,配电网系统中的量测数据量爆炸式增长,对大数据处理技术的要求越来越高。为了配电网能够可靠稳定运行,准确并及时对D-PMU存在的扰动进行在线预测分类显得非常重要。因此,提出了基于Spark的计算平台,采用PCA算法对D-PMU时间序列特征进行提取,结合XGBoost算法对D-PMU主要的扰动特征进行预测分类。实验结果表明提出的方法提高了D-PMU扰动分类的准确性,并且算法的计算速度也有显著的提升,确保了数据处理的实时性。  相似文献   

14.
棉花价格受多种因素影响而复杂多变, 通过选择合适的数据特征和预测模型可提高棉花价格预测精度. 本文以棉花日现货价格数据为研究目标, 采集了供需关系、国际市场、宏观经济、产业链这4个方面的9项影响因素作为特征, 使用极限梯度提升(XGBoost)算法对棉花价格影响因素进行特征评估筛选, 选取其中5项特征后, 采用引入注意力机制(Attention)的时间卷积网络(TCN) TCN-Attention、TCN、LSTM、GRU等模型对棉花价格进行预测. 通过消融实验和对比实验, 结果表明: (1)经过XGBoost特征筛选后, TCN-Attention价格预测的平均绝对误差(MAE)和均方根误差(RMSE)为41.47和58.76, 与未筛选相比分别降低了77.57%和76.49%. (2)与TCN、LSTM、GRU相比, 本文提出的TCN-Attention模型预测结果更准确, MAERMSE均降低50%以上, 运行时间较LSTM、GRU缩短60%.  相似文献   

15.
针对多变量的商品销售预测问题,为了提高预测的精度,提出了一种ARIMA-XGBoost-LSTM加权组合方法,对具有多个影响因素的商品销售序列进行预测,本文采用ARIMA做单变量预测,将预测值作为新变量同其他变量一起放入XGBoost模型中进行不同属性的挖掘,并将XGBoost的预测值合并到多变量序列中,然后通过将新的多维数据转换为监督学习序列后利用LSTM模型进行预测,将3种模型预测结果进行加权组合,通过多次实验得出最佳组合的权值,以此计算出最终的预测值.数据结果表明,基于XGBoost和LSTM的加权组合的多变量预测方法比单一的预测方法所得到的预测值更为精准.  相似文献   

16.
目前客户流失预测面临的主要问题之一就是类不平衡性(class imbalance)。针对这个问题,首先应用欠抽样法(undersampling)处理客户流失数据降低不平衡性,再应用C4.5D、C4.5N、RIPPER、NaiveBayes和RandomForest机器学习方法对客户流失进行预测。实验结果表明,欠抽样法是在牺牲负类样本预测精度的前提下,提高正类预测精度,于是采用重复抽样法(resampling)来弥补欠抽样法的缺陷,减少负类样本中含有大量有用信息的丢失,实验结果证明了这种方法的正确性和有效性  相似文献   

17.
为解决在数据不平衡条件下使用XGBoost框架处理二分类问题时算法对少数类样本的识别能力下降的问题,提出了基于代价敏感激活函数的XGBoost算法(Cost-sensitive Activation Function XGBoost,CSAF-XGBoost).在XGBoost框架构建决策树时,数据不平衡会影响分裂点的...  相似文献   

18.
近年来,随着在线信贷的飞速发展,贷款总量不断加大,违约概率不断提升。因此对贷款风险进行深入研究,对在线信贷企业预防互联网金融风险是非常具有现实意义的。针对贷款数据非平衡分布、大量噪声、维度高的问题,本文提出一种基于SMOTE和XGBoost的贷款风险预测方法。通过特征工程对数据进行降维和去噪;针对数据的非平衡问题,使用SMOTE算法进行过采样,平衡正负样本数目;基于以上工作,构建XGBoost分类模型,与一些传统分类算法进行对比,然后对比在不同正负样本比例时,预测结果的有效性。实验表明,相比于传统分类模型,XGBoost算法在贷款风险预测模型中具有更好的效果,通过SMOTE算法增加少数类样本的比例可以提高预测结果的有效性。  相似文献   

19.
20.
为了解决冠心病诊断模型中性能无法满足临床应用要求、缺乏可解释性的问题,提出一种融合XGBoost与SHAP的冠心病预测及其特征分析模型。在对数据集进行特征工程的基础上,将处理好的数据集输入XGBoost模型进行训练,并且对模型进行优化,进一步提高了模型的性能表现;其次,与基于SVM、朴素贝叶斯等六种机器学习模型以及八种主流机器学习模型进行实验对比,参数优化后的XGBoost模型在准确率、特异度、F1值和AUC值四个指标上分别达到0.9942、0.9970、0.9941和0.9998,均优于已有模型;最后引入SHAP框架增强模型可解释性,综合四种模型特征重要性排序结果,识别出影响冠心病的重要因素,为医生作出正确的诊断提供决策参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号