首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 468 毫秒
1.
储层岩性分类是地质研究基础, 基于数据驱动的机器学习模型虽然能较好地识别储层岩性, 但由于测井数据是特殊的序列数据, 模型很难有效提取数据的空间相关性, 造成模型对储层识别仍存在不足. 针对此问题, 本文结合双向长短期循环神经网络(bidirectional long short-term memory, BiLSTM)和极端梯度提升决策树(extreme gradient boosting decision tree, XGBoost), 提出双向记忆极端梯度提升(BiLSTM-XGBoost, BiXGB)模型预测储层岩性. 该模型在传统XGBoost基础上融入了BiLSTM, 大大增强了模型对测井数据的特征提取能力. BiXGB模型使用BiLSTM对测井数据进行特征提取, 将提取到的特征传递给XGBoost分类模型进行训练和预测. 将BiXGB模型应用于储层岩性数据集时, 模型预测的总体精度达到了91%. 为了进一步验证模型的准确性和稳定性, 将模型应用于UCI公开的Occupancy序列数据集, 结果显示模型的预测总体精度也高达93%. 相较于其他机器学习模型, BiXGB模型能准确地对序列数据进行分类, 提高了储层岩性的识别精度, 满足了油气勘探的实际需要, 为储层岩性识别提供了新的方法.  相似文献   

2.
针对使用传统机器学习方法来识别恶意TLS流量受到专家经验的影响较大、识别与分类效果不理想的问题,提出了HNNIM(Hybrid Neural Network Identification Model)模型来进行识别与分类。模型由两层组成:第一层用于提取特征,第二层用于识别与分类。第一层中,提取的特征分为两部分,一部分特征由深度神经网络自动挖掘,另一部分特征根据专家经验选取,并由深度神经网络进一步筛选;第二层将第一层筛选出的特征进行聚合,采用全连接的深度神经网络进一步学习和拟合。通过分析大量TLS流量样本,最终选用TLS流量中的ClientHello与ServerHello消息报文与TCP协议交互信息这两部分来作为特征空间。实验的结果表明,HNNIM模型在恶意TLS流量的识别任务上关于恶意样本的F1值为0.989,较随机森林、SVM、XGBoost、卷积神经网络模型,在F1值上分别提升了0.016、0.016、0.019、0.043;在多分类任务上的平均准确率为89.28%,较随机森林、SVM、XGBoost、卷积神经网络模型分别提升了9.92%、9.09%、11.31%、7.03%。  相似文献   

3.
针对雷达频谱图空间信息较少,且通过单一机器学习算法进行毫米波雷达人体跌倒行为识别精度低、稳定性差的问题,使用人体空间雷达点云时序数据,提出了融合TsFresh特征提取和Stacking堆叠集成学习的跌倒识别方法。首先,采用TI-IWR6843毫米波雷达采集人体动作对应的人体运动跟踪时序数据,构建包含不同年龄、身高、体重信息、跌倒方式的数据集。其次,结合TsFresh时序特征提取工具和基于随机森林模型的特征重要性提取人体跌倒关键时序特征。最后,提出了融合随机森林、支持向量机、K-最邻近算法、XGBoost和CatBoost 5种单元机器学习模型的Stacking堆叠式集成学习方法。结果表明,与典型单一机器学习算法相比,Stacking集成学习算法具有明显的性能提升,能够有效提升人体跌倒行为识别准确性和泛化性。  相似文献   

4.
白洋淀湿地是华北平原上重要的浅水湖泊湿地,对雄安新区绿色发展具有重要的生态价值。对白洋淀高度异质化的景观格局进行分类,能够为白洋淀湿地资源的遥感监测提供指导意义。针对湿地季节变化的特点,对白洋淀每个季节选取一期具有代表性的Sentinel-2影像,采用分类与回归树(CART)、支持向量机(SVM)、随机森林(RF)3种常用的机器学习分类器对15种季相组合实验方案进行分类,分析不同季相遥感影像及其组合对白洋淀湿地信息提取的优劣。结果表明:相较于使用单一季相影像分类,多季相影像的组合能够显著提高分类精度,春&夏季相组合能够得到最优的分类效果,相对单季影像总体分类精度提高了10.9%~25.5%,Kappa系数提高了0.09~0.29;SVM分类器的分类表现较为稳定,能够得到最高的平均分类精度,CART分类器在处理高维特征的能力不如随机森林和SVM;不同特征类型对湿地信息提取的贡献度从高到底依次是红边光谱特征、传统光谱特征、缨帽变换特征、主成分分析特征、纹理特征。实验成果能为湿地信息的遥感识别提供依据。  相似文献   

5.
《软件》2019,(8):79-83
针对软件缺陷预测中对不平衡数据分类精度较低的问题,提出了一种新的基于LogitBoost集成分类预测算法,使用SMOTE方法对原始数据集进行平衡处理,然后使用随机森林算法作为弱分类器算法进行分类预测,最后使用LogitBoost算法以加权方式集成各弱分类器的结果。通过在NASAMDP基础数据集上验证得出本文提出的分类预测算法比数据集均衡处理前准确率高出0.1%-11%,同时在均衡处理后比KNN算法平均高出0.9%,比SVM算法平均高出0.4%,比随机森林算法平均高出0.1%。  相似文献   

6.
针对不同轴承数据特征选择困难和单个分类器方法在滚动轴承故障诊断中精度较低的问题,提出了一种基于分类回归树(CART)的随机森林滚动轴承故障诊断算法。随机森林是包含了多种分类器的集成学习方法。通过随机森林的“集成”思想来提高滚动轴承故障诊断的精度。从滚动轴承的振动信号中提取时域统计指标,将其作为特征向量,利用随机森林(Random Forest)对滚动轴承故障进行诊断。利用SQI-MFS实验平台的轴承数据,与传统分类器(SVM、kNN和ANN)以及单个分类回归树的诊断结果相比,随机森林算法具有比较高的诊断精度。  相似文献   

7.
基于无人机高光谱影像和机器学习的红树林树种精细分类   总被引:1,自引:0,他引:1  
利用海南省文昌市清澜港红树林保护区的无人机高光谱影像,采用递归特征消除的随机森林算法(Recursive Feature Elimination-Random Forest,RFE-RF)优选植被光谱特征和纹理特征,通过机器学习中的随机森林(Random Forest,RF)和支持向量机(Support Vector Machine,SVM)算法对研究区内的红树林树种进行精细分类,并对比分析和评价分类模型参数设置对总体精度的影响。结果表明:RF分类方法的总体精度为92.70%、 Kappa系数为0.91,与传统的SVM 分类方法相比,RF算法均提高了5类树种的生产者精度和使用者精度,能够有效地对红树林树种进行精细分类,可为种植资源规划和生态环境保护等方面提供技术支持。  相似文献   

8.
针对高光谱遥感数据树种识别精度不高,现有多分类器组合策略难以避免人为因素干扰的问题,利用自适应权值模型组合2种机器学习算法,有效改善森林类型精细识别精度。研究综合利用影像的光谱和纹理特征、地形特征及森林类型外业调查样本数据,采用分层分类的策略,分别利用支撑向量机(support vector machine,SVM)和随机森林算法(random forest classifier,RFC)对森林类型进行精细识别;为进一步提高森林类型识别精度,采用自适应权值组合模型综合2种分类器,并采用分层随机抽样的独立检验样本进行精度验证。结果表明,自适应权值组合模型可综合不同分类器的优势,避免人为因素干扰且提高识别精度和稳定性,对高分五号(GF-5)星载高光谱遥感数据应用具有借鉴意义和参考价值。  相似文献   

9.
针对医学疾病数据中存在特征冗余的问题,以XGBoost特征选择方法度量特征重要度,删除冗余特征,选择最佳分类特征;针对识别精度不高的问题,使用Stacking方法集成XGBoost、LightGBM等多种异质分类器,并在异质分类器中引入性能更好的CatBoost分类器提升集成分类器分类精度。为了避免过拟合,选择基层分类器输出的分类概率作为高层分类器输入。实验结果表明,提出的基于XGBoost特征选择的XLC-Stacking方法相比当前主流分类算法以及单一的XGBoost算法和Stacking方法有较大提升,识别的准确率和F1-Score达到97.73%和98.21%,更加适用于疾病的诊断。  相似文献   

10.
基于Google Earth Engine(GEE)云计算平台,协同Sentinel-2影像、WordClim生物气候数据、SRTM地形数据、森林资源二类调查数据等数据,以随机森林(Random Forest, RF),支持向量机(Support Vector Machine, SVM)和最大熵(Maximum Entropy, MaxEnt)3种机器学习算法为组件分类器,开展多源特征、多分类器决策融合的优势树种分类研究。通过3种组件分类器分别构建了两种串行集成和3种贝叶斯并行集成模型,用于确定云南香格里拉地区10种主要优势树种的空间分布。分类结果显示:3个组件分类器的总体精度均低于67.17%;3种并行集成方法总体精度相当,约为72%;两种串行集成方法精度高于78.48%,其中MaxEnt-SVM串行集成方法获得最佳精度(OA:80.66%, Kappa:0.78),与组件分类器相比精度至少提高了13.49%。研究表明:决策融合方法在优势树种分类中比组件分类器精度更高,并且有效改善了小样本树种的分类精度,可用于大范围山区优势树种分类。  相似文献   

11.
陈霞 《计算机系统应用》2022,31(10):382-388
当前金融机构正在努力应对不良资产的增长问题, 在信贷领域借贷逾期预测结果的准确性将直接决定不良资产的规模. 为了更好预测借贷人的还款能力, 通常会引入数据模型方法, 但对于数据样本较少的新业务, 单纯用这类数据容易导致模型结果过拟合. 本文通过实际案例分析, 对小样本业务数据进行相似业务数据补充, 并采用随机森林、LightGBM、XGBoost、DNN和TrAdaBoost 迁移学习方法, 旨在为小样本业务在模型建立过程中样本不足的问题提供一种有效的解决方法. 研究结果表明, 针对数据量少的产品, 结合相似金融业务数据后采用这五种机器学习模型方法的预测结果AUC (area under curve)均大于80, 其中使用迁移学习模型比LightGBM、XGBoost、DNN和随机森林模型在预测集上的AUC至少高出2个点; 此外迁移学习模型的预测结果的精准率(88%)和召回率(73%)也是最高的.  相似文献   

12.
为了解决冠心病诊断模型中性能无法满足临床应用要求、缺乏可解释性的问题,提出一种融合XGBoost与SHAP的冠心病预测及其特征分析模型。在对数据集进行特征工程的基础上,将处理好的数据集输入XGBoost模型进行训练,并且对模型进行优化,进一步提高了模型的性能表现;其次,与基于SVM、朴素贝叶斯等六种机器学习模型以及八种主流机器学习模型进行实验对比,参数优化后的XGBoost模型在准确率、特异度、F1值和AUC值四个指标上分别达到0.9942、0.9970、0.9941和0.9998,均优于已有模型;最后引入SHAP框架增强模型可解释性,综合四种模型特征重要性排序结果,识别出影响冠心病的重要因素,为医生作出正确的诊断提供决策参考。  相似文献   

13.
随着人口老龄化加剧,心力衰竭发病率升高,心衰患者的非计划性再入院问题导致患者生存质量降低、医疗成本升高的情况日益严重,因此成为了一个亟待解决的问题。本文针对再入院风险预测问题,提出一种基于ADE-Stacking的心衰患者非计划性再入院风险预测模型,这一模型主要由集成学习算法模型构建与参数优化2部分构成,集成学习算法可以结合多个弱分类器的优势,使模型具有更好的泛化性和准确率,参数优化部分采用自适应收缩因子F改进的差分进化算法寻优,以提高参数寻优性能。使用心力衰竭再入院病人数据集对模型进行训练与测试,结果显示本文所提出的模型优于风险预测模型常用的随机森林、XGBoost、支持向量机等其他机器学习算法。  相似文献   

14.
为提升齿轮故障诊断的正确率,提出了基于随机森林(Random Forest,RF)和主成分分析法(Principal Components Analysis,PCA)对齿轮振动信号进行特征降维处理,并采用粒子群算法(Particle Swarm Optimization,PSO)求解支持向量机(Support Vector Machine,SVM)特征参数最佳取值的齿轮故障诊断模型(RF-PCA-改进SVM模型)。对齿轮箱实例中正常、断齿、齿根开裂、剥落、削尖等9种不同状态进行了验证,证明了RF-PCA-改进SVM模型对齿轮故障诊断的有效性。试验结果表明:通过对比不同诊断模型识别率,证明RF-PCA-改进SVM模型具有更优的齿轮故障识别率,平均达到了99.66%,且计算效率较高;样本数量改变虽然会影响模型正确识别率,但不同的改变方式对识别率影响的程度不同,对于RF-PCA-改进SVM模型,当齿轮状态数据大于40个时即可达到88%以上的正确识别率。  相似文献   

15.
Zhang  Hongpo  Cheng  Ning  Zhang  Yang  Li  Zhanbo 《Applied Intelligence》2021,51(7):4503-4514

Label flipping attack is a poisoning attack that flips the labels of training samples to reduce the classification performance of the model. Robustness is used to measure the applicability of machine learning algorithms to adversarial attack. Naive Bayes (NB) algorithm is a anti-noise and robust machine learning technique. It shows good robustness when dealing with issues such as document classification and spam filtering. Here we propose two novel label flipping attacks to evaluate the robustness of NB under label noise. For the three datasets of Spambase, TREC 2006c and TREC 2007 in the spam classification domain, our attack goal is to increase the false negative rate of NB under the influence of label noise without affecting normal mail classification. Our evaluation shows that at a noise level of 20%, the false negative rate of Spambase and TREC 2006c has increased by about 20%, and the test error of the TREC 2007 dataset has increased to nearly 30%. We compared the classification accuracy of five classic machine learning algorithms (random forest(RF), support vector machine(SVM), decision tree(DT), logistic regression(LR), and NB) and two deep learning models(AlexNet, LeNet) under the proposed label flipping attacks. The experimental results show that two label noises are suitable for various classification models and effectively reduce the accuracy of the models.

  相似文献   

16.
提出一种模式识别算法——双层支持量机算法,用来提高表面肌电识别精度。该算法融合集成学习中元学习的并行方法和叠加法的递进思想,把基本SVM分类器并行分布在第1层,第1层的预测结果作为第2层的输入,由第2层再进行分类识别,从而通过多层分类器组合来融合多源特征。以手臂表面肌电数据集为测试数据,采用文中的双层支持向量机,各肌肉的肌电信号分别输入基支持向量机,组合器融合各肌肉电信号特征,集成识别前臂肌肉群的肌电信号,从而实现运动意图的精确识别。实验结果显示,在预测精度上,此算法优于单个SVM分类器。在预测性能上(识别精度、耗时、鲁棒性),此算法优于随机森林和旋转森林等集成分类器。  相似文献   

17.
Heart failure is now widely spread throughout the world. Heart disease affects approximately 48% of the population. It is too expensive and also difficult to cure the disease. This research paper represents machine learning models to predict heart failure. The fundamental concept is to compare the correctness of various Machine Learning (ML) algorithms and boost algorithms to improve models’ accuracy for prediction. Some supervised algorithms like K-Nearest Neighbor (KNN), Support Vector Machine (SVM), Decision Trees (DT), Random Forest (RF), Logistic Regression (LR) are considered to achieve the best results. Some boosting algorithms like Extreme Gradient Boosting (XGBoost) and CatBoost are also used to improve the prediction using Artificial Neural Networks (ANN). This research also focuses on data visualization to identify patterns, trends, and outliers in a massive data set. Python and Scikit-learns are used for ML. Tensor Flow and Keras, along with Python, are used for ANN model training. The DT and RF algorithms achieved the highest accuracy of 95% among the classifiers. Meanwhile, KNN obtained a second height accuracy of 93.33%. XGBoost had a gratified accuracy of 91.67%, SVM, CATBoost, and ANN had an accuracy of 90%, and LR had 88.33% accuracy.  相似文献   

18.
N6-甲基腺嘌呤(N6-methyladenine,6mA)是指腺嘌呤第6位氮原子的甲基化修饰。6mA在维持细胞正常的转录活性、DNA损伤修复、染色质重塑、遗传印记、胚胎发育和肿瘤发生等生物过程中起着非常重要的作用。通过生物实验的方法来鉴定6mA位点耗时且昂贵。近年来,研究界提出了一些基于机器学习的6mA位点预测方法,但这些预测方法过度依赖一种学习模型,导致模型的泛化能力不足以及预测的准确度不高等问题。集成学习综合多种预测模型的优点,具有较好的泛化能力及预测性能。因此,为了进一步提升6mA位点的预测准确性,提出了一种基于stacking集成学习的6mA位点预测模型Stack6mAPred。该模型由两层分类器组成,第一层集成了朴素贝叶斯、支持向量机(support vector machine,SVM)和LightGBM等三种主流分类器,第二层使用逻辑回归(logistic regression,LR)分类器。Stack6mAPred利用增强核苷酸组成等5种特征对实验已鉴定6mA序列和非6mA序列进行编码,使用XGBoost(extreme gradient boosting)算法进行特征选择,去除冗余特征。通过在水稻基准数据集上进行五折交叉验证,与目前性能最优的方法MM-6mAPred相比,Stack6mAPred在敏感性、特异性、准确度、MCC和AUC上均获得了更好的性能,分别提高了1.7%、1.36%、1.72%、0.06和0.031。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号