首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
针对机器学习应用于脓毒症预测存在预测准确率低和可解释性不足的问题,提出了利用LIME对基于机器学习的脓毒症预测模型进行可解释性分析.模型由预测和解释两部分组成:预测部分使用XGBoost和线性回归(LR),首先通过XGBoost进行特征提取,再利用LR对提取到的特征进行分类;解释部分使用LIME模型提取出关键的预测指标对模型进行解释.实验结果表明,通过XGBoost+LR模型进行脓毒症预测的准确率为99%,受试者工作特征曲线下面积(AUROC)为0.984,优于单独使用XGBoost(准确率:95%,AUROC:0.953)和LR(准确率:53%,AUROC:0.556)或者LGBM(准确率:90%,AUROC:0.974),同时通过LIME能有效地提取出前10个最重要的指标,对脓毒症预测模型进行可解释性分析,提高了模型的可信度.  相似文献   

2.
针对无线传感器网络(WSN)中能量、带宽和内存等各种资源的限制问题,提出了一种XGBoost结合加权自适应分层分数最小均方误差(hierarchical fractional least-mean-square,HFLMS)的数据约减组合预测方法。首先,利用XGBoost方法对损失函数进行了二阶的泰勒展开,权衡模型的复杂度和损失函数的下降速度,实现了资源限制的稳定预测;然后提出自适应HFLMS滤波器实现WSN数据约简的传输,并基于误差估计来预测所感测的数据,有效降低了WSN中的能量约束;最后,利用两个评估参数(能量和预测误差)来验证所提组合预测方法的性能。实验结果表明,相比没有预测、近似最速下降算法和分层最小均方滤波技术,提出的预测方法获得的预测结果更好。  相似文献   

3.
针对目前机载快速存取记录器(quick access recorders,QAR)在日常监控和事故调查中使用阈值的方法难以根据每种情况设定阈值来检测异常,提出一种基于机器学习的航空着陆异常事件检测模型。在经过数据预处理后,设计一种针对航空高维数据的混合特征选取方法,在极限梯度提升树(extreme gradient boosting,XGBoost)模型中引入代价敏感学习函数和聚焦损失改进算法性能,使用贝叶斯优化训练出最佳异常检测模型。实验结果表明,与其它算法对比,该模型特征提取时间和训练时间短,准确率、F1分数、ROC和PR曲线面积表现出突出的性能。  相似文献   

4.
网络入侵检测系统(NIDS)是检测网络攻击和维护网络安全的关键技术之一,是网络安全领域中的重要研究方向;近年来,研究者利用机器学习算法来完成入侵检测任务并取得了很好的成果,但检测效率和精确率有待进一步提升;在对鲸鱼优化算法(WOA)和极限梯度提升算法(XGBoost)的特点进行实验和对比分析的基础上,提出了WOA-XGBoost模型,首先构建基于XGBoost的分类模型,然后利用WOA算法自适应搜索XGBoost的最优参数,最后基于NSL-KDD数据集评估所提出WOA-XGBoost模型的性能;实验结果表明,该模型在分类精确率、准确率、召回率和AP指标方面均优于其他模型如XGBoost、随机森林、Adaboost和LightGBM;该工作也为群体智能优化算法在网络入侵检测中的应用提供了依据。  相似文献   

5.
为了解决冠心病诊断模型中性能无法满足临床应用要求、缺乏可解释性的问题,提出一种融合XGBoost与SHAP的冠心病预测及其特征分析模型。在对数据集进行特征工程的基础上,将处理好的数据集输入XGBoost模型进行训练,并且对模型进行优化,进一步提高了模型的性能表现;其次,与基于SVM、朴素贝叶斯等六种机器学习模型以及八种主流机器学习模型进行实验对比,参数优化后的XGBoost模型在准确率、特异度、F1值和AUC值四个指标上分别达到0.9942、0.9970、0.9941和0.9998,均优于已有模型;最后引入SHAP框架增强模型可解释性,综合四种模型特征重要性排序结果,识别出影响冠心病的重要因素,为医生作出正确的诊断提供决策参考。  相似文献   

6.
针对软件缺陷预测中不平衡数据的分类问题,提出了一种基于过采样和集成学习的类不平衡软件缺陷预测模型XG-AJCC(AJCC-Ram+XGBoost).在预处理阶段,提出了AJCC-Ram(Adaptive Judgment Cure Clustering Random Sampling)多层次过采样方法.该方法基于改进的ADASYN自适应过采样和CURE-SMOTE过采样分别在类边缘和类中心层面生成新样本,通过CLNI方法对样本生成后的数据集进行噪声过滤及清理.在模型构建阶段,与集成算法XGBoost(eXtreme Gradient Boosting)相结合形成最终的不平衡数据缺陷预测模型.本文在AEEEM数据集和NASA数据集中进行了验证,实验结果表明:较于经典的采样方法和采样集成预测模型,在F1指标上AJCC-Ram过采样方法及XG-AJCC采样集成算法模型均能够取得有效的预测结果.  相似文献   

7.
赵华琼  唐学文 《计算机应用》2013,33(11):3035-3038
针对现有网络性能评估方案不能兼顾用户的业务偏好和网络实际情况以及指标权重计算方法存在片面性的问题,提出一种面向网络业务性能的综合评价模型。该模型考虑到用户偏好,以网络应用业务为导向,首先建立一种评价层次结构,分别确立层次结构中的准则权重和方案权重;然后对实际测量数据进行规格化处理;最后利用模糊层次分析法(AHP)进行计算得到目标链路中各业务的性能评估值。实验结果表明,所提模型不仅可以评估目标链路的整体性能情况,还可以结合用户业务偏好,对单个的网络业务的性能进行有效评估,有利于更好地实现区分服务的网络。  相似文献   

8.
文本分类器性能评估指标   总被引:14,自引:2,他引:14  
宋枫溪  高林 《计算机工程》2004,30(13):107-109,127
讨论了用传统性能评估指标(精度和错误率)评估文本分类器时面临的困难,分析了目前几种常用的文本分类器性能评估指标:查全率-查准率曲线、AUROC、Fi值以及BEP值的优点与不足,并提出了两种新的可用于文本分类器的性能评估指标。  相似文献   

9.
习题推荐是利用推荐算法将习题推荐给学生的任务,点击率(CTR)预测则是推荐领域的主流研究方向之一,现有的大部分习题推荐模型没有重视注意力机制的创新,因而落后于CTR预测领域。为了研究CTR预测模型中注意力机制在教育领域的应用前景,该文提出一种分层次学习注意力权重的双路注意力推荐模型(SEFM)。该模型通过因子分解机(FM)与压缩激励注意力网络(SENET)两个注意力机制的并行运行,实现学习特征之间的关系以及特征本身的权重,从而完成推荐。在两个CTR广告数据集与一个教育数据集上的实验表明,SEFM能准确地学习特征在多种维度上的权重,在两个评价指标上的表现均优于现有的先进基准模型。  相似文献   

10.
钟丽  刘彦  余思洋  谢中 《计算机应用》2015,35(5):1412-1416
针对现有的椭圆曲线算法系统级设计中开发周期长,以及不同模块的性能开销指标不明确等问题,提出一种基于电子系统级(ESL)设计的软硬件(HW/SW)协同设计方法.该方法通过分析SM2(ShangMi2)算法原理与实现方式,研究了不同的软硬件划分方案,并采用统一建模语言SystemC对硬件模块进行周期精确级建模.通过模块级与系统级两层验证比较软硬件模块执行周期数,得出最佳性能划分方式.最后结合算法控制流程图(CFG)与数据流程图(DFG)将ESL模型转化为寄存器传输级(RTL)模型进行逻辑综合与比较,得出在180 nm CMOS工艺,50 MHz频率下,当算法性能最佳时,点乘模块执行时间为20 ms,门数83 000,功耗约2.23 mW.实验结果表明所提系统级架构分析对基于椭圆曲线类加密芯片在性能、面积与功耗的评估优势明显且适用性强,基于此算法的嵌入式系统芯片(SoC)可根据性能与资源限制选择合适的结构并加以应用.  相似文献   

11.
李晓华  邓伟 《计算机工程》2012,38(22):263-266
原有数据集成方法在基因调控网络构建中不能很好地利用数据之间的相关特性。为此,提出一种改进的数据集成方法。分别利用敲除数据和微扰数据进行预测,根据2种实验数据预测结果的重叠程度赋予不同的可信度,优先考虑重叠程度高的部分,按照可信度对预测结果进行排序。采用Dream3数据集与原有方法进行性能对比,实验结果表明,改进方法的总体性能比原有方法高出4.9%。  相似文献   

12.
Recently, many methods have been proposed for constructing gene regulatory networks (GRNs). However, most of the existing methods ignored the time delay regulatory relation in the GRN predictions. In this paper, we propose a hybrid method, termed GA/PSO with DTW, to construct GRNs from microarray datasets. The proposed method uses test of correlation coefficient and the dynamic time warping (DTW) algorithm to determine the existence of a time delay relation between two genes. In addition, it uses the particle swarm optimization (PSO) to find thresholds for discretizing the microarray dataset. Based on the discretized microarray dataset and the predicted types of regulatory relations among genes, the proposed method uses a genetic algorithm to generate a set of candidate GRNs from which the predicted GRN is constructed. Three real-life sub-networks of yeast are used to verify the performance of the proposed method. The experimental results show that the GA/PSO with DTW is better than the other existing methods in terms of predicting sensitivity and specificity.  相似文献   

13.
Massive ocean data acquired by various observing platforms and sensors poses new challenges to data mana-gement and utilization.Typically,it is difficult to find the desired data from the large amount of datasets efficiently and effectively.Most of existing methods for data discovery are based on the keyword retrieval or direct semantic reasoning,and they are either limited in data access rate or do not take the time cost into account.In this paper,we creatively design and implement a novel system to alleviate the problem by introducing semantics with ontologies,which is referred to as Data Ontology and List-Based Publishing (DOLP).Specifically,we mainly improve the ocean data services in the following three aspects.First,we propose a unified semantic model called OEDO (Ocean Environmental Data Ontology) to represent heterogeneous ocean data by metadata and to be published as data services.Second,we propose an optimized quick service query list (QSQL) data structure for storing the pre-inferred semantically related services,and reducing the service querying time.Third,we propose two algorithms for optimizing QSQL hierarchically and horizontally,respectively,which aim to extend the semantics relationships of the data service and improve the data access rate.Experimental results prove that DOLP outperforms the benchmark methods.First,our QSQL-based data discovery methods obtain a higher recall rate than the keyword-based method,and are faster than the traditional semantic method based on direct reasoning.Second,DOLP can handle more complex semantic relationships than the existing methods.  相似文献   

14.
随着多数生物基因组测序工作的完成,基因识别就显得尤为重要.CpG岛在基因组中有着重要的生物学意义,因此识别CpG岛将有助于基因的识别.目前已经构建的一些识别CpG岛的位置的模型大都存在标注偏差、需要独立假设等缺点,为此提出一种基于条件随机场(CRFs)模型的CpG岛的位置识别的新方法.该方法将识别CpG岛的位置的问题转化为序列标记问题,并根据CpG岛的位置的性质设计了相应的模型构建、训练以及解码的算法.利用本文算法可以对输入序列确定最有可能的标注序列,从而识别CpG岛的位置.通过对标准数据库的数据进行测试,其实验结果表明本文算法是可行的、高效的,比HMM方法有更高的准确率.  相似文献   

15.
针对单传感器联合概率数据互联(Joint Probabilistic Data Association, JPDA)在复杂环境下难以跟踪多个目标的问题,提出一种基于JPDA量测目标互联概率统计加权并行式和序贯式多传感器数据融合方法。首先,给出单传感器JPDA算法。然后,介绍多传感器JPDA数学模型,基于这一模型,使用互联概率加权,推导并行式和序贯式多传感器数据融合公式,这对多传感器数据融合有一定指导意义。最后,对单传感器JPDA方法在不同杂波密度、不同过程和不同观测噪声下目标跟踪的距离RMSE进行仿真,结果表明,随着这3项指标皆增大,目标距离RMSE增大;同时,对本文的2类多传感器JPDA方法与其他几类跟踪方法在数据集PETS2009下有关行人跟踪性能进行仿真,结果表明,本文并行式和序贯式多传感器JPDA方法相较于其他方法在跟踪准确性、跟踪位置准确性、航迹维持以及航迹遗失上皆为最优,而且序贯式融合略优于并行式多传感器JPDA。  相似文献   

16.
Unlike traditional clustering analysis,the biclustering algorithm works simultaneously on two dimensions of samples (row) and variables (column).In recent years,biclustering methods have been developed rapidly and widely applied in biological data analysis,text clustering,recommendation system and other fields.The traditional clustering algorithms cannot be well adapted to process high-dimensional data and/or large-scale data.At present,most of the biclustering algorithms are designed for the differentially expressed big biological data.However,there is little discussion on binary data clustering mining such as miRNA-targeted gene data.Here,we propose a novel biclustering method for miRNA-targeted gene data based on graph autoencoder named as GAEBic.GAEBic applies graph autoencoder to capture the similarity of sample sets or variable sets,and takes a new irregular clustering strategy to mine biclusters with excellent generalization.Based on the miRNA-targeted gene data of soybean,we benchmark several different types of the biclustering algorithm,and find that GAEBic performs better than Bimax,Bibit and the Spectral Biclustering algorithm in terms of target gene enrichment.This biclustering method achieves comparable performance on the high throughput miRNA data of soybean and it can also be used for other species.  相似文献   

17.
鉴于传统的基因选择方法会选出大量冗余基因从而导致较低的样本预测准确率,提出一种基于聚类和微粒群优化的基因选择算法。首先采用聚类算法将基因分成固定数目的簇;然后,采用极限学习机作为分类器进行簇中的特征基因分类性能评价,得到一个备选基因库;最后,采用基于微粒群优化和极限学习机的缠绕法从备选基因库中选择具有最大分类率、最小数目的基因子集。所选出的基因具有良好的分类性能。在两个公开的微阵列数据集上的实验结果表明,相对于一些经典的方法,新方法能够以较少的基因获得更高的分类性能。  相似文献   

18.
19.
人体表面积(BSA)在临床医学上有着至关重要的作用,但现有BSA计算方法大多只使用身高和体重2个参数且采用匹配简单函数的方法来估计体表面积,临床上也认为现有的BSA计算方法误差较大。针对这些问题,提出一种BSA回归预测模型。该回归预测模型包含2个部分:首先,借助相关性和显著性分析选择相关性较高的体表面积影响因子;其次,利用人体数据训练深度前馈神经网络,构建回归模型。实验分别采取5-折交叉验证与测试集验证2种方法。首先,将深度前馈神经网络模型与传统人体表面积计算方法进行精度评估和结果对比分析;其次将深度前馈神经网络模型与3种模型进行精度评估和结果对比分析。在与传统方法对比中,深度前馈神经网络模型的决定系数高于2种传统方法的,且比传统方法提高了6%,误差与传统方法的相比降低了近一倍。在与3种模型的对比中,深度前馈神经网络的决定系数比其他模型的提高了至少2%,误差降低。一致性分析实验结果也显示,深度前馈神经网络95%一致性界限最小,一致性最好。总体来说,提出的回归预测模型可以得到更加精确的体表面积预测值。  相似文献   

20.
Predicting the accurate prognosis of breast cancer from high throughput microarray data is often a challenging task. Although many statistical methods and machine learning techniques were applied to diagnose the prognosis outcome of breast cancer, they are suffered from the low prediction accuracy (usually lower than 70%). In this paper, we propose a better method (genetic algorithm-support vector machine, we called GASVM) to significant improve the prediction accuracy of breast cancer from gene expression profiles. To further improve the classification performance, we also apply GASVM model using combined clinical and microarray data. In this paper, we evaluate the performance of the GASVM model based on data provided by 97 breast cancer patients. Four kinds of gene selection methods are used: all genes (All), 70 correlation-selected genes (C70), 15 medical literature-selected genes (R15), and 50 T-test-selected genes (T50). With optimized parameter values identified from GASVM model, the average predictive accuracy of our model approaches 95% for T50 and 90% for C70 or R15 in all four kernel functions using integrated clinical and microarray data. Our model produces results more accurately than the average 70% predictive accuracy of other machine learning methods. The results indicate that the GASVM model has the potential to better assist physicians in the prognosis of breast cancer through the use of both clinical and microarray data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号