首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
针对由于风速变化因素复杂导致的风速预测模型准确率低的问题,提出一种多特征嵌入的Seq2 Seq(序列到序列)风速预测模型.以Seq2 Seq为基础,将影响风速的多种因素数据进行多特征嵌入编码,实现对未来若干个小时风速的预测.通过准确率、预测评分和平均绝对误差等指标的实验评价,验证Seq2 Seq模型相比当前最优模型达到了更好的预测稳定性,风速多特征嵌入编码方法的加入显著提高了Seq2 Seq模型的预测准确性.实验结果验证了该模型的有效性.  相似文献   

2.
针对传统电价预测方法由于冗余数据量庞大,特征选择和特征提取准确率低,导致电价预测精度低,预测时间过长的问题,提出构建基于DGCA-PCA的特征提取的改进DE-SVM的电价预测模型GGPDS。首先,采用考虑周期性特征的GCA算法和时段关联性特征的改进GCA算法进行电价特征数据选择;然后采用主成分分析PCA方法进行特征提取;之后将提取数据特征输入改进DE-SVM模型中进行电价预测。实验结果表明,提出的特征提取方法可对海量数据进行有效处理,为后续电价预测模型提供了准确的数据,并进一步提升了电价预测模型的预测精度,降低了模型训练时间成本。日预测实验结果中,本模型的MAPE指标和MAE指标分别取值为7.44%和3.71,对比于传统的电价预测方法电价预测误差更小,预测精度更高。由此说明,本模型可提升电价数据特征提取准确率,从而提高电价预测精度,可在短时间内实现电价准确预测。  相似文献   

3.
微博用户行为预测旨在研究用户的行为习惯,本文主要从用户属性、用户兴趣和用户情绪三个方面,对影响微博用户行为的因素进行研究分析,提取影响用户行为的特征,训练预测模型. 实验中还将情感和兴趣特征在预测模型中的作用进行了对比,结果显示预测模型在转发行为预测的平均准确率能够达到82.56%,在评论行为预测的平均准确率能够达到84.59%,在点赞行为预测的平均准确率能够达到79.35%,表明了用户兴趣和情感特征对于微博用户行为预测结果提升中的有效性.  相似文献   

4.
王鹏  方凯  汪晨  林坤  刘一民 《传感技术学报》2023,36(7):1048-1054
室内温度是供暖期影响人体舒适度的重要指标。准确掌握室内温度的变化规律和趋势,建立精确的室内温度预测模型,是实现高效智能供暖的关键。本文建立了基于长短期记忆(LSTM)神经网络的室内温度预测模型。以天津理工大学研究生实验室的温度实测数据为例,对原始数据集进行特征变量分析选取、数据预处理等工作后进行模型验证和分析,并与RNN神经网络预测模型和BP神经网络预测模型进行对比实验。实验结果表明:相较于其他两种模型,LSTM网络模型具有更高的准确率,预测精度可达到98.39%。因此使用LSTM网络模型可以更好预测室内温度的变化趋势,为促进节能减排提供可靠依据。  相似文献   

5.
为了研究AdaBoost算法在乳腺癌疾病预测中的应用,收集乳腺癌诊断数据集并按照一定的比例拆分成测试数据和训练数据.利用AdaBoost、GaussianNB、KNeighbors算法模型分别进行测试,以准确率为评价标准来评价模型性能的好坏.当测试数据占30%时,AdaBoost算法模型预测乳腺癌疾病优于其他算法模型,准确率为96.49%.通过综合评价机制考察发现,AdaBoost算法模型能从复杂的多因素中找到预测乳腺癌的重要影响因素,这对快速识别引起乳腺癌疾病的特征以及早期病人的有效治疗具有重要意义.  相似文献   

6.
本文提出了一种基于logistic回归的学生成绩预测模型,目的在于预测学生的成绩,寻找出影响学生成绩的关键因素,从而帮助管理者更好地管理学生。作者首先对学生历史数据中的特征进行了可视化分析,以了解数据的分布、相关性等信息;接着将数据集划分为训练集和测试集两部分,以便建立和评估预测模型,并在此基础上建立了一个logistic回归模型来预测学生成绩,同时对预测结果的准确率进行了评分;最后剔除了无关特征再次建模,对预测模型进行再次评估。结果表明,优化后的成绩预测模型的预测准确率有所提升,能够有效地预测学生成绩。  相似文献   

7.
刘苗苗  蒋艳 《软件工程》2021,(3):39-42,35
精确的港口货物吞吐量预测对于港口的发展至关重要.本文提出了改进粒子群优化去尾均值多层感知机模型对上海港货物吞吐量进行预测.选取了影响上海港货物吞吐量的十个因素进行训练,实验结果表明该预测模型的预测性能明显优于传统MLP预测模型和基本的粒子群优化多层感知机模型.对该预测模型的误差分析和收敛性分析表明该预测模型可靠.  相似文献   

8.
借助计算机技术,使用年龄、性别等基本特征预测心脏病的易感性,对心脏病的早期预测和防治具有重要意义。针对基于机器学习的心脏病预测模型准确率不高的问题,提出一种基于卷积神经网络(CNN)和Adaboost的心脏病预测模型CNN-Adaboost。首先,对原始数据进行预处理,结合特征相关性与特征组合算法融合两两属性特征,并升维数据,使各属性特征充分融合;然后,通过CNN进行充分的特征提取;最后,结合Adaboost机器学习算法建立心脏病预测模型。UCI数据集上的测试结果表明,CNN-Adaboost预测模型优于K近邻(KNN)等传统机器学习模型和K近邻-随机森林(KNN-RF)等优化模型,准确率、AUC、查准率和查全率可达到0.917、0.95、0.924与0.85。CNN-Adaboost模型具有良好的分类效果,能为医患人员进行心脏病预测与预防提供帮助。  相似文献   

9.
研究网络流量准确预测,针对网络优化控制问题,由于网络数据拥塞严重,网络流量变化具有高度自相似性、非线性和多尺度等特点,线性数据的传统预测方法无法准确刻画网络流量的非线性变化规律,导致预测准确率低.为了提高网络流量的预测准确率,在分析网络流量变化特征的基础上,提出一种小波分析的网络流量混合预测模型.混合模型首先利用小波分析将网络流量分解线性和非线性部分,然后分别采用ARIMA模型和BP神经网络模型对其进行预测,最后采用小波分析对线性和非线性部分预测结果进行重构,得到混合模型最终预测结果.仿真结果表明,混合模型比其它网络流量预测模型具有更高的预测准确率,为网络优化控制提供了有效分析方法.  相似文献   

10.
配电网线路故障预测是提升配电网可靠性指标的重要手段,为了构建性能稳定、预测能力强的线路故障预测模型,需要保证模型输入特征变量的有效性、强相关性和无冗余性。为合理确定线路故障预测模型的输入特征变量,本文采用数据探索和挖掘的分析方法对馈线故障及其影响因素之间的关系进行了分析研究,以皮尔森相关系数为计算指标,对大量实际馈线故障数据与其影响因素进行相关性统计,从馈线故障的时间-地域特性、外部影响因素、自相关特性、运行影响因素等四个维度筛选出了馈线故障影响因素特征变量作为馈线故障预测模型的输入变量,直观有效地剔除无关故障特征变量。因此,所提出方法可用于配电网大数据的预处理分析和提取,为配电网故障预测提供重要方法和数据基础。  相似文献   

11.
郭娜  刘聪  李彩虹  陆婷  闻立杰  曾庆田 《软件学报》2024,35(3):1341-1356
流程剩余时间预测对于业务异常的预防和干预有着重要的价值和意义.现有的剩余时间预测方法通过深度学习技术达到了更高的准确率,然而大多数深度模型结构复杂难以解释预测结果,即不可解释问题.此外,剩余时间预测除了活动这一关键属性还会根据领域知识选择若干其他属性作为预测模型的输入特征,缺少通用的特征选择方法,对于预测的准确率和模型的可解释性存在一定的影响.针对上述问题,提出基于可解释特征分层模型(explainable feature-based hierarchical model,EFH model)的流程剩余时间预测框架.具体而言,首先提出特征自选择策略,通过基于优先级的后向特征删除和基于特征重要性值的前向特征选择,得到对预测任务具有积极影响的属性作为模型输入.然后提出可解释特征分层模型架构,通过逐层加入不同特征得到每层的预测结果,解释特征值与预测结果的内在联系.采用LightGBM (light gradient boosting machine)和LSTM (long short-term memory)算法实例化所提方法,框架是通用的,不限于选用算法.最后在8个真实事件日志上与最新方法进行比较.实验结果表明所提方法能够选取出有效特征,提高预测的准确率,并解释预测结果.  相似文献   

12.
软件故障预测中若采用大量度量指标建立预测模型,可能因其中含有无关特征使预测模型性能受到不良影响,故障预测中的特征选择步骤选取一定维度的部分故障数据建立预测模型来提高模型性能,以达到压缩特征维度,提高模型预测精度,降低预测模型复杂度,节约计算资源的目的。传统特征排序方法仅评估单个特征对类标的影响,建立的预测模型有效性较低;特征子集选择方法需搜索所有特征子集,耗费计算资源且所选特征维数较高。针对以上问题,提出一种基于拓展贝叶斯信息准则的特征选择方法(EBIC-FS),该方法对数据进行线性回归,并计算出残差平方和较小且数据维数较少的特征模型。在公开数据集M&R及Promise上进行实验,结果表明该方法能有效压缩特征维度,且预测模型性能与5种基线方法相比有较大提升。  相似文献   

13.
跨站脚本是一种常见的针对Web应用程序安全的漏洞攻击方式。恶意用户利用漏洞将恶意脚本注入网页之中,当用户浏览该网页时,便会触发脚本,导致攻击行为产生。为此,针对各种变形跨站脚本攻击难以检测问题,对一种基于正则表达式和支持向量机的递归特征消去算法(RE-SVM-RFE)进行了研究。首先采用正则表达式匹配算法,为训练集选择有代表性的特征,即对数据预处理;再利用RE-SVM-RFE特征选择算法选择出最优特征,再对具有攻击性的关键词进行特征排序;最后通过总结特征关键字的出现频率,发现频率越高漏洞存在可能性越大。实验结果表明,数据经过RE-SVM-RFE递归特征消去算法选择之后的SVM特征,预测的准确率更高,敏感度和特异度也更好,该算法能够有效地检测出跨站脚本漏洞。  相似文献   

14.
随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降低计算开销和去除冗余特征,以提高机器学习模型的性能,并保留了数据的原始特征,具有良好的可解释性。特征选择已经成为机器学习领域中重要的数据预处理步骤之一。粗糙集理论是一种可用于特征选择的有效方法,它可以通过去除冗余信息来保留原始特征的特性。然而,由于计算所有的特征子集组合的开销较大,传统的基于粗糙集的特征选择方法很难找到全局最优的特征子集。针对上述问题,文中提出了一种基于粗糙集和改进鲸鱼优化算法的特征选择方法。为避免鲸鱼算法陷入局部优化,文中提出了种群优化和扰动策略的改进鲸鱼算法。该算法首先随机初始化一系列特征子集,然后用基于粗糙集属性依赖度的目标函数来评价各子集的优劣,最后使用改进鲸鱼优化算法,通过不断迭代找到可接受的近似最优特征子集。在UCI数据集上的实验结果表明,当以支持向量机为评价所用的分类器时,文中提出的算法能找到具有较少信息损失的特征子集,且具有较高的分类精度。因此,所提算法在特征选择方面具有一定的优势。  相似文献   

15.
特征选择作为一个数据预处理过程,在数据挖掘、模式识别和机器学习中有着重要地位。通过特征选择,可以降低问题的复杂度,提高学习算法的预测精度、鲁棒性和可解释性。介绍特征选择方法框架,重点描述生成特征子集、评价准则两个过程;根据特征选择和学习算法的不同结合方式对特征选择算法分类,并分析各种方法的优缺点;讨论现有特征选择算法存在的问题,提出一些研究难点和研究方向。  相似文献   

16.
一种基于递归分类树的集成特征基因选择方法   总被引:14,自引:1,他引:14  
李霞  张田文  郭政 《计算机学报》2004,27(5):675-682
利用DNA芯片基因表达谱信息识别疾病相关基因,对癌症等疾病分型、诊断及病理学研究有非常重要的实际意义.该文提出了一种基于递归分类树的特征基因选择的集成方法EFST(Ensemble Feature Selection based on Recursive Partition—Tree).EFST可选择多组基于不同样本分布结构的特征基因,结合有监督机器学习中的多分类器集成(ensemble)决策技术,利用提出的衡量特征基因稳定性与显著性测度.集成各特征基因组选择最终的特征基因.应用结肠癌2000个基因的表达谱实验数据分析结果显示:EFST方法不仅具有寻找疾病相关基因的能力和较强的数据维数压缩能力,而且由支持向量机(SVM)等4种模式分类方法证实EFST方法可以明显地提高疾病鉴别分类的准确率.  相似文献   

17.
Feature selection is an important data preprocessing step for the construction of an effective bankruptcy prediction model. The prediction performance can be affected by the employed feature selection and classification techniques. However, there have been very few studies of bankruptcy prediction that identify the best combination of feature selection and classification techniques. In this study, two types of feature selection methods, including filter‐ and wrapper‐based methods, are considered, and two types of classification techniques, including statistical and machine learning techniques, are employed in the development of the prediction methods. In addition, bagging and boosting ensemble classifiers are also constructed for comparison. The experimental results based on three related datasets that contain different numbers of input features show that the genetic algorithm as the wrapper‐based feature selection method performs better than the filter‐based one by information gain. It is also shown that the lowest prediction error rates for the three datasets are provided by combining the genetic algorithm with the naïve Bayes and support vector machine classifiers without bagging and boosting.  相似文献   

18.
为了提高光伏发电输出功率的预测精度和可靠性,本文提出一种基于Stacking模型融合的光伏发电功率预测方法.选取某光伏电站温度、湿度、辐照度等历史实测数据为研究对象,在将光伏发电功率数据进行特征交叉以及基于模型的递归特征消除法进行预处理和特征选择的基础上,以XGBoost、LightGBM、RandomForest 3种机器学习算法作为Stacking集成学习的第一层基学习器,以LinearRegression作为第二层元学习器,构建了多个机器学习算法嵌入的Stacking模型融合的光伏发电功率预测模型.预测结果表明,该方法的R2、MSE分别达到了0.9874和0.1056,相较于单一的机器学习模型,预测精度显著提升.  相似文献   

19.
目前在识别钓鱼网站的研究中,对识别速度有着越来越高的需求,因此提出了一种基于混合特征选择模型的钓鱼网站快速识别方法。混合特征选择模型包含初次特征选择、二次特征选择和分类三个主要部分,使用信息增益、卡方检验相结合以及基于随机森林的递归特征消除算法建立了混合特征选择模型,并在模型中使用分布函数与梯度,获取最佳截断阈值,得到最优数据集,从而提高钓鱼网站识别的效率。实验数据表明,使用该混合特征选择模型进行特征筛选后的数据集,维度降低了79.2%,在分类精确度几乎不损失的情况下,降低了32%的分类时间复杂度,有效地提高了分类效率。另外,使用UCI机器学习库中的大型钓鱼数据集对该模型进行评价,分类精确率虽然损失1.7%,但数据集维度降低了70%,分类时间复杂度降低了41.1%。  相似文献   

20.
为了减少电厂污染物的排放, 如何准确估计燃气轮机氮氧化物(NOx)排放值并识别其关键影响因素, 对有效采取优化设计是至关重要的. 由于燃气轮机的运作过程存在变工况等情况, 单一模型的准确度与泛化性能难以达到工业应用的要求. 将偏最小二乘法(PLS)和互信息(MI)组合建模保证了NOx特征变量选取的有效性与精确性. 利用PLS确定影响燃气轮机NOx的特征变量数目, 避免了选择变量的主观因素并降低维数. 再用互信息(MI)选择出最优的特征变量, 通过不同的预测模型进行仿真分析, 并把单一和组合特征选择进行对比. 结果表明, 对燃气轮机NOx排放影响因素的研究中, PLS-MI组合模型选取的特征变量更具代表性, 并能够保证预测模型的泛化精度, 降低模型复杂度, 为电厂优化控制提供了理论依据, 具有一定的应用前景.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号