首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
本文提出了一种基于交叉验证和ReliefF的神经网络集成学习算法(CVRNNEn算法),首先利用交叉验证选取个体网络的训练数据集,然后再对每个训练集进行特征选择,来降低数据集的规模,减少相关性低的特征的对个体网络预测结果的干扰,提高了个体网络的预测精度和个体网络之间的差异度。算法代码在weka3.5.6平台上实现,通过在UCI数据集上仿真实验,和单个RBF网络的预测结果进行比较,得出CVRNNEn算法预测性能更优,从实验上证实了该算法在预测性能上的优势。  相似文献   

2.
针对传统配电网理论线损计算需要电气参量多、工作量大、计算结果准确率低等问题,提出一种基于改进K-Means聚类算法和GBDT(Gradient Boost Decision Tree,梯度提升树)算法的配电网线损计算的方法。先采用改进K-Means算法对配电网线损样本进行聚类分析,然后将聚类后的数据集作为GBDT算法的输入数据集训练模型,最后进行线损的计算。采用本算法与BP神经网络模型进行算例对比与分析,并利用扬州许方线路配电网实际线损值做实例验证。结果表明,所提算法具有计算快速、精度更高等优点。  相似文献   

3.
KNN算法中的参数K的选择一般采取多次交叉验证方法求取,数据规模较大时并不适用。同时,影响参数选择最根本的因素是数据集本身。因此,提出利用数据集本身的特征预测最优K值的方法。首先提取历史数据集的简单特征、统计特征、信息熵特征、简单算法精度特征、复杂度特征等构建特征向量,然后利用线性回归、神经网络等方法建立特征向量与最优K值之间的预测模型,并用该模型预测新数据集的最优K值。在UCI数据集上的实验表明,该方法能迅速预测最优K值,并确保一定的精度。  相似文献   

4.
为提高建筑能耗预测效果,提出一种基于随机森林特征选择算法的建筑能耗预测集成回归模型(RF-GBDT)。通过随机森林的特征选择算法处理原始数据集生成最优特征子集,使用梯度提升决策树算法将6种基础的机器学习算法建立集成回归模型,以最优特征子集作为集成模型的输入数据集。使用评价指标RMSE和R2将集成模型预测结果与传统集成模型以及单一机器学习算法的预测结果进行对比,实验结果验证了集成后的RF-GBDT模型比单一算法的预测性能有了大幅度提升。  相似文献   

5.
本文针对交通数据挖掘领域的交通流预测问题进行研究和实现.主要对数据挖掘技术应用于交通流数据的特征选择和交通流预测模型的建立提出算法.在对采样数据进行清洗后,以分类与回归决策树作为基学习器,采用梯度提升决策树进行回归拟合,计算出交通数据的特征重要度.并以此重要度作为自适应特征选择的依据.其次,采用聚类算法对选取后的特征数据进行聚类分析,缩小样本大小的同时,同类数据更加相似.最后,以实时数据匹配相应聚类作为训练数据集,使用经过人工鱼群算法优化参数后的支持向量机进行交通流预测.本文结尾通过实验数据论证本文所提出的算法和模型.  相似文献   

6.
针对牵引电机故障诊断研究中所采用的神经网络方法,提出在模型训练阶段引入K折交叉验证。该方法在划分训练集与测试集期间,使验证集能够遍历所有数据集,从多方向开始学习,从而在一定程度上避免了局部极小的问题。训练完成后,以神经网络作为分类器进行故障识别。神经网络学习算法采用随机梯度下降的方法,每次投入一组数据集进行训练,大大提高了训练速度。Eclipse+Anaconda仿真结果证明:与传统神经网络电机故障诊断方法相比,该方法可以在一定程度上避免过拟合现象,同时避免局部极小。此外,在Matlab环境下,单独比较支持向量机采用交叉验证前后的故障分类效果。对比结果表明:交叉验证方法从多方向开始学习,对于提升故障诊断的准确率有较好作用。  相似文献   

7.
运用数据挖掘技术进行铁路事故类型预测及成因分析, 对于建立铁路事故预警机制具有重要意义. 为此, 本文提出一种基于梯度提升决策树(Grandient boosting decision tree, GBDT)的铁路事故类型预测及成因分析算法. 针对铁路事故记录数据缺失的问题, 提出一种基于属性分布概率的补全算法, 最大程度保持原有数据分布, 从而降低数据缺失对事故类型预测造成的影响. 针对铁路事故记录数据类别失衡的问题, 提出一种集成的GBDT模型, 完成对事故类型的鲁棒性预测. 在此基础上, 根据GBDT预测模型中特征重要度排序, 实现事故成因分析. 通过在开放数据库上进行实验, 验证了本文模型的有效性.  相似文献   

8.
30种多氯有机物的沉积物吸附系数定量结构性质关系研究   总被引:1,自引:0,他引:1  
研究了30种含氯有机物沉积物吸附系数(Koc)的定量结构性质关系(QSPR)模型。模型的自变量由遗传算法从多个结构描述符中选择得到,校正模型则采用多元线性回归方法建立。应用留一交叉验证及外部测试集验证对所建立的模型进行了检验。留一交叉验证中模型的预测均方相对误差为8.13,外部测试集验证中模型的预测均方相对误差为8.88。这说明所建立模型对于未知样本有较好的预测能力,可用于预测含氯有机物的Koc值;遗传算法结合多元线性回归方法是一种合理可行的建立含氯有机物沉积物吸附系数QSPR模型的方法。  相似文献   

9.
使用Python编程,采用朴素贝叶斯分类器、Softmax回归和决策树回归3种有监督学习算法,对KDD-CUP99网络入侵监测数据集进行训练,并分析结果。首先通过3种分类器库的函数,对KDD-CUP99数据集进行分析预测;然后通过增量式训练方法探究3种分类器对训练数据量的依赖程度;最后通过特征筛选探究3种分类器算法受样本特征数量的影响程度。  相似文献   

10.
面向文本数据建模时,交叉验证方法是特征选择及模型比较任务中的常用方法。许多研究表明,文本数据模型的性能估计对交叉验证的数据切分方式较为敏感,不合理的切分方式可能会导致不稳定的性能估计值,使得实验结果可复现性差。该文试图论证基于多次重复(m次)的2折交叉验证,通过引入对训练集、验证集分布差异的约束,所构造的正则化m×2交叉验证方法(简记为m×2 BCV)可以改善模型的性能指标的估计,适宜于模型比较。该文首先针对文本数据引入训练集与验证集分布差异的卡方度量,基于该度量构建数据切分的正则化条件,以最大化模型性能指标的信噪比为目标,给出了满足正则化条件的m×2 BCV的数据切分优化算法。最后,以自然语言处理中汉语框架语义角色标注任务为例,验证了基于m×2 BCV方法的有效性。  相似文献   

11.
12.
针对现存血压测量方法不规范、波动范围大且预测准确率低下等问题,提出一种基于网格搜索与交叉验证相结合的支持向量回归(K-SVR)的血压预测算法。该算法首先对数据进行清洗,随后利用网格搜索与交叉验证相结合的方法寻找出最优参数对,然后通过分析人体生理指标数据心率、血氧与血压之间的隐含关系来建立相应的血压预测模型,最后将预测得到的结果与另外几种比较经典的机器学习模型得到的结果进行对比,并利用准确率及均方根误差这2种指标进行评估。实验结果表明,该算法对于高压和低压的预测准确率约为71.39%、81.69%,均方根误差值约为0.5349、0.4279,均明显优于传统的机器学习算法。  相似文献   

13.
现有的加密流量检测技术缺少对数据和模型的隐私性保护,不仅违反了隐私保护法律法规,而且会导致严重的敏感信息泄露.主要研究了基于梯度提升决策树(GBDT)算法的加密流量检测模型,结合差分隐私技术,设计并实现了一个隐私保护的加密流量检测系统.在CICIDS2017数据集下检测了 DDoS攻击和端口扫描的恶意流量,并对系统性能...  相似文献   

14.
结合TF-IDF算法思想,提出了特征频率、森林频率以及伪梯度提升决策树,解决了梯度提升决策树随着迭代次数的增加,错误数据被边缘化的问题。在伪梯度提升决策树中,所有决策树分别在原始数据集的Bootstrapping后的数据集上产生,无须针对每次迭代来对数据集采样。在分布式集群上进行内网防御的实验,结果表明在一定规模的训练集上,伪梯度提升决策树具有更好的预测准确度。  相似文献   

15.
针对氧化铝蒸发过程的工业现场出口料液浓度在线检测困难、操作参数具有时变性以及传统离线预测所存在的不足等特点,提出了一种多输入多输出系统的自适应加权最小二乘支持向量回归,并用于氧化铝蒸发过程出口料液浓度的在线预测.谊方法根据模型预测效果自适应在线调整建模的训练样本集,利用主元分析提取主元作为分段加权支持向量回归模型的输入,采用网格搜索和交叉验证法对多输入多输出模型参数进行优化.采用工业现场的实测数据进行实验分析,计算结果表明;该方法能够很好地在线预测氧化铝蒸发过程出口料液浓度,相比基于最小二乘支持向量回归以及基于BP神经网络的浓度预测模型,谊方法具有更高的预测精度和更好的泛化性能,满足实际工业生产在线优化控制要求.  相似文献   

16.
针对煤炭消费量的时变性、非平稳性特点,为了提高煤炭消费量预测精度,提出了一种鲶鱼粒子群算法优化最小二乘支持向量机(LSSVM)的煤炭消费量预测模型(CEPSO-LSSVM)。将LSSVM参数编码成粒子位置串,并根据煤炭消费量训练集的交叉验证误差最小作为参数优化目标,通过粒子间信息交流找到最优LSSVM参数,并引入“鲶鱼效应”,保持粒子群的多样性,克服传统粒子群算法的局部最优,根据最优参数建立煤炭消费量预测模型,并采用实际煤炭消费量数据进行仿真测试。结果表明,相对于其他预测模型,CEPSO-LSSVM可以获得更优的LSSVM参数,提高了煤炭消费量预测精度,更加适用于复杂非线性的煤炭消费量预测。  相似文献   

17.
针对突发事件下城市道路车辆排队系统的特点,从时空角度综合考虑车辆排队系统的影响因素,建立支持向量回归(SVR)动态模型对车辆排队长度进行预测。考虑到参数选择对模型性能影响的敏感性,提出了以k折交叉验证(k-CV)均方误差平均值为适应度的粒子群优化(PSO)方法并对SVR模型参数进行寻优。用提出的PSO-SVR模型与K-CV和遗传算法(GA)优化的SVR模型以及BP网络预测模型对比,实验结果表明,该模型具有较高的预测精度和泛化能力,适用于车辆排队长度的预测。  相似文献   

18.
目前广泛使用的锂电池荷电状态(state-of-charge, SOC)预测方法的训练数据需要通过大量的仿真实验获取,而电动汽车在充电过程中产生的大量的充电记录数据并没有得到合理利用。为了能有效利用这些充电记录数据,将多元线性回归算法应用到SOC预测中。多元线性回归方法将电压、电流、电容等物理量作为与SOC直接相关的输入变量从而对SOC进行回归预测。由于SOC的时序特征,将SOC预测分为多个子预测过程,不断迭代计算,循环预测SOC的下一时刻输出值。同时为了克服异常样本对SOC预测精度的影响,采用两种常见的鲁棒回归算法(Theil-sen算法与RANSAC算法)来进行SOC预测。实验结果表明,鲁棒回归算法及多元线性回归算法能够很好地捕捉到SOC的增长规律,相比之下,Theil-sen算法精度更高,误差约1.398%,能够很好地满足SOC预测的实际需求。  相似文献   

19.
如何准确高效地预测销量是企业一直以来关注的重要问题.传统的时间序列预测方法虽然在研究和实践中占主导地位,但是存在一定的局限性.随着大数据的发展,电商企业能获取前所未有的数据量和数据特征,仅利用过去的行为和趋势很难准确地对销量进行预测.本文提出一种基于随机森林、GBDT、XGBoost算法的成本厌恶偏向性组合预测模型,并...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号