首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
对软件缺陷预测的不平衡问题进行了研究,提出了一种处理不平衡数据的采样方法,用来解决分类器因为样本集中的样本类别不平衡而造成分类器性能下降的问题。为了避免随机采样的盲目性,利用启发性的混合采样方法来平衡数据,针对少数类采用SMOTE过采样,对多数类采用K-Means聚类降采样,然后综合利用多个单分类器来进行投票集成预测分类。实验结果表明,混合采样与集成学习相结合的软件缺陷预测方法具有较好的分类效果,在获得较高的查全率的同时还能显著降低误报率。  相似文献   

2.
工业控制系统异常检测存在类不平衡问题,导致通用分类器很难实现异常数据的精准识别。目前,针对类不平衡数据,常用采样方法实现各类数据的平衡,以提高分类器性能。但传统采样方法对数据集特征敏感,采样效果稳定性差,异常检测精度波动大。文章基于生成式对抗网络(Generative Adversarial Network,GAN),提出一种GAN-Cross采样模型,该模型可以学习目标数据的概率分布,并生成相似概率分布的数据,从而改善数据的平衡性。同时,文章在生成器和判别器中增加了交叉层,从而更好地实现特征提取。最后文章将该模型与随机森林、K-近邻、高斯朴素贝叶斯和支持向量机4种经典分类器进行组合,在4个公开类不平衡数据集上与其他4种常规采样方法进行比较。实验结果表明,与传统采样方法相比,该模型能够显著提高分类器对类不平衡数据的异常检测能力。  相似文献   

3.
由于环境和快速发展之间的不平衡,城市空气质量问题变得越来越突出。PM2.5作为空气污染的主要成分,会对人体造成很大伤害。因此,准确地预测PM2.5浓度对于保护人们健康具有重要意义。首先选取了其他空气质量数据(PM10、NO2、CO2、O3)作为影响因素,构建了基于机器学习(多元线性回归、岭回归、套索回归、决策树、随机森林和人工神经网络)的PM2.5预测模型;其次利用这些模型预测山西省太原市未来1小时PM2.5浓度;最后通过MAE、RMSE、R2来等指标评价各模型的预测性能,实验结果表明,基于随机森林的预测模型具有最高的预测精度。  相似文献   

4.
田臣  周丽娟 《计算机应用》2019,39(6):1707-1712
针对信用评估中最为常见的不均衡数据集问题以及单个分类器在不平衡数据上分类效果有限的问题,提出了一种基于带多数类权重的少数类过采样技术和随机森林(MWMOTE-RF)结合的信用评估方法。首先,在数据预处理过程中利用MWMOTE技术增加少数类别样本的样本数;然后,在预处理后的较平衡的新数据集上利用监督式机器学习算法中的随机森林算法对数据进行分类预测。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在UCI机器学习数据库中的德国信用卡数据集和某公司的汽车违约贷款数据集上的仿真实验表明,在相同数据集上,MWMOTE-RF方法与随机森林方法和朴素贝叶斯方法相比,AUC值分别提高了18%和20%。与此同时,随机森林方法分别与合成少数类过采样技术(SMOTE)方法和自适应综合过采样(ADASYN)方法结合,MWMOTE-RF方法与它们相比,AUC值分别提高了1.47%和2.34%,从而验证了所提方法的有效性及其对分类器性能的优化。  相似文献   

5.
针对大气中细颗粒物(PM2.5)浓度预测的问题,提出一种预测模型。首先,通过引入综合气象指数综合考虑风力、湿度、温度等因素;然后,结合实际二氧化硫(SO2)浓度、二氧化氮(NO2)浓度、一氧化碳(CO)浓度和PM10浓度等,构成特征向量;最后,利用特征向量和PM2.5浓度数据来建立最小二乘支持向量机(LS-SVM)预测模型。经2013年城市A和城市B环境监测中心的数据预测分析表明,引入综合气象指数后预测的准确性提高,误差降低近30%。说明该模型能够较为准确地预测PM2.5浓度,并具有较高的泛化能力。此外还分析了PM2.5浓度与住院率、医院门诊量的关系,发现了它们的高度相关性。  相似文献   

6.
为提升PM 2.5浓度预测精度,提出基于时空融合与缺失值填补的预测方法。抓住时空相关性,以历史气象和PM 2.5浓度数据作为输入,利用长短时记忆神经网络和人工神经网络从时空两个维度对未来一小时PM 2.5水平进行预测,用模型树进行融合。由于数据集中存在大量的连续缺失数据,为弥补其带来的不利影响,利用所提算法对预测模型进行辅助。实验结果表明,时空融合比单维度单模型的预测表现更佳,提出的填补算法使预测误差进一步降低。  相似文献   

7.
赵煜  邵必林  边根庆  宋丹 《计算机应用》2015,35(7):1959-1964
针对微博转发预测方法研究中的数据集不平衡问题,提出了一种融合过采样技术和随机森林(RF)算法的微博转发行为预测方法。首先,定义了个体信息、社交关系和微博主题3类与微博转发行为相关的特征,并基于信息增益算法实现了关键特征选取;其次,综合微博特征数据的特点来改进少数类样本合成过采样技术(SMOTE),对原始数据集进行非参数概率分布估计,并根据近似概率分布对数据集进行过采样处理,从而使正反例数据量达到平衡;最后,利用随机森林算法,依据微博转发关键特征进行分类器训练,并利用袋外(OOB)数据误差估计来分析和设置随机森林算法的相关参数。通过与基于决策树(DT)、支持向量机(SVM)、朴素贝叶斯(NB)和随机森林等算法的微博转发预测方法进行对比,所提方法整体性能优于基准方法中性能最优的SVM方法,召回率提高了8%,F值提高了5%。实验结果表明,所提方法在实际应用中能够有效提高微博转发行为预测的准确率。  相似文献   

8.
为提高PM2.5长期预测精度,以空气污染物与气象因素作为影响因子,提出一种基于深度学习的TSMN(time series memory network)预测模型.该模型由两个组件构成,本地记忆组件利用外部记忆方式提高模型长程记忆能力,并与多站点空间关系建模的邻域组件协同从时空角度完成PM2.5长期预测.通过使用不同评价指标将TSMN模型与多种模型进行对比,其中与性能较优的CNN-LSTM模型相比,该模型的RMSE、MAE分别下降5.2%、5.7%,R2提升7.5%.实验结果表明TSMN模型能够有效提高PM2.5浓度的长期预测精度.  相似文献   

9.
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。  相似文献   

10.
针对直升机飞行状态识别训练样本数据少而导致识别率不高的问题,提出一种基于随机森林的直升机飞行状态识别方法。首先利用去野点、限幅、平滑处理对飞行数据进行预处理,并根据特征参数将飞行状态分为8个小类;然后利用随机森林识别率较高的特点,对每一小类进行随机森林分类器设计;最后利用训练样本训练每个随机森林分类器,并将训练好的随机森林分类器识别直升机全起落飞行状态。以某型直升机实飞数据作为实验数据,将该方法与RBF神经网络法和SVM法进行对比实验,结果表明在小样本情况下该方法识别率有明显提高,识别速度也有所提高,可为直升机寿命预测提供依据。  相似文献   

11.
日间PM2.5浓度受本地和邻近地区的多重因素影响,具有高度不确定性和不稳定性.常见的PM2.5实值序列和区间序列分别反映其日均和极值波动状况,三角模糊序列将两者优点相结合可包含更多的有效信息.基于此,提出基于多元经验模态分解(multiple empirical mode decomposition,MEMD)和空间层次聚类的PM2.5三角模糊序列多因子组合预测模型.首先,运用皮尔曼相关系数分析PM2.5与本地污染物浓度、气象要素间的关联度,选取本地影响因子;其次,计算PM2.5与空间污染物浓度间的关联度,并据此对邻近城市K-means空间聚类得到核心影响、一般影响和偏远影响城市群,并统计各城市群不同污染物的综合指数,即空间影响因子;进而,利用MEMD对PM2.5和影响因子的三角模糊序列同时进行分解,重构得到高频、低频以及趋势序列;最后,运用BP神经网络、长短记忆神经网络(long short-term memory,LSTM)、最小二乘支持向量回归(least squares support vector regression, LSSVR)分别对子序列进行多输入单输出的预测,并将上述单项预测结果相加,即得到PM2.5三角模糊序列的预测值.仿真实验结果表明,所提出的模型能够充分考虑气象条件和多种污染物的空间影响,具有较强的预测精度和良好的实用性.  相似文献   

12.
基于多元线性回归的雾霾预测方法研究   总被引:1,自引:0,他引:1  
付倩娆 《计算机科学》2016,43(Z6):526-528
提出了一种在线样本更新的多元线性回归分析的雾霾预测方法。首先搜集了北京市天气状况,包括平均气温、湿度、风级等气象数据以及PM2.5、CO、NO2、SO2等大气成分浓度数据,然后通过散点图对这些因素进行主要影响因素分析,筛选出对雾霾影响比较明显的因素作为雾霾预测的依据。通过在线样本更新的多元线性回归建立了PM2.5含量预测模型,并将气象要素作为雾霾的判断标准。最后给出实际例子,利用多元线性回归对北京未来一天、三天及一周的PM2.5含量进行较为精确的预测。  相似文献   

13.
余东昌  赵文芳  聂凯  张舸 《计算机应用》2021,41(4):1035-1041
为了提高能见度预报的准确率,尤其是低能见度预报的准确率,提出一种基于集成学习随机森林和LightGBM的能见度预测模型。首先,以数值模式系统的气象预报数据为基础,结合地面气象观测数据、PM2.5浓度观测数据,利用随机森林算法构建特征向量;其次,针对不同时间跨度的缺失数据,设计了3种缺失值处理方法对缺失值进行替代,生成用于训练和测试的连续性较好的数据样本集;最后,建立基于LightGBM的能见度预测模型,并用网络搜索法对其进行参数优化。把所提模型与支持向量机(SVM)、多元线性回归(MLR)、人工神经网络(ANN)在性能上进行对比。实验结果表明,对于不同的等级的能见度,应用LightGBM的能见度预测模型获得预兆得分(TS)均较高,而对于<2 km的低能见度,该模型对各观测站点的能见度预测值与各观测站点的能见度实况值的平均相关系数为0.75,平均均方误差为6.49。可见基于LightGBM的预测模型能有效提高能见度预测精度。  相似文献   

14.
随机森林是一种组合分类器技术,相较于决策树等单分类器,具有更好的预测和分类性能,但其也存在一些问题:因为随机森林自身的随机性,导致预测结果存在波动性;所使用的原始数据集样本基数大,维数多,增加了随机森林组合分类器的训练时间。针对以上问题,提出优化随机森林模型,对数据集进行数据集预处理和PCA降维操作,引入累计贡献率。结合选择的最佳阈值进行最终的预测结果分类,提高了模型的训练速度、预测准确率和稳定性。实验证明,该方法具有更优越的预测性能。  相似文献   

15.
申原  陈朝亮  钱静  刘军 《集成技术》2018,7(3):31-41
细颗粒物(PM2.5)监测是大气污染治理的重要手段,受限于地面观测点的数量,从遥感反演 PM2.5 是常规地面观测的有效补充,是当前的研究热点。通常遥感反演 PM2.5 的思路是先反演大气气溶胶光学厚度,然后基于统计关系由大气气溶胶光学厚度反演 PM2.5。该方法容易造成误差传递,从而 导致反演模型的不稳定。该文提出了一种基于随机森林算法(一种机器学习算法)的 PM2.5 遥感反演方法,直接建立中分辨率成像光谱仪(Moderate Resolution Imaging Spectroradiometer,MODIS)影像与地 面实测 PM2.5 的关系,可以避免传统反演 PM2.5 时先反演大气气溶胶光学厚度带来的误差,最终得到精度更高的 PM2.5 反演结果。该方法先用随机森林算法对 MODIS 影像和经过克里金插值后的地面监测站PM2.5 数据进行训练和测试;然后,根据测试的均方根误差从多个模型中选取最优(均方根误差最小)的模型;最后,将此模型用于整幅 MODIS 影像,得到整个区域的 PM2.5 反演结果。实验选取了广东省 四个季节多幅 MODIS 影像数据进行验证,并通过决定系数和均方根误差两个表现指标进行对比和分析,验证了所提算法的优越性。  相似文献   

16.
为了充分挖掘多因素数据间的时空特征信息,解决在多种因素相互影响下不能准确预测PM2.5值的问题,提出了一种融合了局部加权回归的周期趋势分解(Seasonal-Trend decomposition procedure based on Loess, STL)算法、卷积长短期记忆网络(Convolutional Long Short-Term Memory Network, ConvLSTM)和门控循环单元(Gated Recurrent Unit, GRU)的PM2.5预测方法。首先利用STL算法将PM2.5数据进行分解,将分解得到的序列分别与其他因素相融合;搭建ConvLSTM-GRU模型,并利用贝叶斯寻优算法进行超参数寻优;将融合数据传入ConvLSTM网络中进行时空特征提取,再将提取后的特征序列传入GRU网络中进行预测。通过与ConvLSTM-GRU模型、CNN-GRU模型以及GRU模型的预测结果进行比较实验,证明所提模型具有误差小、预测效果好等特点。  相似文献   

17.
为了能够更好地预测股票的走向趋势,解决在大量特征和大数据下预测精度低的问题,在随机森林的基础上提出了一种基于Pearson系数的随机森林新的组合模型方法。利用Pearson系数进行相关性检验删除无关特征;使用改进的网格搜索法对决策树参数调优;利用随机森林将剩余特征进行建模回归预测,并得出最终结论。实验结果表明:改进后的随机森林在预测值的平均绝对误差(MAE)、均方误差(MSE)都得到了较大的提高。其中今世缘改进后的随机森林比传统随机森林的MSE值降低了56%,MAE值降低了37.3%,其他两只股票预测效果也均得到提高。新的组合模型,可以实现对股票价格的短期预测回归,并且能够降低噪声对股票价格预测的影响。该研究为更好地预测股票价格提供了有效证据并为投资者提供了对股票影响因素的选择。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号