首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
近年来,个体收入水平预估问题成为各行业的研究热点,针对当前收入水平预估算法只应用于某种类型单一且数据比例平衡的问题,采用基于Gradient Boosted Decision Tree(GBDT)的个体收入水平预估方法。GBDT能够处理多样化特征类型的数据集,包括数值类型和类别类型数据;可应用于缺失数据和非平衡数据集,通过选择合适的损失函数可以降低模型对异常值的敏感性。在基于UCI公开的人口普查数据中的实验效果表明,GBDT的实验效果优于常用的朴素贝叶斯(Naive Bayes)以及随机森林(Random Forest)的结果,具有较高精确度和普适性。  相似文献   

2.
如何准确高效地预测销量是企业一直以来关注的重要问题.传统的时间序列预测方法虽然在研究和实践中占主导地位,但是存在一定的局限性.随着大数据的发展,电商企业能获取前所未有的数据量和数据特征,仅利用过去的行为和趋势很难准确地对销量进行预测.本文提出一种基于随机森林、GBDT、XGBoost算法的成本厌恶偏向性组合预测模型,并...  相似文献   

3.
一种基于贝叶斯网络模型的交通事故预测方法   总被引:5,自引:0,他引:5  
秦小虎  刘利  张颖 《计算机仿真》2005,22(11):230-232
大部分的交通事故都可以预测.有效的交通事故预测能从很大程度上减少人员伤亡和交通阻塞.贝叶斯网络是目前不确定知识和推理领域最有效的理论模型之一.该文提出了一种基于贝叶斯网络模型理论的交通事故预测方法.在综合考虑交通事故成因的基础上利用领域专家知识构建网络模型,在已有的事故数据的基础上提出基于贝叶斯法则的学习算法,并通过计算变量间的条件概率来计算事故发生的可能性,达到事故预测的目的.文章的最后,通过历史数据进行仿真实验,对仿真结果和该模型的适用范围进行了分析.  相似文献   

4.
结合多个模型集成学习可以提升单模型预测算法的性能,本文提出一种基于多特征融合的视频点击率预测方法,将哈希降维的特征和GBDT组合特征进行拼接作为输入特征,采用随机梯度下降法对逻辑回归、因子分解机和场感知因子分解机的输出值进行线性加权的迭代调整.实验结果表明该算法的预测效果优于基于单模型算法,也优于基于套袋方法的随机森林...  相似文献   

5.
为解决乡村振兴战略规划下空心村常住人口预测问题,为国家促进乡村发展、乡村建设、乡村治理提供辅助决策。本文采用GBDT回归算法利用电力、气象等数据对空心村常住人口进行预测。通过特征值重要性分析分析方法筛选出空心村常住人口相关性最强的5个特征,针对这些特征采用模型训练及预测的方式预测空心村常住人口。完成数据预处理后,本文采用5折交叉验证法,以3:1:1的比例将数据集分别划分为训练集、交叉验证集和预测集,获取常住人口预测结果后,并采用均方误差和R方值结合可视化方法对于预测结果进行准确性验证。验证结果表明,采用基于GBDT回归的空心村常住人口预测算法对于空心村常住人口有较好的预测结果。  相似文献   

6.
针对传统配电网理论线损计算需要电气参量多、工作量大、计算结果准确率低等问题,提出一种基于改进K-Means聚类算法和GBDT(Gradient Boost Decision Tree,梯度提升树)算法的配电网线损计算的方法。先采用改进K-Means算法对配电网线损样本进行聚类分析,然后将聚类后的数据集作为GBDT算法的输入数据集训练模型,最后进行线损的计算。采用本算法与BP神经网络模型进行算例对比与分析,并利用扬州许方线路配电网实际线损值做实例验证。结果表明,所提算法具有计算快速、精度更高等优点。  相似文献   

7.
目前,设备健康预测问题的研究大都在全样本数据下进行,而在缺失样本数据下的研究却很少。因此,针对缺失样本数据下设备健康预测问题,提出了集成分段隐半马尔可夫模型(SHSMM)与GM(1,1, λ)的联合优化模型。首先,基于SHSMM的模型架构,利用EM算法推导出SHSMM中的参数估计公式。其次,基于GM(1,1, λ),提出灰色启发式算法填补样本中的缺失数据,利用预测过程进行设备健康预测。最后,通过案例分析对模型进行评价和验证。结果表明,提出的设备健康预测方法能有效解决缺失数据的问题。  相似文献   

8.
一种基于双聚类的缺失数据填补方法   总被引:1,自引:0,他引:1  
针对现实数据集的数据缺失问题,提出了一种基于双聚类的缺失数据填补新方法.该算法利用双聚类簇内平均平方残值越小簇内数据相似性越高的这一特性,将缺失数据的填补问题转换为求解特定双聚类簇最小平均平方残值的问题,进而实现了数据集中缺失元素的预测;再利用二次函数求解极小值的思想对包含有缺失数据的特定双聚类簇最小平均平方残值的问题进行求解,并进行了数学上的分析证明.最后进行仿真验证,通过观察UCI数据集的实验结果可知,提出的算法具有较高的填补准确性.  相似文献   

9.
张安珍  李建中  高宏 《软件学报》2020,31(2):406-420
本文研究了基于符号语义的不完整数据聚集查询处理问题.不完整数据又称为缺失数据,缺失值包括可填充的和不可填充的两种类型.现有的缺失值填充算法不能保证填充后查询结果的准确度,为此,本文给出不完整数据聚集查询结果的区间估计.本文在符号语义中扩展传统关系数据库模型,提出一种通用不完整数据库模型,该模型可以处理可填充的和不可填充的两种类型缺失值.在该模型下,提出一种新的不完整数据聚集查询结果语义:可靠结果.可靠结果是真实查询结果的区间估计,可以保证真实查询结果很大概率在该估计区间范围内.本文给出线性时间求解SUM、COUNT和AVG查询可靠结果的方法.真实数据集和合成数据集上的扩展实验验证了本文所提方法的有效性.  相似文献   

10.
当前的不完整数据处理算法填充缺失值时,精度低下。针对这个问题,提出一种基于CFS聚类和改进的自动编码模型的不完整数据填充算法。利用CFS聚类算法对不完整数据集进行聚类,对降噪自动编码模型进行改进,根据聚类结果,利用改进的自动编码模型对缺失数据进行填充。为了使得CFS聚类算法能够对不完整数据集进行聚类,提出一种部分距离策略,用于度量不完整数据对象之间的距离。实验结果表明提出的算法能够有效填充缺失数据。  相似文献   

11.
短视频喜好率预测往往面临着用户及广告的数量巨大且训练数据集高维、稀疏等问题,从而导致预测准确度下降。针对这些问题提出了基于LDA-GBDT-FM的短视频喜好率预测模型,该模型利用隐狄利克雷分配模型(LDA)对原始数据集基于主题分割,利用梯度提升决策树(GBDT)对不同主题的子训练集提取连续型特征的高影响力特征,将其与离散特征合并来训练因子分解机(FM)模型,最后有效组合子模型,进而预测短视频的喜好率。实验基于Bytedance公司的数据集,实验结果表明,提出的LDA-GBDT-FM模型相较于LDA-FM、FM和LR在预测指标上分别提高了3.0%、5.7%和8.5%。  相似文献   

12.
为了有效预测交通事故,提出一种基于改进粒子群算法优化支持向量回归机的预测模型。改进粒子群算法利用网格搜索对全局最优粒子的邻域进行精细搜索,结合粒子群算法较快的收敛速度和网格搜索较强局部搜索能力的优点,提高了支持向量回归机相关参数的优化精度,进而改善了交通事故预测模型的预测性能。仿真结果表明,基于改进粒子群算法优化支持向量回归机的交通事故预测模型达到了较快的学习速度和较高的预测精度,具有良好的工程应用性。   相似文献   

13.
现有的加密流量检测技术缺少对数据和模型的隐私性保护,不仅违反了隐私保护法律法规,而且会导致严重的敏感信息泄露.主要研究了基于梯度提升决策树(GBDT)算法的加密流量检测模型,结合差分隐私技术,设计并实现了一个隐私保护的加密流量检测系统.在CICIDS2017数据集下检测了 DDoS攻击和端口扫描的恶意流量,并对系统性能...  相似文献   

14.
数据缺失会影响数据的质量,可能导致分析结果的不准确和降低模型的可靠性,缺失值填补能减低偏差方便后续分析.大多数的缺失值填补算法,都是假设多项缺失值之间是弱相关甚至无相关,很少考虑缺失值之间的相关性以及填补顺序.在销售领域中对缺失值进行独立填补,会减少缺失值信息的利用,从而对缺失值填补的准确度造成较大的影响.针对以上问题,本文以销售领域为研究目标,根据销售行为的多维度特征,利用不同模型输出值的空间分布特征特性,探索多项缺失值的填补更新机制,研究面向销售数据多项缺失值增量填补方法,根据特征相关性,对缺失特征排序并用已填补的数据作为信息要素融合对后面的缺失值进行增量填补.该算法同时考虑了模型的泛化性和缺失数据之间的信息相关问题,并结合多模型融合,对多项缺失值进行有效填补.最后基于真实连锁药店销售数据集通过大量实验对比验证了所提算法的有效性.  相似文献   

15.
化工事故发生的根原因多是由人的不安全行为、机械或物的不安全状态等引发,其本质是企业管理上的缺陷。挖掘根原因间、根原因与事故间的关联关系是预防事故、提升企业安全管理水平的关键。由于事故调研根原因分析与安全管理指标体系存在稀疏关联现象,难以挖掘管理缺陷与事故演化间的关联关系。为此,本文通过协同过滤算法填补事故调研中缺失的评分数据;基于加权支持度计数的关联规则算法挖掘事故根原因间、根原因与事故属性间的强关联规则。实验结果表明,基于加权支持度的关联分析算法相比于现有的算法,能推荐更多危险程度高的企业潜在安全隐患及安全隐患与事故间的演化关联,从而能科学指导企业安全生产,实现面向生产过程的风险预警和事故预防。  相似文献   

16.
In this study, the traffic accidents recognizing risk factors related to the environmental (climatological) conditions that are associated with motor vehicles accidents on the Konya-Afyonkarahisar highway with the aid of Geographical Information Systems (GIS) have been determined using the combination of K-means clustering (KMC)-based attribute weighting (KMCAW) and classifier algorithms including artificial neural network (ANN) and adaptive network-based fuzzy inference system (ANFIS). The dynamic segmentation process in ArcGIS9.0 from the traffic accident reports recorded by District Traffic Agency has identified the locations of the motor vehicle accidents. The attributes obtained from this system are day, temperature, humidity, weather conditions, and month of occurred traffic accidents. The traffic accident dataset comprises five attributes (day, temperature, humidity, weather conditions, and month of occurred traffic accidents) and 358 observations including 179 without accident and 179 with accident. The proposed comprises two stages. In the first stage, the all attributes of dataset have been weighted using KMCAW method. The aims of this weighting method are both to increase the classification performance of used classifier algorithm and to transform from linearly non-separable traffic accidents dataset to a linearly separable dataset. In the second stage, after weighting process, ANN and ANFIS classifier algorithms have been separately used to determine the case of traffic accidents as with accident or without accident. In order to evaluate the performance of proposed method, the classification accuracy, sensitivity, specificity and area under the ROC (Receiver Operating Characteristic) curves (AUC) values have been used. While ANN and ANFIS classifiers obtained the overall prediction accuracies of 53.93 and 38.76%, respectively, the combination of KMCAW and ANN and the combination of KMCAW and ANFIS achieved the overall prediction accuracies of 74.15 and 55.06% on the prediction of traffic accidents. The experimental results have demonstrated that the proposed attribute weighting method called KMCAW is a robust and effective data pre-processing method in the prediction of traffic accidents on Konya-Afyonkarahisar highway in Turkey.  相似文献   

17.
With the increasing traveling speed of railway transportation, rail right-of-way intrusions can cause high-consequence accidents and pose severe challenges to railway safety. Although intrusion detection technologies have been widely studied and applied, they can only support in-event inspection and post-event control. In the current complex environment, there is a critical need to analyze the causal chain of railway intrusions and mitigate safety risks before or during the risk evolution process. This paper developed a novel methodological framework on the cause-consequence model based on the text mining techniques and fuzzy bow-tie modeling to systematically investigate the railway intrusion risks. In order to mine both critical factors and their interrelationships, a lexical co-occurrence analysis was carried out on a customized corpus of intrusion accident recordings. Then structured bow-tie diagrams were developed based on the networks generated by unstructured data. To overcome the data uncertainty issue, this paper utilized cause-consequence-based probabilistic analysis and fuzzy theory to quantify the risks involving the occurrence probability of top events and outcomes in terms of expert judgements. The application of the proposed bow-tie model was demonstrated based on the case of the Hualien Derailment accident. The findings based on the bow-tie model and historical accidents in this research have systematically summarized basic events and causal chains. Ultimately, they can be utilized by researchers and practitioners both to identify the critical risk factors and enhance railway safety via proactive and reactive measures.  相似文献   

18.
针对目前航空安全事故因果关系分析一般采用基于概率和统计的方法,缺乏对事故发生过程的详细分析这一问题,提出通过因果关系抽取挖掘事故的因果发展过程。针对世界航空安全事故调查报告构成的文本数据集,将航空安全事故因果关系分为显式因果关系和隐式因果关系,其中显式因果关系抽取采用模式匹配的方法,抽取准确率达到87.72%;隐式因果关系抽取则采用改进的基于自注意力机制的双向长短期记忆网络方法,该方法在公共数据集和航空安全数据集上的F值较基准方法分别提高近6%和10%。在有效实现单一航空安全事故因果关系对的识别与抽取的基础上,生成了每个事故的因果关系图,为深入分析航空安全事故发生过程和情景重现提供数据与方法支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号