首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
随机森林分类算法在产生决策树以及投票流程中各个决策树的分类准确度各不相同,由此带来的问题是少部分决策树会影响随机森林算法的整体分类性能。除此以外,数据集中的不平衡数据也能影响到决策树的分类精度。针对以上缺点,对Bootstrap抽样方法添加约束条件,以降低非平衡数据对生成决策树的影响;以及利用袋外数据(Outof-Bagging)和非平衡系数对生成的决策树进行评估加权。试验结果表明,所提算法改善了随机森林对不平衡数据的分类精度。  相似文献   

2.
《微型机与应用》2016,(3):28-30
随机森林可以产生高准确度的分类器,被广泛用于解决模式识别问题。然而,随机森林赋予每个决策树相同的权重,这在一定程度上降低了整个分类器的性能。为了解决这个问题,本文提出一种加权随机森林算法。该算法引入二次训练过程,提高分类正确率高的决策树投票权重,降低分类错误率高的决策树投票权重,从而提高整个分类器的分类能力。通过在不同数据集上的分类测试实验,证明了本文算法相比于传统的随机森林算法具有更强的分类性能。  相似文献   

3.
为了应对大规模网络环境下日益复杂的网络安全威胁,越来越多的研究使用机器学习算法来建立入侵检测模型,其中一些基于随机森林的检测方法具有较好的效果。但传统随机森林中一些分类能力较差的决策树的存在,以及入侵检测数据集的不平衡性,都可能会导致基于传统随机森林的入侵检测模型的性能有所下降。针对这些问题,论文在基于传统随机森林的入侵检测模型上加入了精英选择、加权投票和上采样几种优化方法,并在UNSW-NB15数据集上进行了测试,结果表明优化后的模型具有更好的检测能力。  相似文献   

4.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

5.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

6.
传统随机森林分类算法采用平均多数投票规则不能区分强弱分类器,而且算法中超参数的取值需要调节优化.在研究了随机森林算法在文本分类中的应用技术及其优缺点的基础上对其进行改进,一方面对投票方法进行优化,结合决策树的分类效果和预测概率进行加权投票,另一方面提出一种结合随机搜索和网格搜索的算法对超参数调节优化.Python环境下的实验结果表明本文方法在文本分类上具有良好的性能.  相似文献   

7.
随机森林为集合算法中最为经典的模型之一,利用多棵并行独立的决策树投票分类.随机森林使用有放回采样方法,随机采样若干个样本集合,针对这些样本集合构造若干个决策树.由于采样过程和决策树属性选择具有随机性,随机森林较好地解决了决策树的过拟合问题.不过随机森林算法中每颗决策树都是一样的权重,这显然不合理.包外误差作为衡量模型泛化误差的指标,利用包外误差赋予每颗决策树不一样的权重解决信用卡欺诈问题.经实验证明,提出的算法精确度提高,是更为有效的算法.  相似文献   

8.
王雅辉  钱宇华  刘郭庆 《计算机应用》2021,41(10):2785-2792
传统决策树算法应用于有序分类任务时存在两个问题:传统决策树算法没有引入序关系,因此无法学习和抽取数据集中的序结构;现实生活中存在大量模糊而非精确的知识,而传统的决策树算法无法处理存在模糊属性取值的数据。针对上述问题,提出了基于模糊优势互补互信息的有序决策树算法。首先,使用优势集表示数据中的序关系,并引入模糊集来计算优势集以形成模糊优势集。模糊优势集不仅能反映数据中的序信息,而且能自动获取不精确知识。然后,在模糊优势集的基础上将互补互信息进行推广,并提出了模糊优势互补互信息。最后,使用模糊优势互补互信息作为启发式,设计出基于模糊优势互补互信息的有序决策树算法。在5个人工数据集及9个现实数据集上的实验结果表明,所提算法在有序分类任务上较经典决策树算法取得了更低的分类误差。  相似文献   

9.
为使综合经济效益最大化,生产过程应保持在最优运行状态等级.针对多模态过程运行状态等级优劣判断问题,提出一种运行状态等级评价方法.该方法对同一运行状态等级的多模态数据建立一个高斯混合模型(Gaussian mixture model,GMM),确保特征提取的准确性,避免模态划分问题.至于在线评价策略,本文采用贝叶斯推理,确定当前运行状态属于各等级的后验概率.并引入滑动窗口,判定当前运行状态等级,有效解决多模态过程运行状态在线评价问题.针对"非优"运行状态,本文提出一种基于变量偏导数的贡献计算方法,对导致过程运行状态等级"非优"的原因变量进行追溯.最后,通过田纳西–伊斯曼(Tennessee–Eastman,TE)过程验证所提方法的有效性.  相似文献   

10.
邹筱瑜  王福利  常玉清  郑伟 《自动化学报》2019,45(11):2071-2081
过程运行状态评价旨在实时判断运行性能优劣程度,并追溯导致非优运行状态的原因,指导操作人员进行生产调整,保证企业经济效益.因此,对过程运行性能优劣评价的研究具有重要的理论和应用价值.本文针对定量、定性变量共存的流程工业过程运行状态评价问题,提出基于两层分块混合模型的评价方法.将流程工业过程根据其物理特性和管理方向划分子块,产生子块层和全流程层.在定量信息占主导地位的子块内,建立定量的高斯混合模型(Gaussian mixture model,GMM).在定性信息占主导地位的子块内,建立定性概率粗糙集(Probabilistic rough set,PRS)模型.综合各子块运行状态信息,进一步判定全流程运行状态等级.针对非优运行状态等级,本文提出基于贡献率的非优原因追溯方法,在非优子块内进行原因追溯.最后,将所提方法应用于某黄金湿法冶炼生产过程,说明所提方法的可行性和有效性.  相似文献   

11.
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。  相似文献   

12.
随机森林在bootstrap的基础上通过对特征进行抽样构建决策树,以牺牲决策树准确性的方式来降低决策树间的相关性,从而提高预测的准确性。但在数据规模较大时,决策树间的相关性仍然较高,导致随机森林的性能表现不佳。为解决该问题,提出一种基于袋外预测的改进算法,通过提高决策树的准确性来提升随机森林的预测性能。将随机森林的袋外预测与原特征相结合并重新训练随机森林,以有效降低决策树的VC-dimension、经验风险、泛化风险并提高其准确性,最终提升随机森林的预测性能。然而,决策树准确性的提高会使决策树间的预测趋于相近,提升了决策树间的相关性从而影响随机森林最终的预测表现,为此,通过扩展空间算法为不同决策树生成不同的特征,从而降低决策树间的相关性而不显著降低决策树的准确性。实验结果表明,该算法在32个数据集上的平均准确率相对原始随机森林提高1.7%,在校正的paired t-test上,该方法在其中19个数据集上的预测性能显著优于原始随机森林。  相似文献   

13.
师彦文  王宏杰 《计算机科学》2017,44(Z11):98-101
针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。  相似文献   

14.
随机森林(RF)具有抗噪能力强,预测准确率高,能够处理高维数据等优点,因此在机器学习领域得到了广泛的应用。模型决策树(MDT)是一种加速的决策树算法,虽然能够提高决策树算法的训练效率,但是随着非纯伪叶结点规模的增大,模型决策树的精度也在下降。针对上述问题,提出了一种模型决策森林算法(MDF)以提高模型决策树的分类精度。MDF算法将MDT作为基分类器,利用随机森林的思想,生成多棵模型决策树。算法首先通过旋转矩阵得到不同的样本子集,然后在这些样本子集上训练出多棵不同的模型决策树,再将这些树通过投票的方式进行集成,最后根据得到的模型决策森林给出分类结果。在标准数据集上的实验结果表明,提出的模型决策森林在分类精度上明显优于模型决策树算法,并且MDF在树的数量较少时也能取到不错的精度,避免了因树的数量增加时间复杂度增高的问题。  相似文献   

15.
针对现有欠采样处理算法中存在样本缺少代表性、分类性能差等问题,提出了一种基于聚类欠采样的加权随机森林算法(weighted random forest algorithm based on clustering under-sampling,CUS-WRF)。利用K-means算法对多数类样本聚类,引入欧氏距离作为欠采样时分配样本个数的权重依据,使采样后的多数类样本与少数类样本形成一个平衡的样本集,以CART决策树为基分类器,加权随机森林为整体框架,同时将测试样本的准确率作为每棵树的权值来完成对结果的最终投票,有效提高了整体分类性能。选择八组KEEL数据集进行实验,结果表明,与其余四种基于随机森林的不平衡数据处理算法相比,CUS-WRF算法的分类性能及稳定性更具优势。  相似文献   

16.
异常检测系统在网络空间安全中起着至关重要的作用,为网络安全提供有效的保障.对于复杂的网络流量信息,传统的单一的分类器往往无法同时具备较高检测精确度和较强的泛化能力.此外,基于全特征的异常检测模型往往会受到冗余特征的干扰,影响检测的效率和精度.针对这些问题,本文提出了一种基于平均特征重要性的特征选择和集成学习的模型,选取决策树(DT)、随机森林(RF)、额外树(ET)作为基分类器,建立投票集成模型,并基于基尼系数计算基分类器的平均特征重要性进行特征选择.在多个数据集上的实验评估结果表明,本文提出的集成模型优于经典集成学习模型及其他著名异常检测集成模型.且提出的基于平均特征重要性的特征选择方法可以使集成模型准确率平均进一步提升约0.13%,训练时间平均节省约30%.  相似文献   

17.
《遥感技术与应用》2018,33(4):612-620
In order to improve the classification accuracy of hyperspectral images,a new weighted random forest method based on AdaBoost is proposed.In this method,the concept of sample weight is introduced,and then the weight of each sample will be adjusted according to whether the sample is correctly classified.Those misclassified samples will be given higher weight value,to attract more attention of the classifier to improve the classification.Furthermore,the method gives the voting weight to every basic classifier according to their classification error rate.The basic classifier with higher classification accuracy will obtain larger voting weight.Two sets of Hyperspectral data(The CASI Hyperspectral Data acquired in Heihe region and CHRIS Hyperspectral Data acquired in the Yellow River Estuary) are used to verify the validity of the method.The results show that the weighted random forest has a better performance than the equal weight random forest and the SVM method in the overall classification accuracy,the average classification accuracy and the Kappa coefficient,which proves the efficiency of the proposed method.  相似文献   

18.
针对现有地铁车门故障诊断方法存在的诊断速度慢以及大量故障检修数据未得到合理利用等问题,提出一种基于信息增益率的随机森林故障诊断方法.该方法将地铁车门历史故障数据集转化成决策表,通过Bootstrap重抽样,建立多棵基于信息增益率的决策树,形成随机森林故障诊断模型,实现地铁车门故障的快速诊断.且随着故障数据的增加,其故障诊断模型可以自动更新完善.通过地铁车门实际故障数据,验证了该方法的有效性.同时,通过对随机森林模型中决策树的数目讨论分析,确定了该方法模型的最优设计结构.  相似文献   

19.
Mining with streaming data is a hot topic in data mining. When performing classification on data streams, traditional classification algorithms based on decision trees, such as ID3 and C4.5, have a relatively poor efficiency in both time and space due to the characteristics of streaming data. There are some advantages in time and space when using random decision trees. An incremental algorithm for mining data streams, SRMTDS (Semi-Random Multiple decision Trees for Data Streams), based on random decision trees is proposed in this paper. SRMTDS uses the inequality of Hoeffding bounds to choose the minimum number of split-examples, a heuristic method to compute the information gain for obtaining the split thresholds of numerical attributes, and a Naive Bayes classifier to estimate the class labels of tree leaves. Our extensive experimental study shows that SRMTDS has an improved performance in time, space, accuracy and the anti-noise capability in comparison with VFDTc, a state-of-the-art decision-tree algorithm for classifying data streams.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号