首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
提出一种改进随机森林算法(SP-RF).通过建立数据抽样索引表和随机特征索引表来实现随机森林算法在Spark上的并行化;通过计算随机森林算法中每个决策树的AUC值来给分类能力不同的决策树分配权重;提高随机森林算法在投票环节的分类精度.实验结果表明改进后的随机森林算法分类精度平均提高5%,运行时间平均减少25%以上.  相似文献   

2.
改进的随机森林及其在遥感图像中的应用   总被引:1,自引:0,他引:1  
对于遥感图像训练样本获取难的问题,引入适用于小样本分类的随机森林算法。为了随机森林能在小样本情况下有更优的分类效果和更高的稳定性,在决策树基础上提出了一种更加随机的特征组合的方法,降低了决策树之间的相关性,从而降低了森林的泛化误差;引入人工免疫算法来对改进后的随机森林进行压缩优化,很好地权衡了森林规模和分类稳定性、精度的矛盾。通过UCI数据集的实验表明,改进的随机森林的有效性及其优化的模型的可行性,优化后森林的规模降低了,且有更高的分类精度。在遥感图像上与传统的方法进行了对比。  相似文献   

3.
面向对象随机森林方法在湿地植被分类的应用   总被引:1,自引:0,他引:1  
针对湿地植被精细分类的研究较少、分类精度不高的问题,提出了面向对象随机森林湿地植被分类方法。面向对象分割技术可减少"椒盐效应",随机森林分类算法具有高准确度、抗噪能力强、性能稳定等优势。鉴于此,通过调整面向对象的分割参数与随机森林中树的深度、个数等,构建了最优的面向对象随机森林分类模型。另外,选择了支持向量机分类算法和决策树分类算法作对比实验。实验结果显示,面向对象随机森林分类算法的总体精度达到88.3%,明显高于支持向量机算法和决策树算法,能够有效提高湿地植被分类的精度。  相似文献   

4.
师彦文  王宏杰 《计算机科学》2017,44(Z11):98-101
针对不平衡数据集的有效分类问题,提出一种结合代价敏感学习和随机森林算法的分类器。首先提出了一种新型不纯度度量,该度量不仅考虑了决策树的总代价,还考虑了同一节点对于不同样本的代价差异;其次,执行随机森林算法,对数据集作K次抽样,构建K个基础分类器;然后,基于提出的不纯度度量,通过分类回归树(CART)算法来构建决策树,从而形成决策树森林;最后,随机森林通过投票机制做出数据分类决策。在UCI数据库上进行实验,与传统随机森林和现有的代价敏感随机森林分类器相比,该分类器在分类精度、AUC面积和Kappa系数这3种性能度量上都具有良好的表现。  相似文献   

5.
随机森林(RF)具有抗噪能力强,预测准确率高,能够处理高维数据等优点,因此在机器学习领域得到了广泛的应用。模型决策树(MDT)是一种加速的决策树算法,虽然能够提高决策树算法的训练效率,但是随着非纯伪叶结点规模的增大,模型决策树的精度也在下降。针对上述问题,提出了一种模型决策森林算法(MDF)以提高模型决策树的分类精度。MDF算法将MDT作为基分类器,利用随机森林的思想,生成多棵模型决策树。算法首先通过旋转矩阵得到不同的样本子集,然后在这些样本子集上训练出多棵不同的模型决策树,再将这些树通过投票的方式进行集成,最后根据得到的模型决策森林给出分类结果。在标准数据集上的实验结果表明,提出的模型决策森林在分类精度上明显优于模型决策树算法,并且MDF在树的数量较少时也能取到不错的精度,避免了因树的数量增加时间复杂度增高的问题。  相似文献   

6.
为提高决策树的集成分类精度,介绍了一种基于特征变换的旋转森林分类器集成算法,通过对数据属性集的随机分割,并在属性子集上对抽取的子样本数据进行主成分分析,以构造新的样本数据,达到增大基分类器差异性及提高预测准确率的目的。在Weka平台下,分别采用Bagging、AdaBoost及旋转森林算法对剪枝与未剪枝的J48决策树分类算法进行集成的对比试验,以10次10折交叉验证的平均准确率为比较依据。结果表明旋转森林算法的预测精度优于其他两个算法,验证了旋转森林是一种有效的决策树分类器集成算法。  相似文献   

7.
通过遥感技术获取大范围土地覆盖信息对于监测、理解和预测自然资源具有重要的科学意义.MODIS数据是当今宏观尺度土地覆盖研究的主要数据源.本文以河北省为研究区,应用MOD13Q1数据产品,构建MODIS NDVI时间序列,从中反演物候特征作为参与分类的主要辅助信息,并采用随机森林分类方法进行宏观尺度土地覆被分类实验,并与单决策树(CART)进行对比分析.实验结果表明,物候特征辅助下的随机森林宏观尺度土地覆被分类方法的总体精度为87.2%,Kappa系数为0.83,比CART单一决策树精度提高了17.9%;应用物候特征参与分类,使得总体精度提高2.6%;其中,旱地和建筑用地精度分别提高了6.7%和11.9%.  相似文献   

8.
随机森林在bootstrap的基础上通过对特征进行抽样构建决策树,以牺牲决策树准确性的方式来降低决策树间的相关性,从而提高预测的准确性。但在数据规模较大时,决策树间的相关性仍然较高,导致随机森林的性能表现不佳。为解决该问题,提出一种基于袋外预测的改进算法,通过提高决策树的准确性来提升随机森林的预测性能。将随机森林的袋外预测与原特征相结合并重新训练随机森林,以有效降低决策树的VC-dimension、经验风险、泛化风险并提高其准确性,最终提升随机森林的预测性能。然而,决策树准确性的提高会使决策树间的预测趋于相近,提升了决策树间的相关性从而影响随机森林最终的预测表现,为此,通过扩展空间算法为不同决策树生成不同的特征,从而降低决策树间的相关性而不显著降低决策树的准确性。实验结果表明,该算法在32个数据集上的平均准确率相对原始随机森林提高1.7%,在校正的paired t-test上,该方法在其中19个数据集上的预测性能显著优于原始随机森林。  相似文献   

9.
随机森林分类算法在产生决策树以及投票流程中各个决策树的分类准确度各不相同,由此带来的问题是少部分决策树会影响随机森林算法的整体分类性能。除此以外,数据集中的不平衡数据也能影响到决策树的分类精度。针对以上缺点,对Bootstrap抽样方法添加约束条件,以降低非平衡数据对生成决策树的影响;以及利用袋外数据(Outof-Bagging)和非平衡系数对生成的决策树进行评估加权。试验结果表明,所提算法改善了随机森林对不平衡数据的分类精度。  相似文献   

10.
随机森林是一种有效的集成学习算法,被广泛应用于模式识别中。为了得到更高的预测精度,需要对参数进行优化。提出了一种基于袋外数据估计的分类误差,利用改进的网格搜索算法对随机森林算法中的决策树数量和候选分裂属性数进行参数优化的随机森林算法。仿真结果表明,利用该方法优化得到的参数都能够使随机森林的分类效果得到一定程度的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号