共查询到18条相似文献,搜索用时 78 毫秒
1.
针对基于单机的经典随机森林算法无法满足海量数据处理需求的问题,文中采用Spark分布式存储计算技术设计并实现了改进的随机森林算法。首先计算特征的重要程度,将特征分为公共特征、独有特征和非重要特征;然后按顺序和比例分别在各个特征子空间中随机选择特征;最后通过Spark集群进行实验,分析改进的随机森林算法分类性能、加速比和效率。结果证实改进的算法提高了随机森林构建效率,可以用来解决海量数据挖掘问题,具有良好的可扩展性。 相似文献
2.
为了解决随机森林在处理高维连续型数据时的不相容信息问题,一定程度上提高算法的准确率与计算效率,结合最大相关最小冗余的思想,提出了一种融合最大信息系数的随机森林算法(random forest algorithm combining maximum information coefficient,MICRF).首先运用最... 相似文献
3.
精确的网络流量分类是实现互联网可控可管的关键,传统的单一分类算法需要构建基于特定假设的某种模型,算法对于待分类数据的分布要求高,不能满足复杂多变的网络流量的分类要求。基于此,采用多决策树组合的随机森林算法实现网络流量分类。通过实际网络流量数据实验表明,在各种情况下,随机森林算法都能显著改善网络流量特别是小比例样本的分类效果,算法降低了单一算法过于依赖特定假设模型的要求,对于待分类样本的分布要求低,随机森林算法具有良好的分类效果和鲁棒性。 相似文献
4.
目前主机在人们的工作和生活中起着重要作用,网络安全问题愈演愈烈,因此对网络中的主机进行安全检测变得十分迫切。文中用随机森林进行分类,使用训练集构建多组基本的分类模型,然后根据分类模型的投票结果判断主机是否安全。随机森林在分类模型中具有其先天优势,作为一种非线性分类方法其对异常值和噪声具有更好的容忍度。仿真实验结果表明,此检测模型与传统检测模型相比提高了分类精度。 相似文献
5.
6.
智能电网多源数据具有海量化与复杂化特征,导致智能电网多源数据异常检测的难度增加,为此设计基于随机森林的智能电网多源数据异常检测算法。构建随机森林应用模型,根据评估指标选取结果,计算暂态稳定裕度指标的具体数值,实现对智能电网多源数据的暂态稳定性评估。设置Hadoop检测框架,通过求解多源数据负荷特征判断异常值检测系数所属取值范围,完成算法的设计。实验结果表明,异常多源信息的最大传输速率只能达到2.36 MB/ms,而常规数据传输速率却不会受到明显影响,说明设计方法能够有效提升智能电网主机对异常数据的检测能力。 相似文献
7.
针对目前复杂场景中人体目标的识别率低、误检率高的问题,提出了一种基于HOG的随机森林分类器,将HOG算法对图像局部区域外观和形状的良好表征和随机森林分类器稳健的目标分类性能和效果有效结合,并将其性能与二叉树、Ada-Boost和SVM等分类器进行了比较,证明其具有较好的鲁棒性,且在复杂场景中得到了有效验证. 相似文献
8.
fMRI数据是典型的高维小样本数据,如何从高维数据中提取和选择重要的特征是正确分类识别的关键.结合fMRI数据自身特点,提出了一种应用随机森林算法进行特征选择的方法,以随机森林分类精度为准则函数对特征进行重要性度量的方式实现特征选择.将本方法应用于健康者和精神分裂症患者的识别中,通过计算每个特征对分类的贡献度,优选出贡献度大的特征用于分类识别,同时根据重要特征的序号定位到相应脑区,给临床诊断提供客观参照.实验结果表明,该方法具有较好的效果. 相似文献
9.
为提高模拟电路参变故障的诊断率,提出基于多特征向量提取和随机森林(RF)算法的模拟电路故障诊断新方法。采用时域和频域特征向量组合的多维特征向量以反映不同故障特征,经RF算法进行决策,并对决策树棵数及候选特征向量个数进行优化。故障诊断实验结果表明,所提方法能较好地实现容差模拟电路故障诊断,与支持向量机(SVM)方法相比,表现出更好的分类性能;与小波(包)特征提取方法相比,简化了多维数据特征提取步骤,易于实现在线故障诊断。 相似文献
10.
随着信息技术的发展,工业互联网技术已经被应用到工业大数据生产的各个环节,基于大数据技术的数据采集、数据存储、数据处理、数据分析和数据可视化等模块的技术应用也越来越走向成熟和高端。但是数据异常在生产过程中带来的风险始终是企业不可忽视的问题。文章对工业大数据的实时数据进行特征提取、数据处理,采用随机森林算法对工业大数据进行训练、构建模型,将实时数据输入模型中,动态更新参数以提高模型的分类精度,输出分类结果,最终在工业生产过程中对工业大数据进行故障预警并进行故障分析。 相似文献
11.
12.
为了得到一种实用性较强且具有较高精度的大学英语四级通过率的预测模型,本文尝试将随机森林模型应用到大学英语四级通过率预测中,以学生基本情况(性别、民族、专业)、高考英语成绩、大学英语成绩(共计4学期)、大学生课外英语使用统计数据为输入变量,以通过英语四级和未通过英语四级作为分类变量,建立基于随机森林预测模型.实验结果表明... 相似文献
13.
半导体生产线是典型多重入复杂的制造系统,具有可重入性、复杂性、不确定性、多目标和多约束等特点,其优化调度问题是近年来控制领域的一个重要研究方向.本文根据近些年来这一研究方向上的主要研究成果,系统评述了国内外半导体生产线调度的建模方法和调度策略的研究进展,分析和讨论它们各自的主要优缺点和适用范围,简要介绍了重调度判定依据及所采用的方法,并指出半导体制造领域中值得进一步研究的一些问题和可能发展的方向. 相似文献
14.
15.
Zhendong Bei Zhibin Yu Huiling Zhang Chengzhong Xu Shenzhong Feng Zhenjiang Dong Hengsheng Zhang 《中兴通讯技术(英文版)》2013,(2):38-44
Map Reduce is a programming model for processing large data sets,and Hadoop is the most popular open-source implementation of MapReduce.To achieve high performance,up to 190 Hadoop configuration parameters must be manually tunned.This is not only time-consuming but also error-pron.In this paper,we propose a new performance model based on random forest,a recently developed machine-learning algorithm.The model,called RFMS,is used to predict the performance of a Hadoop system according to the system’s configuration parameters.RFMS is created from 2000 distinct fine-grained performance observations with different Hadoop configurations.We test RFMS against the measured performance of representative workloads from the Hadoop Micro-benchmark suite.The results show that the prediction accuracy of RFMS achieves 95% on average and up to 99%.This new,highly accurate prediction model can be used to automatically optimize the performance of Hadoop systems. 相似文献
16.
采用人工智能方法对乳腺肿瘤进行自动诊断实质是对乳腺显微图像进行模式分类识别问题,比传统的人工诊断方法具有更高的准确率和效率,从而提高肿瘤治疗效果。基于随机森林的分类器具有良好的泛化性能,首先讨论了随机森林模型的建立,然后利用训练好的模型对乳腺肿瘤数据进行分类测试,最后讨论了影响随机森林分类器性能的因素以及如何选择随机森林里的决策树的数量。仿真实验表明,利用随机森林分类器对乳腺肿瘤进行分类识别比采用BP、LVQ神经网络、决策树方法可以获得更好的泛化性能。 相似文献
17.