首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
杨丰瑞 《计算机应用研究》2020,37(9):2625-2628,2633
高维复杂数据处理是数据挖掘领域中的关键问题,针对现有特征选择分类算法存在的预测精确度失衡、整体分类效率低下等问题,提出了一种结合概率相关性和极限随机森林的特征选择分类算法(P-ERF)。该算法使用充分考虑特征之间相关性与P值结合的特征选择方式,避免了树节点分裂过程中造成的冗余性问题;并以随机树为基分类器、极限随机森林为整体框架,使P-ERF算法获得了更高的精准度和更好的泛化误差。实验结果表明,P-ERF算法相较于随机森林算法、极限随机森林算法,在数据集分类精度与整体性方面均得到良好的效果。  相似文献   

2.
《微型机与应用》2016,(3):28-30
随机森林可以产生高准确度的分类器,被广泛用于解决模式识别问题。然而,随机森林赋予每个决策树相同的权重,这在一定程度上降低了整个分类器的性能。为了解决这个问题,本文提出一种加权随机森林算法。该算法引入二次训练过程,提高分类正确率高的决策树投票权重,降低分类错误率高的决策树投票权重,从而提高整个分类器的分类能力。通过在不同数据集上的分类测试实验,证明了本文算法相比于传统的随机森林算法具有更强的分类性能。  相似文献   

3.
4.
王涌  陆卫  左楚涵  鲍明月 《传感技术学报》2021,34(11):1482-1488
为解决BOD传统测量耗时长、需要离线采样分析、实验操作复杂的问题,论文提出了一种基于特征重要性排序和LDA降维算法改进的随机森林模型用于BOD的快速软测量.改进随机森林模型将12维辅助特征向量降至3维特征向量,有效减少数据中存在的噪声与冗余信息,提升了随机森林模型的预测能力.仿真结果表明,改进后的随机森林模型相较于其他...  相似文献   

5.
基于改进的随机森林算法的入侵检测模型   总被引:7,自引:0,他引:7  
郭山清  高丛  姚建  谢立 《软件学报》2005,16(8):1490-1498
针对现有入侵检测算法对不同类型的攻击检测的不均衡性和对攻击的响应时间较差的问题.将随机森林算法引入到入侵检测领域,构造了基于改进的随机森林算法的入侵检测模型,并把这种算法用于基于网络连接信息的数据的攻击检测和异常发现.通过对DARPA数据的入侵检测实验,其结果表明,基于改进的随机森林算法的入侵检测模型是可行的、高效的,对数据集DARPA中所包含的4种类型的攻击检测具有良好的均衡性.  相似文献   

6.
全球气候变化对粮食安全和农业可持续发展造成威胁,冬小麦作为全球重要粮食作物之一,其快速和准确的信息提取对保障区域粮食稳定具有重要意义。采用在农作物识别和提取领域具有明显优势的随机森林算法,结合典型冬小麦种植区光谱特征、纹理特征和主成分特征实现了30m空间分辨率遥感影像下的冬小麦地块的特征选择和快速提取,并分析了不同特征空间组合方式下的提取效果。研究表明:在"光谱特征"、"光谱特征+纹理特征"、"光谱特征+纹理特征+主成分特征"3种特征空间组合下,第3种组合方式下的冬小麦提取效果最佳,总体精度可达到84.85%,分别高于前两种方式8.08%和6.88%。因此,利用随机森林算法结合多源特征信息,可以有效实现特定农作物如冬小麦的快速提取,并为区域作物进一步应用研究提供有效数据支撑。  相似文献   

7.
数据挖掘是大数据服务计算的一个重要方法,对于优化服务计算有重要意义。作为一种典型的数据挖掘方法,随机森林有着较高的正确率,因而得到广泛的应用。为了更加准确高效地处理服务计算中的大数据问题,进一步提升随机森林的正确率和效率,成为一项极其重要的研究。通过改变训练集的样本量和样本抽样方法,对平衡样本集和不平衡样本集进行分析,发现通过上述两个改进后,在优化区间内,平衡样本集泛化误差会减小12%~20%;单项改变抽样方法,可以使算法时间缩短,提升效率达10%~40%;对不平衡数据,也能够明显提升效率。理论和实验均证明,基于综合不放回抽样的随机森林算法改进能够提升平衡样本的正确率,使得该数据挖掘方法更适用于服务计算中的大数据分析和处理。  相似文献   

8.
森林优化特征选择算法(FSFOA)表现出色,但初始化方法的盲目性以及更新机制的局限性限制了该算法的性能。对FSFOA不足之处加以改进,提出自适应森林优化特征选择算法(AFSFOA)。在初始化过程中,加入特征权重评估算法;在更新机制上,使用自适应参数选择策略以及贪心搜索策略替代原始的更新机制。在不同维度的数据集上进行实验,对比实验结果表明,与FSFOA算法以及近年来提出的较高效的特征选择算法进行对比,在准确率以及维度约简上,AFSFOA算法有很强的竞争力。  相似文献   

9.
李鲜  王艳  罗勇  周激流 《计算机应用》2019,39(5):1485-1489
针对医学图像中存在的灰度对比度低、器官组织边界模糊等问题,提出一种新的随机森林(RF)特征选择算法用于鼻咽肿瘤MR图像的分割。首先,充分提取图像的灰度、纹理、几何等特征信息用于构建一个初始的随机森林分类器;随后,结合随机森林特征重要性度量,将改进的特征选择方法应用于原始手工特征集;最终,以得到的最优特征子集构建新的随机森林分类器对测试图像进行分割。实验结果表明,该算法对鼻咽肿瘤的分割精度为:Dice系数79.197%,Acc准确率97.702%,Sen敏感度72.191%,Sp特异性99.502%。通过与基于传统随机森林和基于深度卷积神经网络(DCNN)的分割算法对比可知,所提特征选择算法能有效提取鼻咽肿瘤MR图像中的有用信息,并较大程度地提升小样本情况下鼻咽肿瘤的分割精度。  相似文献   

10.
针对邮件过滤系统中普遍存在的维数灾难、类别主题差异和反馈信息缺失问题,提出一种基于类别特征选择与反馈学习随机森林算法的邮件过滤模型。该方法将隐含的Dirichlet模型引入到邮件的特征选择环节,在不同类型的邮件集中建立各自的生成模型,分别搜寻构成各个主题的特征信息,有效降低冗余信息和噪声数据对分类性能的影响。反馈学习随机森林算法发挥了决策树集成与反馈学习的优势,实现邮件过滤系统的自我调节,及时捕捉垃圾邮件的变化趋势。在公开的语料库CCERT和Trec06上进行测试,并与典型算法进行比较,实验结果表明所提算法的可行性和有效性。  相似文献   

11.
针对传统随机森林随特征数增加计算消耗高的问题,提出了一种随机森林多特征置换算法.该算法对数据特征进行聚类,保持其他特征簇不变,逐一对同簇特征同时随机置换,得到全部特征簇的重要性得分及簇间排序.簇内特征按与分类信息的相关程度排序,引入相关性阈值选出重要特征,对剩余特征按先簇间、再簇内的规则进行排序.为了进一步比较该方法的...  相似文献   

12.
为解决Webshell检测特征覆盖不全、检测算法有待完善的问题,论文提出一种基于随机森林的Webshell检测方法。首先对三种类型的Webshell进行深入特征分析,构建多维特征向量较全面的覆盖静态属性和动态行为,改进随机森林特征选取方法,依据Fisher比度量特征重要性,对子类的依赖特征进行划分,按比例和顺序从中选择特征,克服特征选择完全随机带来的弊端,提高决策树分类强度,降低树间相关度。实验对随机森林改进算法和标准算法进行了对比分析,结果表明改进算法依靠更少的决策树就能达到很好效果,并进一步与SVM算法进行比较,证明了该方法在Webshell检测问题上具有一定优越性。  相似文献   

13.
目前,我国电网企业对于识别停电投诉风险,开展用户停电敏感程度分析的研究工作还处在起步阶段.为了有效地分析停电用户的敏感程度,提出了一种基于改进随机森林算法的停电敏感用户分类算法.首先,对原始数据进行清洗、特征选择等预处理;接着,采用SMOTE算法增加少数敏感用户样本数据量,解决数据分布不均匀问题;然后,以Fisher比作为特征的重要性度量,按比例随机采样选取具有代表性的特征构成子特征空间;最后,利用随机森林算法识别停电敏感用户.通过在真实停电数据上的实验,验证了提出的方法不仅具有较好的准确性和时间性能,而且可以有效处理高维、冗余特征的数据.  相似文献   

14.
构建个人信用风险评估模型的过程中, 特征工程很大程度上决定了评估器的性能, 传统的特征选择方法无法全面的考虑高维度指标对评估结果的影响, 且大多数研究在构建模型的过程中人为决定特征集大小, 导致随机性强、可信度低; 基于此, 提出基于传统风控指标优化XGBoost的随机森林模型(IV-XGBoostRF), 将传统风控指标IV与XGBoost相结合对原始特征集进行筛选, 建立较为完善的信用评估模型. 通过对比实验的结果显示改进后的随机森林模型准确度提高了0.90%, 且其他各项评估指标均优于传统信用评估模型, 证明了该组合特征选择方法的可行性, 有一定的应用价值.  相似文献   

15.
文章对几种随机抽样算法进行了分析,在随机抽取交换法的基础上,针对其存在的缺点,提出了一种改进的随机抽样算法,并给出了算法实现.结果表明该算法简单可行.  相似文献   

16.
针对随机森林算法中节点分裂方式单一且相似的问题,提出一种改进节点分裂方式的优化算法,将算法中独立的节点分裂方式ID3与CART进行重新组合,通过自适应参数选择得到新的分裂规则,用于最优属性的选择划分并应用于图像分类问题.首先以词袋模型为基础,加入空间金字塔结构来提取图像特征,并将其量化成视觉词汇,最后结合Spark平台用改进节点分裂方式的随机森林算法实现图像分类.实验结果表明,通过选择组合算法的最优系数,该算法有效提高图像分类准确率,并保证算法运行效率.  相似文献   

17.
提出一种基于Adaboost方法的随机森林销售量预测方法. 首先对销售量的影响因素进行了特征分析,确定了训练数据的特征和维度. 然后采用基于Adaboost的随机森林销量预测方法对特征数据进行训练并给出了预测算法的步骤. 最后使用python进行了仿真实验,实验结果表明,该方法可以有效提高随机森林的回归性能,且预测精度高,具有较强的泛化能力.  相似文献   

18.
为解决Android恶意软件检测问题,提出一种利用多特征基于改进随机森林算法的Android恶意软件静态检测模型.模型采用了基于行为的静态检测技术,选取Android应用的权限、四大组件、API调用以及程序的关键信息如动态代码、反射代码、本机代码、密码代码和应用程序数据库等属性特征,对特征属性进行优化选择,并生成对应的...  相似文献   

19.
随机森林在bootstrap的基础上通过对特征进行抽样构建决策树,以牺牲决策树准确性的方式来降低决策树间的相关性,从而提高预测的准确性。但在数据规模较大时,决策树间的相关性仍然较高,导致随机森林的性能表现不佳。为解决该问题,提出一种基于袋外预测的改进算法,通过提高决策树的准确性来提升随机森林的预测性能。将随机森林的袋外预测与原特征相结合并重新训练随机森林,以有效降低决策树的VC-dimension、经验风险、泛化风险并提高其准确性,最终提升随机森林的预测性能。然而,决策树准确性的提高会使决策树间的预测趋于相近,提升了决策树间的相关性从而影响随机森林最终的预测表现,为此,通过扩展空间算法为不同决策树生成不同的特征,从而降低决策树间的相关性而不显著降低决策树的准确性。实验结果表明,该算法在32个数据集上的平均准确率相对原始随机森林提高1.7%,在校正的paired t-test上,该方法在其中19个数据集上的预测性能显著优于原始随机森林。  相似文献   

20.
传统随机森林分类算法采用平均多数投票规则不能区分强弱分类器,而且算法中超参数的取值需要调节优化.在研究了随机森林算法在文本分类中的应用技术及其优缺点的基础上对其进行改进,一方面对投票方法进行优化,结合决策树的分类效果和预测概率进行加权投票,另一方面提出一种结合随机搜索和网格搜索的算法对超参数调节优化.Python环境下的实验结果表明本文方法在文本分类上具有良好的性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号