首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
随机搜索法是对无约束力问题寻找最优解的一种算法.随机森林是一种集成算法,为了提高随机森林分类的准确率,需要对参数进行调参.随机森林可以通过网格搜索算法或学习曲线算法选取到合适的参数,但是训练时间过长,消耗资源过大.本文通过对随机搜索算法改进,利用改进的随机搜索算法优化随机森林调参.经过实验验证,改进的算法选取到的参数保...  相似文献   

2.
针对传统随机森林算法在维度高、噪声大的文本分类上出现计算复杂度高和分类效果较差的问题,提出一种基于隐狄利克雷分配(LDA)主题模型的改进随机森林算法。该算法利用LDA主题模型对原始文本建立模型,将原始文本映射到主题空间上,保证了文本主旨与原始文本的一致性,同时也大大降低了文本噪声对分类的影响;并且针对随机森林中决策树特征的随机选择方法,提出在决策树生成过程中,利用对称不确定计算各个特征之间的相关性,从而可以降低不同决策树之间的关联度。最终在主题空间上利用改进的随机森林算法对文本进行分类。经过实验证明,该算法在文本分类上具有良好的优越性。  相似文献   

3.
随机森林是一种有效的集成学习算法,被广泛应用于模式识别中。为了得到更高的预测精度,需要对参数进行优化。提出了一种基于袋外数据估计的分类误差,利用改进的网格搜索算法对随机森林算法中的决策树数量和候选分裂属性数进行参数优化的随机森林算法。仿真结果表明,利用该方法优化得到的参数都能够使随机森林的分类效果得到一定程度的提高。  相似文献   

4.
面对海量增长的互联网舆情信息,对这些舆情文本信息进行分类成为一项非常有意义的任务。首先,文章给出了文本文档的表示模型及特征选择函数的选取。然后,分析了随机森林算法在分类学习算法中的特点,提出了通过构建一系列的文档决策树来完成文档所属类别的判定。在实验中,收集了大量的网络媒体语料,并设定了训练集和测试集,通过对比测试得到了常见算法(包括k NN、SMO、SVM)与本算法RF的对比量化性能数据,证明了本文提出的算法具有较好的综合分类率和分类稳定性。  相似文献   

5.
为解决Android恶意软件检测问题,提出一种利用多特征基于改进随机森林算法的Android恶意软件静态检测模型.模型采用了基于行为的静态检测技术,选取Android应用的权限、四大组件、API调用以及程序的关键信息如动态代码、反射代码、本机代码、密码代码和应用程序数据库等属性特征,对特征属性进行优化选择,并生成对应的...  相似文献   

6.
彭徵  王灵矫  郭华 《计算机科学》2018,45(12):148-152
文本分类是信息检索的核心技术。传统的文本分类系统由于单机的计算与存储能力有限,已经不适用于大数据时代。在Spark大数据平台上并行地运行算法对文本进行分类,以数据和任务的并行化来提高算法的效率具有现实性和紧迫性。文中提出了改进的不平衡数据随机森林算法,通过对训练样本的多数类进行欠取样且对少数类进行有放回取样从而形成新训练样本的方法来减少不平衡数据对随机森林的影响。实验结果表明,新算法在处理不平衡数据集上的少数类时提高了分类的正确率。  相似文献   

7.
针对随机森林算法中节点分裂方式单一且相似的问题,提出一种改进节点分裂方式的优化算法,将算法中独立的节点分裂方式ID3与CART进行重新组合,通过自适应参数选择得到新的分裂规则,用于最优属性的选择划分并应用于图像分类问题.首先以词袋模型为基础,加入空间金字塔结构来提取图像特征,并将其量化成视觉词汇,最后结合Spark平台用改进节点分裂方式的随机森林算法实现图像分类.实验结果表明,通过选择组合算法的最优系数,该算法有效提高图像分类准确率,并保证算法运行效率.  相似文献   

8.
邓晶  李路 《软件》2020,(1):178-182
为了提高股票预测的正确率,参照股票研究的指标体系,以股票的相对强弱、变动速率、能量潮、异同移动平均线以及威廉指标五个纯技术指标作为股票预测的特征。通过网格搜索对随机森林的参数进行了优化,构建基于纯技术指标的和参数优化随机森林的股票预测模型,并以平安银行、万科、深振业A、神州高铁、美丽生态2017年4月30日到2019年6月30日所有交易日作为实验室数据,实验结果与原始随机森林、决策树以及支持向量机分类模型对比,证实了参数优化后的随机森林股票预测模型在模型评价中的准确率和AUC值都高于其他模型。  相似文献   

9.
对随机森林算法进行研究,该算法结构基于Bagging模型。因为随机森林中的多个决策树希望训练集覆盖面越广、差异性越大,则训练出的模型越理想。因此,提出Pre_RandomForest模型,该模型在中文图书分类前进行除了预处理(去停用词、分词)、词向量化以外,还对样本加权,使得原始数据集中每个样本的关注度有所区别。在相同测试集上实验,Pre_RandomForest的平均准确率为90.20%,常见的模型算法Bert、FastText、TextCNN等直接对中文图书分类的平均准确率在84.41%~88.33%之间,Pre_RandomForest与其他算法比较具有一定的竞争力。  相似文献   

10.
基于词的向量空间模型是文本分类中的传统的表示文本的方法。这种表示方法的一个缺点是忽略了词之间的关系。最近一些使用潜在主题文本表示的方法,如隐含狄利克雷分配LDA (Latent Dirichlet Allocation)引起了人们的注意,这种表示方法可以处理词之间的关系。但是,只使用基于潜在主题的文本表示可能造成词信息的损失。我们使用改进的随机森林方法结合基于词的和基于LDA主题的两种文本表示方法。 对于两类特征分别构造随机森林,最终分类结果通过投票机制决定。在标准数据集上的实验结果表明,相比只使用一种文本特征的方法,我们的方法可以有效地结合两类特征,提高文本分类的性能。  相似文献   

11.
目前,我国电网企业对于识别停电投诉风险,开展用户停电敏感程度分析的研究工作还处在起步阶段.为了有效地分析停电用户的敏感程度,提出了一种基于改进随机森林算法的停电敏感用户分类算法.首先,对原始数据进行清洗、特征选择等预处理;接着,采用SMOTE算法增加少数敏感用户样本数据量,解决数据分布不均匀问题;然后,以Fisher比作为特征的重要性度量,按比例随机采样选取具有代表性的特征构成子特征空间;最后,利用随机森林算法识别停电敏感用户.通过在真实停电数据上的实验,验证了提出的方法不仅具有较好的准确性和时间性能,而且可以有效处理高维、冗余特征的数据.  相似文献   

12.
TF-IDF算法是文本挖掘领域的经典算法,TF-IDF算法在文本分类时会使关键词权值发生波动,对该算法在分类时权值做全局化定义,可提高文本分类准确率。  相似文献   

13.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

14.
情感倾向性分类是自然语言处理领域中的热门话题,它的一个重要应用是挖掘线上评论中的重要信息,掌握网络舆论走向,因此本文提出一种基于GDBN网络的文本情感倾向性分类算法.该算法通过引入遗传算法来改进深度置信网络模型中的隐层,使模型自行对隐单元个数寻优,取得当前模型的适宜值,并以此模型进行深层建模与特征提取.最后通过反向传播网络对提取到的特征进行情感倾向性分类.在多个文本数据集上进行实验验证,验证结果表明了本文算法的有效性.  相似文献   

15.
KNN(K-Nearest Neighbor)是向量空间模型中最好的文本分类算法之一。但是,当样本集较大以及文本向量维数较多时,KNN算法分类的效率就会大大降低。该文提出了一种提高KNN分类效率的改进算法。算法在训练过程中计算出各类文本的分布范围,在分类过程中,根据待分类文本向量在样本空间中的分布位置,缩小其K最近邻搜索范围。实验表明改进的算法可以在保持KNN分类性能基本不变的情况下,显著提高分类效率。  相似文献   

16.
随机森林(random forest,RF)算法虽应用广泛且分类准确度很高,但在面对特征维度高且不平衡的数据时,算法分类性能被严重削弱。高维数据通常包含大量的无关和冗余的特征,针对这个问题,结合权重排序和递归特征筛选的思想提出了一种改进的随机森林算法RW_RF(ReliefF&wrapper random forest)。首先引用ReliefF算法对数据集的所有特征按正负类分类能力赋予不同的权值,再递归地删除冗余的低权值特征,得到分类性能最佳的特征子集来构造随机森林;同时改进ReliefF的抽样方式,以减轻不平衡数据对分类模型的影响。实验结果显示,在特征数目很多的数据集中,改进算法的各评价指标均高于原算法,证明提出的RW_RF算法有效精简了特征子集,减轻了冗余特征对模型分类精度的影响,同时也证明了改进算法对处理不平衡数据起到了一定的效果。  相似文献   

17.
为解决Webshell检测特征覆盖不全、检测算法有待完善的问题,论文提出一种基于随机森林的Webshell检测方法。首先对三种类型的Webshell进行深入特征分析,构建多维特征向量较全面的覆盖静态属性和动态行为,改进随机森林特征选取方法,依据Fisher比度量特征重要性,对子类的依赖特征进行划分,按比例和顺序从中选择特征,克服特征选择完全随机带来的弊端,提高决策树分类强度,降低树间相关度。实验对随机森林改进算法和标准算法进行了对比分析,结果表明改进算法依靠更少的决策树就能达到很好效果,并进一步与SVM算法进行比较,证明了该方法在Webshell检测问题上具有一定优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号